资讯专栏INFORMATION COLUMN

实战!《长津湖》为什么这么火爆?我用 Python 来分析猫眼影评

lijy91 / 3244人阅读

摘要:作者周萝卜链接长津湖猫眼影评欢迎关注,专注数据分析数据挖掘好玩工具对于这个十一黄金周的电影市场,绝对是长津湖的天下,短短几天,票房就已经突破亿,大有奋起直追战狼的尽头。

作者:周萝卜 链接:长津湖猫眼影评
欢迎关注 ,专注Python、数据分析、数据挖掘、好玩工具!

对于这个十一黄金周的电影市场,绝对是《长津湖》的天下,短短几天,票房就已经突破36亿,大有奋起直追《战狼2》的尽头。而且口碑也是相当的高,猫眼评分高达9.5,绝对的票房口碑双丰收啊

下面我们就通过爬取猫眼的电影评论,进行相关的可视化分析,看看为什么这部电影是如此的受欢迎,最后还进行了简单的票房预测,你一定不能错过哦,欢迎收藏学习,点赞支持,喜欢技术交流的可以文末技术交流群。

数据获取

猫眼评论爬取,还是那么老一套,直接构造 API 接口信息即可

url = "https://m.maoyan.com/mmdb/comments/movie/257706.json?v=yes&offset=30"payload={}headers = {  "Cookie": "_lxsdk_cuid=17c188b300d13-0ecb2e1c54bec6-a7d173c-100200-17c188b300ec8; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1633622378; _lx_utm=utm_source%3DBaidu%26utm_medium%3Dorganic; __mta=87266087.1633622378325.1633622378325.1633622378325.1; uuid_n_v=v1; iuuid=ECBA18D0278711EC8B0DFD12EB2962D2C4A641A554EF466B9362A58679FDD6CF; webp=true; ci=55%2C%E5%8D%97%E4%BA%AC; ci=55%2C%E5%8D%97%E4%BA%AC; ci=55%2C%E5%8D%97%E4%BA%AC; featrues=[object Object]; _lxsdk=92E6A4E0278711ECAE4571A477FD49B513FE367C52044EB5A6974451969DD28A; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1633622806",  "Host": "m.maoyan.com",  "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36"}response = requests.request("GET", url, headers=headers, data=payload)print(response.json())

这么几行代码,我们就可以得到如下结果

获取到数据后,我们就可以解析返回的 json 数据,并保存到本地了
先写一个保存数据的函数

def save_data_pd(data_name, list_info):    if not os.path.exists(data_name + r"_data.csv"):        # 表头        name = ["comment_id","approve","reply","comment_time","sureViewed","nickName",                "gender","cityName","userLevel","user_id","score","content"]        # 建立DataFrame对象        file_test = pd.DataFrame(columns=name, data=list_info)        # 数据写入        file_test.to_csv(data_name + r"_data.csv", encoding="utf-8", index=False)    else:        with open(data_name + r"_data.csv", "a+", newline="", encoding="utf-8") as file_test:            # 追加到文件后面            writer = csv.writer(file_test)            # 写入文件            writer.writerows(list_info)

直接通过 Pandas 来保存数据,可以省去很多数据处理的事情

接下来编写解析 json 数据的函数

def get_data(json_comment):    list_info = []    for data in json_comment:        approve = data["approve"]        comment_id = data["id"]        cityName = data["cityName"]        content = data["content"]        reply = data["reply"]        # 性别:1男,2女,0未知        if "gender" in data:            gender = data["gender"]        else:            gender = 0        nickName = data["nickName"]        userLevel = data["userLevel"]        score = data["score"]        comment_time = data["startTime"]        sureViewed = data["sureViewed"]        user_id = data["userId"]        list_one = [comment_id, approve, reply,  comment_time, sureViewed, nickName, gender, cityName, userLevel,                     user_id, score, content]        list_info.append(list_one)    save_data_pd("maoyan", list_info)

我们把几个主要的信息提取出来,比如用户的 nickname,评论时间,所在城市等等

最后把上面的代码整合,并构造爬取的 url 即可

def fire():    tmp = "https://m.maoyan.com/mmdb/comments/movie/257706.json?v=yes&offset="    payload={}    headers = {      "Cookie": "_lxsdk_cuid=17c188b300d13-0ecb2e1c54bec6-a7d173c-100200-17c188b300ec8; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1633622378; _lx_utm=utm_source%3DBaidu%26utm_medium%3Dorganic; __mta=87266087.1633622378325.1633622378325.1633622378325.1; uuid_n_v=v1; iuuid=ECBA18D0278711EC8B0DFD12EB2962D2C4A641A554EF466B9362A58679FDD6CF; webp=true; ci=55%2C%E5%8D%97%E4%BA%AC; ci=55%2C%E5%8D%97%E4%BA%AC; ci=55%2C%E5%8D%97%E4%BA%AC; featrues=[object Object]; _lxsdk=92E6A4E0278711ECAE4571A477FD49B513FE367C52044EB5A6974451969DD28A; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1633622806",      "Host": "m.maoyan.com",      "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36"    }    for i in range(0, 3000, 15):        url = tmp + str(i)        print(url)        response = requests.request("GET", url, headers=headers, data=payload)        comment = response.json()        if not comment.get("hcmts"):            break        hcmts = comment["hcmts"]        get_data(hcmts)        cmts = comment["cmts"]        get_data(cmts)        time.sleep(10)

爬取过程如下

保存到本地的数据如下

下面我们就可以进行相关的可视化分析了

可视化分析

1 数据清洗

我们首先根据 comment_id 来去除重复数据

df_new = df.drop_duplicates(["comment_id"])

对于评论内容,我们进行去除非中文的操作

def filter_str(desstr,restr=""):    #过滤除中文以外的其他字符    res = re.compile("[^/u4e00-/u9fa5^,^,^.^。^【^】^(^)^(^)^“^”^-^!^!^?^?^]")    # print(desstr)    res.sub(restr, desstr)

2 评论点赞及回复榜

我们先来看看哪些评论是被点赞最多的

approve_sort = df_new.sort_values(by=["approve"], ascending=False)approve_sort = df_new.sort_values(by=["approve"], ascending=False)x_data = approve_sort["nickName"].values.tolist()[:10]y_data = approve_sort["approve"].values.tolist()[:10]b = (Bar()     .add_xaxis(x_data)     .add_yaxis("",y_data)     .set_global_opts(title_opts = opts.TitleOpts(title="评论点赞前十名"))     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position="right"))     .reversal_axis())grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))grid.render_notebook()


可以看到位于榜首的是一个叫“琦寶”的观众写的评论,点赞量高达86027

再来看看评论回复的情况

reply_sort = df_new.sort_values(by=["reply"], ascending=False)x_data = reply_sort["nickName"].values.tolist()[:10]y_data = reply_sort["reply"].values.tolist()[:10]b = (Bar()     .add_xaxis(x_data)     .add_yaxis("",y_data)     .set_global_opts(title_opts = opts.TitleOpts(title="评论回复前十名"))     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position="right"))     .reversal_axis())grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))grid.render_notebook()

回复量最高的同样是“琦寶”的评论,很好奇,他到底写了什么呢,快来看看

df_new[df_new["nickName"].str.contains("琦寶")]["content"].values.tolist()[0]

Output:

"印象中第一次一大家子一起来看电影,姥爷就是志愿军,他一辈子没进过电影院,开始还担心会不会不适应,感谢影院工作人员的照顾,姥爷全程非常投入,我坐在旁边看到他偷偷抹了好几次眼泪,刚才我问电影咋样,一直念叨“好,好哇,我们那时候就是那样的,就是那样的……”/n忽然觉得历史长河与我竟如此之近,刚刚的三个小时我看到的是遥远的70年前、是教科书里的战争,更是姥爷的19岁,是真真切切的、他的青春年代!"

还真的是非常走心的评论,而且自己的家人就有经历过长津湖战役的经历,那么在影院观影的时候,肯定会有不一样的感受!

当然我们还可以爬取每条评论的reply信息,通过如下接口

https://i.maoyan.com/apollo/apolloapi/mmdb/replies/comment/1144027754.json?v=yes&offset=0

只需要替换 json 文件名称为对应的 comment_id 即可,这里就不再详细介绍了,感兴趣的朋友自行探索呀

下面我们来看一下整体评论数据的情况

3 各城市排行

来看看哪些城市的评论最多呢

result = df_new["cityName"].value_counts()[:10].sort_values()x_data = result.index.tolist()y_data = result.values.tolist()b = (Bar()     .add_xaxis(x_data)     .add_yaxis("",y_data)     .set_global_opts(title_opts = opts.TitleOpts(title="评论城市前十"))     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position="right"))     .reversal_axis())grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))grid.render_notebook()

一线大城市纷纷上榜,看来这些城市的爱国主义教育做的还是要好很多呀

再来看看城市的全国地图分布

result = df_new["cityName"].value_counts().sort_values()x_data = result.index.tolist()y_data = result.values.tolist()city_list = [list(z) for z in zip(x_data, y_data)]

可以看到,这个评论城市的分布,也是与我国总体经济的发展情况相吻合的

4 性别分布

再来看看此类电影,对什么性别的观众更具有吸引力

attr = ["其他","男","女"]b = (Pie()     .add("", [list(z) for z in zip(attr, df_new.groupby("gender").gender.count().values.tolist())])     .set_global_opts(title_opts = opts.TitleOpts(title="性别分布"))     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position="right")))grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))grid.render_notebook()

在填写了性别的数据当中,女性竟然多一些,这还是比较出乎意料的

5 是否观看

猫眼是可以在没有观看电影的情况下进行评论的,我们来看看这个数据的情况

result = df_new["sureViewed"].value_counts()[:10].sort_values().tolist()b = (Pie()     .add("", [list(z) for z in zip(["未看过", "看过"], result)])     .set_global_opts(title_opts = opts.TitleOpts(title="是否观看过"))     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position="right")))grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))grid.render_notebook()

大部分人都是在观看了之后才评论的,这要在一定程度上保证了评论和打分的可靠性

6 评分分布

猫眼页面上是10分制,但是在接口当中是5分制

result = df_new["score"].value_counts().sort_values()x_data = result.index.tolist()y_data = result.values.tolist()b = (Bar()     .add_xaxis(x_data)     .add_yaxis("",y_data)     .set_global_opts(title_opts = opts.TitleOpts(title="评分分布"))     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position="right"))     .reversal_axis())grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))grid.render_notebook()

可以看到5-4.5评论占据了大部分,口碑是真的好啊

7 评论时间分布

对于评论时间,我这里直接使用了原生的 echarts 来作图

from collections import Counter result = df_new["comment_time"].values.tolist()result = [i.split()[1].split(":")[0] + "点" for i in result]result_dict = dict(Counter(result))result_list = []for k,v in result_dict.items():    tmp = {}    tmp["name"] = k    tmp["value"] = v    result_list.append(tmp)children_dict = {"children": result_list}

示例地址:https://echarts.apache.org/examples/zh/editor.html?c=treemap-sunburst-transition

能够看出,在晚上的19点和20点,都是大家写评论的高峰期,一天的繁忙结束后,写个影评放松下

8 每天评论分布

接下来是每天的评论分布情况

result = df_new["comment_time"].values.tolist()result = [i.split()[0] for i in result]result_dict = dict(Counter(result))b = (Pie()     .add("", [list(z) for z in zip(result_dict.keys(), result_dict.values())])     .set_global_opts(title_opts = opts.TitleOpts(title="每天评论数量"))     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position="right")))grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))grid.render_notebook()

就目前来看,几乎所有的评论都集中在10月8号,难道是上班第一天,不想上班,只想摸鱼??

9 用户等级分布

来看下猫眼评论用户的等级情况,虽然不知道这个等级有啥用?

result = df_new["userLevel"].value_counts()[:10].sort_values()x_data = result.index.tolist()y_data = result.values.tolist()b = (Bar()     .add_xaxis(x_data)     .add_yaxis("",y_data)     .set_global_opts(title_opts = opts.TitleOpts(title="用户等级"))     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position="right"))     .reversal_axis())grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))grid.add(b, grid_opts=opts.GridOpts(pos_left="20%"))grid.render_notebook()

大家基本都是 level2,哈哈哈哈,普罗大众嘛

10 主创提及次数

我们再来看看在评论中,各位主创被提及的次数情况

name = ["吴京","易烊千玺","段奕宏","朱亚文","李晨","胡军","王宁","刘劲","卢奇","曹阳","李军","孙毅","易","易烊","千玺"]def actor(data, name):    counts = {}    comment = jieba.cut(str(data), cut_all=False)    # 去停用词    for word in comment:        if word in name:            if word 
                 
               
              

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/122432.html

相关文章

  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • Vue 电影信息影评(豆瓣,猫眼

    摘要:界面如下图电影详情展示此功能是提供电影详情的界面,包括演员上映时间导员剧情简介宣传视频宣传视频由于豆瓣官方的限制无法获取,所以只有正在热映板块从猫眼获取的电影信息才有。 Vue电影信息影评网站 此网站是我的毕业设计,题目是基于HTML5的电影信息汇总弄网站,由于最近在看Vue.js,所以就想用Vue.js来构建一个前端网站,这里code就不大篇幅的写了,主要讲一下网站的功能和所用到的技...

    hzc 评论0 收藏0
  • Vue 电影信息影评(豆瓣,猫眼

    摘要:界面如下图电影详情展示此功能是提供电影详情的界面,包括演员上映时间导员剧情简介宣传视频宣传视频由于豆瓣官方的限制无法获取,所以只有正在热映板块从猫眼获取的电影信息才有。 Vue电影信息影评网站 此网站是我的毕业设计,题目是基于HTML5的电影信息汇总弄网站,由于最近在看Vue.js,所以就想用Vue.js来构建一个前端网站,这里code就不大篇幅的写了,主要讲一下网站的功能和所用到的技...

    Nekron 评论0 收藏0
  • python爬虫实战一:分析豆瓣中最新电影的影评

    摘要:准备把豆瓣上对它的影评短评做一个分析。这样就得到了最新电影的信息了。例如战狼的短评网址为其中就是电影的,表示评论的第条评论。如下图所示好的,至此我们已经爬取了豆瓣最近播放电影的评论数据,接下来就要对数据进行清洗和词云显示了。 简介 刚接触python不久,做一个小项目来练练手。前几天看了《战狼2》,发现它在最新上映的电影里面是排行第一的,如下图所示。准备把豆瓣上对它的影评(短评)做...

    BearyChat 评论0 收藏0
  • 国庆看了长津 | 坚韧的毅力让我拿到了薪资18.5K,人生就像马拉松,坚持到最后,就是胜利者

    摘要:战争已胜,精神依在,当延续了这份坚韧与毅力之后,所有事情都将变得有无限可能,本期成功就业的小余,正是凭借着这股毅力,完成了梦想,取得了高薪。 伴随着7天国庆长假落...

    smallStone 评论0 收藏0

发表评论

0条评论

lijy91

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<