本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
以下文章来源于乡村四十二,作者至善
背景
最近在调研电商平台黑猪肉市场需求情况,电商平台有效的用户评论,可以用来辅助理解客户需求。
下面对网易未央的一款猪肉评论进行抓取,并做简单分析。
网页分析
京东商城的信息储存在JSON里面,我们首先要找到储存评论的JSON。
使用谷歌浏览器,点击检查—Network,刷新进入,搜索发现储存评论的网址。
第一个网页链接打开后,发现搜索错了,并非是评论储存的地方。我们继续往下找,如下图所示的便是商品评论储存的地方了。观察URL,最后一个数字是“1”,表示评论的页数。我们可以通过for循环,爬取需要的数据。
代码如下
import urllib.request import json import time import xlwt # 爬取评论信息 page = int(input('请输入爬取的结束页码:')) for i in range(0,page): print('第%s页开始爬取'%(i+1)) url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=5461917&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1' url = url.format(i) headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_0_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36', 'Referer': 'https://item.jd.com/' } request = urllib.request.Request(url=url,headers=headers) content = urllib.request.urlopen(request).read().decode('gbk') content = content.strip('fetchJSON_comment98vv385();') obj = json.loads(content) comments = obj['comments'] fp = open('京东.text','a',encoding='utf8') for comment in comments: #评论内容 contents = comment['content'] item = { # '评论时间': creationTime, # '用户': nickname, '评论内容': contents, } string = str(item) fp.write(string + '\n') print('第%s页完成' %(i+1)) time.sleep(2) fp.close()
分析结论
因需要分析的是“评论内容”,所以未爬取“评论时间”,“用户”等信息。
爬取得完后,常规操作是利用Matplotlib、Pandas等进行数据分析及可视化,现在我们用最简单的词频统计工具分析,后面学会了这些工具,在完善。
此次爬取了200页,总共2000条的评论,生成的词云如下:
从中可以得出用户购买猪肉关注的点:味道、价格、送货速度、外观、健康、售后服务、服务稳定性。这些指标在一定程度为生产经营提供了方向性参考,当然还需要进一步把这些指标拆解成具体的行动。