资讯专栏INFORMATION COLUMN

某电商商品属性获取分析

taoszu / 1050人阅读

摘要:为完成一个小型爬虫项目,在并未使用该平台提供的情况下,细致分析了国内某著名电商网站商品属性的获取思路和方法,兹此记录分享,学习交流。动态内容部分该网站大部分商品属性都是通过动态获取的。其余不能通过静态内容获取的属性均可类比分析尝试获得。

为完成一个小型爬虫项目,在并未使用该平台提供的API情况下,细致分析了国内某著名电商网站商品属性的获取思路和方法,兹此记录分享,学习交流。

静态页面部分

为了获取静态页面部分的内容,需要使用firefox的开发者功能禁用javascript,如图

勾选"Disable JavaScript"。刷新页面后可见。通过静态页面可获取标题,商品ID,分类号,商品URL,图片url等内容。可直接使用正则表达式或xpath等工具分析获得,这里不再赘述。

动态内容部分

该网站大部分商品属性都是通过ajax动态获取的。还是通过浏览器来分析。取消勾选"Disable JavaScript"后,使用"Network"工具可对服务器响应的包进行抓包和分类。为避免反复重新加载页面时缓存的影响,勾选"Disable Cache"选项。先打开"Network"界面,然后刷新页面,可获得加载过程的抓包内容。ajax请求返回的数据为json或js类型。例如:
某json数据
url为

http://p.3.cn/prices/get?callback=cnp&type=1&area=1_72_4137&pdtk=&pduid=1516989398&pdpin=&pdbp=0&skuid=J_1743187

可在network工具箱内查看其response内容为

对照页面内容后发现其中p字段正是商品价格数据!
通过直接打开链接得到json串为

cnp([{"id":"J_1743187","p":"499.00","m":"549.00"}]);

此response中带有回调函数名"cnp",观察在url中也有一个相同字段。遂尝试在url中去掉该字段,重新请求后

http://p.3.cn/prices/get?type=1&area=1_72_4137&pduid=1516989398&pdbp=0&skuid=J_1743187

获得json:

[{"id":"J_1743187","p":"499.00","m":"549.00"}]

继续尝试删除请求中的get参数,最终发现可用

http://p.3.cn/prices/mgets?skuids=J_1743187

正常获取到相同的数据。
python解析代码:

import urllib2
import json

p=urllib2.urlopen("http://p.3.cn/prices/get?type=1&area=1_72_4137&pduid=1516989398&pdbp=0&skuid=J_1743187").read()
p_json=json.loads(p)
price=p_json["p"]

获取到价格数据,方便了自动化生成。其余不能通过静态内容获取的属性均可类比分析尝试获得。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37700.html

相关文章

  • 电商参考架构第二部分:库存优化方法

    摘要:在这些系统中,单个店铺维护他们各自的库存,然后在某个特定的时间间隔之后通常是晚上将数据返回关系型数据库管理系统中心。接着,关系型数据库管理系统将当天接收到的所有数据整合和分类之后,用于分析报表等操作,并且将其提供给外部及内部应用。 本文源地址:http://www.mongoing.com/blog/retail-reference-architecture-part-2-appr.....

    Near_Li 评论0 收藏0
  • 电商参考架构第二部分:库存优化方法

    摘要:在这些系统中,单个店铺维护他们各自的库存,然后在某个特定的时间间隔之后通常是晚上将数据返回关系型数据库管理系统中心。接着,关系型数据库管理系统将当天接收到的所有数据整合和分类之后,用于分析报表等操作,并且将其提供给外部及内部应用。 本文源地址:http://www.mongoing.com/blog/retail-reference-architecture-part-2-appr.....

    zr_hebo 评论0 收藏0
  • 互联网业务安全之通用安全风险模型

    摘要:验证码安全参考信息重放登录注册找密等入口,可能通过短信验证码邮箱验证码之类的进行确认操作,如果末对操作进行次数及频率上的限制,则会产生大量的重放攻击。高并发缺陷交易类重放攻击,高并发的情况下末对用户操作行为加锁,导致购买限制的绕过。 showImg(https://segmentfault.com/img/bVBVVR); 业务安全从流程设计维度可划分为账户体系安全、交易体系安全、支付...

    liaorio 评论0 收藏0
  • 基于深度学习的商品检索技术

    摘要:当前,很多学者和研究机构都尝试基于深度学习进行服装检索技术的探究与创新。下文将回顾三篇基于深度学习来解决跨域服装检索问题的文章。总的来说,以上深度学习方法的探索与创新都将为商品检索技术趋 摘要商品检索是一门综合了物体检测、 图像分类以及特征学习的技术。 近期, 很多研究者成功地将深度学习方法应用到这个领域。 本文对这些方法进行了总结, 然后概括地提出了商品特征学习框架以及垂类数据挖掘方式, ...

    Half 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<