摘要:仿写原创单页面爬取爬取网站联合早报网左侧的标题,连接,内容定义爬取内容文件编写保存文件命令备注打开出现乱码,用记事本转换成编码,打开中文可正常。
仿写原创——单页面爬取
爬取网站:联合早报网左侧的标题,连接,内容
1.item.py定义爬取内容
import scrapy class MaiziItem(scrapy.Item): title = scrapy.Field() link=scrapy.Field() desc =scrapy.Field()
2.spider文件编写
# -*- coding: utf-8 -*- #encoding=utf-8 import scrapy from LianHeZaoBao.items import LianhezaobaoItem reload(__import__("sys")).setdefaultencoding("utf-8") class MaimaiSpider(scrapy.Spider): name = "lianhe" allowed_domains = ["http://www.zaobao.com/news/china//"] start_urls = ( "http://www.zaobao.com/news/china//", ) def parse(self, response): for li in response.xpath("//*[@id="l_title"]/ul/li"): item = LianhezaobaoItem() item["title"] = li.xpath("a[1]/p/text()").extract() item["link"]=li.xpath("a[1]/@href").extract() item["desc"] = li.xpath("a[2]/p/text()").extract() yield item
3.保存文件:命令scrapy crawl lianhe -o lianhe.csv
备注:excel打开出现乱码,用记事本转换成ANSI编码,excel打开中文可正常。
4.完成样式:
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/44164.html
摘要:主要是对上一篇文章的简单仿写,大家以后想批量下载什么图片照格式仿写就好。 主要是对上一篇文章的简单仿写,大家以后想批量下载什么图片照格式仿写就好。由于本人是tfboys的粉丝,所以平常没事爱逛贴吧欣赏我家三小只的美图,所以这次就以贴吧[小王的讨论楼]为例,批量爬取该楼的图片[1] itme.py编写 import scrapy class WangyuantuItem(scrapy...
摘要:下载器下载器负责获取页面数据并提供给引擎,而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子,处理传递给引擎的。一旦页面下载完毕,下载器生成一个该页面的,并将其通过下载中间件返回方向发送给引擎。 作者:xiaoyu微信公众号:Python数据科学知乎:Python数据分析师 在爬虫的路上,学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习sc...
摘要:组件引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。下载器下载器负责获取页面数据并提供给引擎,而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子,处理传递给引擎的。 Scrapy 是用Python实现一个为爬取网站数据、提取结构性数据而编写的应用框架。 一、Scrapy框架简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 ...
摘要:很多人学习爬虫的第一驱动力就是爬取各大网站的妹子图片,比如比较有名的。最后我们只需要运行程序,即可执行爬取,程序运行命名如下完整代码我已上传到微信公众号后台,在痴海公众号后台回复即可获取。本文首发于公众号痴海,后台回复即可获取最新编程资源。 showImg(https://segmentfault.com/img/remote/1460000016780800); 阅读文本大概需要 1...
阅读 592·2021-10-27 14:15
阅读 1142·2021-10-15 09:42
阅读 2722·2019-08-30 15:53
阅读 1260·2019-08-23 17:02
阅读 2942·2019-08-23 16:23
阅读 3143·2019-08-23 15:57
阅读 3438·2019-08-23 14:39
阅读 492·2019-08-23 14:35