资讯专栏INFORMATION COLUMN

scrapy简单学习

Jeffrrey / 1607人阅读

摘要:学习网站入门教程创建项目打开所在位置,输入命令定义编辑对您想要采集的数据类型进行定义。例如编写爬虫在的文件下新建一个文件,代码如下启动爬虫在的命令行转至的根目录下,输入命令保存数据或者

学习网站:scrapy入门教程

1.创建项目:cmd打开scrapy所在位置,输入命令

scrapy startproject tutorial

2.定义item:编辑item.py,对您想要采集的数据类型进行定义。例如:

import scrapy

class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

3.编写爬虫:在spiders的文件下新建一个domz_spider.py文件,代码如下:

import scrapy

from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        for sel in response.xpath("//ul/li"):
            item = DmozItem()
            item["title"] = sel.xpath("a/text()").extract()
            item["link"] = sel.xpath("a/@href").extract()
            item["desc"] = sel.xpath("text()").extract()
            yield item

4.启动爬虫:在cmd的命令行转至spiders的根目录下,输入命令

scrapy crawl dmoz     

5.保存数据:

scrapy crawl dmoz -o items.json

或者

scrapy crawl dmoz -o items.csv

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37612.html

相关文章

  • Python爬虫之Scrapy学习(基础篇)

    摘要:下载器下载器负责获取页面数据并提供给引擎,而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子,处理传递给引擎的。一旦页面下载完毕,下载器生成一个该页面的,并将其通过下载中间件返回方向发送给引擎。 作者:xiaoyu微信公众号:Python数据科学知乎:Python数据分析师 在爬虫的路上,学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习sc...

    pkhope 评论0 收藏0
  • scrapy简单学习4—西刺Ip的爬取

    摘要:学习网站麦子第九集的定义的编写作用生成初始的定义空集设置变量页码到生成的放到中返回提取每一行的位置提取标签下的属性变量加入标签定义空集的从以后开始加载取文字取文字取到的属性,再用正则匹配到数字把添加到项目返回项目保存成结果输出 学习网站:麦子scrapy第九集 1.item.py的定义 import scrapy class XiciItem(scrapy.Item): I...

    huaixiaoz 评论0 收藏0
  • scrapy简单学习5—图片下载,爬取妹子图

    摘要:学习网站爬虫,整站爬取妹子图定义爬取的内容的编写提供了一种便捷的方式填充抓取到的是页面源代码,载入每个连接,用属性请求连接,返回请求获取页码集合打印页码如果页码集合图片连接读取页码集合的倒数第二个页码图片连接替换成空返回请求用载 学习网站:爬虫,整站爬取妹子图 1.item.py(定义爬取的内容) import scrapy class MeizituItem(scrapy.Ite...

    JerryZou 评论0 收藏0
  • scrapy简单学习3—简单爬取中文网站(仿写向)

    摘要:仿写原创单页面爬取爬取网站联合早报网左侧的标题,连接,内容定义爬取内容文件编写保存文件命令备注打开出现乱码,用记事本转换成编码,打开中文可正常。 仿写原创——单页面爬取爬取网站:联合早报网左侧的标题,连接,内容1.item.py定义爬取内容 import scrapy class MaiziItem(scrapy.Item): title = scrapy.Field() ...

    王陆宽 评论0 收藏0
  • Scrapy学习(二) 入门

    摘要:快速入门接上篇学习一安装,安装后,我们利用一个简单的例子来熟悉如何使用创建一个爬虫项目。创建一个项目在已配置好的环境下输入系统将在当前目录生成一个的项目文件。这部分才是业务的核心部分。提取的方式有几种。具体代码详见入门项目 快速入门 接上篇Scrapy学习(一) 安装,安装后,我们利用一个简单的例子来熟悉如何使用Scrapy创建一个爬虫项目。 创建一个Scrapy项目 在已配置好的环境...

    Astrian 评论0 收藏0

发表评论

0条评论

Jeffrrey

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<