资讯专栏INFORMATION COLUMN

scrapy简单学习3—简单爬取中文网站(仿写向)

王陆宽 / 799人阅读

摘要:仿写原创单页面爬取爬取网站联合早报网左侧的标题,连接,内容定义爬取内容文件编写保存文件命令备注打开出现乱码,用记事本转换成编码,打开中文可正常。

仿写原创——单页面爬取
爬取网站:联合早报网左侧的标题,连接,内容
1.item.py定义爬取内容

import scrapy


class MaiziItem(scrapy.Item):
    title = scrapy.Field()
    link=scrapy.Field()
    desc =scrapy.Field()

2.spider文件编写

# -*- coding: utf-8 -*-
#encoding=utf-8
import scrapy
from LianHeZaoBao.items import LianhezaobaoItem
reload(__import__("sys")).setdefaultencoding("utf-8") 

class MaimaiSpider(scrapy.Spider):
    name = "lianhe"
    allowed_domains = ["http://www.zaobao.com/news/china//"]
    start_urls = (
        "http://www.zaobao.com/news/china//",
    )

    def parse(self, response):
        
        for li in response.xpath("//*[@id="l_title"]/ul/li"):
            item = LianhezaobaoItem()
            item["title"] = li.xpath("a[1]/p/text()").extract()
            item["link"]=li.xpath("a[1]/@href").extract()
            item["desc"] = li.xpath("a[2]/p/text()").extract()
            
            yield item

3.保存文件:命令scrapy crawl lianhe -o lianhe.csv
备注:excel打开出现乱码,用记事本转换成ANSI编码,excel打开中文可正常。
4.完成样式:

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/44164.html

相关文章

  • scrapy简单学习6—爬取百度贴吧图片(仿写向

    摘要:主要是对上一篇文章的简单仿写,大家以后想批量下载什么图片照格式仿写就好。 主要是对上一篇文章的简单仿写,大家以后想批量下载什么图片照格式仿写就好。由于本人是tfboys的粉丝,所以平常没事爱逛贴吧欣赏我家三小只的美图,所以这次就以贴吧[小王的讨论楼]为例,批量爬取该楼的图片[1] itme.py编写 import scrapy class WangyuantuItem(scrapy...

    trigkit4 评论0 收藏0
  • Python爬虫之Scrapy学习(基础篇)

    摘要:下载器下载器负责获取页面数据并提供给引擎,而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子,处理传递给引擎的。一旦页面下载完毕,下载器生成一个该页面的,并将其通过下载中间件返回方向发送给引擎。 作者:xiaoyu微信公众号:Python数据科学知乎:Python数据分析师 在爬虫的路上,学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习sc...

    pkhope 评论0 收藏0
  • Python Scrapy爬虫框架学习

    摘要:组件引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。下载器下载器负责获取页面数据并提供给引擎,而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子,处理传递给引擎的。 Scrapy 是用Python实现一个为爬取网站数据、提取结构性数据而编写的应用框架。 一、Scrapy框架简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 ...

    harriszh 评论0 收藏0
  • Scrapy 实战之爬取妹子图

    摘要:很多人学习爬虫的第一驱动力就是爬取各大网站的妹子图片,比如比较有名的。最后我们只需要运行程序,即可执行爬取,程序运行命名如下完整代码我已上传到微信公众号后台,在痴海公众号后台回复即可获取。本文首发于公众号痴海,后台回复即可获取最新编程资源。 showImg(https://segmentfault.com/img/remote/1460000016780800); 阅读文本大概需要 1...

    Achilles 评论0 收藏0

发表评论

0条评论

王陆宽

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<