资讯专栏INFORMATION COLUMN

scrapy学习之路3(爬取的数据保存本地文件或MYSQL)

余学文 / 926人阅读

摘要:保存中的信息到本地文件自定义以格式保存到本地文件再到中添加使用自带方式以格式保存到本地文件再到中添加使用保存中的信息到同步设计表结构注意日期是类型,要转化成类型补充保存中的信息到异步去重写法

保存item中的信息到本地文件 1.自定义以json格式保存到本地文件

piplines.py

再到settings.py中添加使用

2.scrapy自带方式以json格式保存到本地文件

piplines.py

再到settings.py中添加使用

保存item中的信息到MySQL(同步)

设计表结构

注意:日期是str类型,要转化成date类型

piplines.py

补充:settings.py


保存item中的信息到MySQL(异步twisted)

settings.py

MYSQL_HOST = "127.0.0.1"
MYSQL_DBNAME = "spider"
MYSQL_USER = "root"
MYSQL_PASSWORD = "123456"

piplines.py

去重写法

    def do_insert(self, cursor, item):
        my_sql = """
            insert into youwu(url, url_object_id, title, big_image_url) VALUES (%s, %s, %s, %s) on duplicate key update title=values(title), big_image_url=value(big_image_url)
        """
        cursor.execute(my_sql, (item["url"], item["url_object_id"], item["title"], item["big_image_url"]))

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/41227.html

相关文章

  • 从零开始写爬虫

    摘要:几个朋友对爬虫很感兴趣,他们也都是开发人员,一个开发两个开发,都没有过项目开发经验,正好其中一个最近要爬一个网店的产品信息,所以希望我能拿这网站当写一个爬虫来给他们参考学习。我们就在这个文件里开发爬虫的相关逻辑。 几个朋友对爬虫很感兴趣,他们也都是开发人员,一个PHP开发两个JAVA开发,都没有过python项目开发经验,正好其中一个最近要爬一个网店的产品信息,所以希望我能拿这网站当d...

    wwq0327 评论0 收藏0
  • Scrapy 实战之爬取妹子图

    摘要:很多人学习爬虫的第一驱动力就是爬取各大网站的妹子图片,比如比较有名的。最后我们只需要运行程序,即可执行爬取,程序运行命名如下完整代码我已上传到微信公众号后台,在痴海公众号后台回复即可获取。本文首发于公众号痴海,后台回复即可获取最新编程资源。 showImg(https://segmentfault.com/img/remote/1460000016780800); 阅读文本大概需要 1...

    Achilles 评论0 收藏0
  • Python Scrapy爬虫框架学习

    摘要:组件引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。下载器下载器负责获取页面数据并提供给引擎,而后提供给。下载器中间件下载器中间件是在引擎及下载器之间的特定钩子,处理传递给引擎的。 Scrapy 是用Python实现一个为爬取网站数据、提取结构性数据而编写的应用框架。 一、Scrapy框架简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 ...

    harriszh 评论0 收藏0
  • 爬虫入门

    摘要:通用网络爬虫通用网络爬虫又称全网爬虫,爬取对象从一些种子扩充到整个。为提高工作效率,通用网络爬虫会采取一定的爬取策略。介绍是一个国人编写的强大的网络爬虫系统并带有强大的。 爬虫 简单的说网络爬虫(Web crawler)也叫做网络铲(Web scraper)、网络蜘蛛(Web spider),其行为一般是先爬到对应的网页上,再把需要的信息铲下来。 分类 网络爬虫按照系统结构和实现技术,...

    defcon 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<