资讯专栏INFORMATION COLUMN

保存数据到MySql数据库——我用scrapy写爬虫(二)

Kross / 2493人阅读

摘要:坦克大战上简介上的坦克大战相信大家都玩过有逃学玩坦克的可以自己默默的扣一个了我们现在长大了,学习游戏开发了。

写在前面

上一篇(https://www.tech1024.cn/origi... )说了如何创建项目,并爬去网站内容,下面我们说一下如何保存爬去到的数据

开始爬取

创建Spider,上一篇我们已经创建了ImoocSpider,我们做一下修改,可以连续下一页爬取。
scrapyDemo/spiders目录下的ImoocSpider类:

# -*- coding: utf-8 -*-

import scrapy
from urllib import parse as urlparse
from scrapyDemo.ImoocCourseItem import ImoocCourseItem


# 慕课网爬取
class ImoocSpider(scrapy.Spider):
    # spider的名字定义了Scrapy如何定位(并初始化)spider,所以其必须是唯一的
    name = "imooc"

    # URL列表
    start_urls = ["http://www.imooc.com/course/list"]
    #  域名不在列表中的URL不会被爬取。
    allowed_domains = ["www.imooc.com"]

    def parse(self, response):
        learn_nodes = response.css("a.course-card")

        item = ImoocCourseItem()
        # 遍历该页上所有课程列表
        for learn_node in learn_nodes:
            course_url = learn_node.css("::attr(href)").extract_first()
            # 拼接课程详情页地址
            course_url = urlparse.urljoin(response.url, course_url)
            # 课程地址
            item["course_url"] = course_url
            # 课程图片
            item["image"] = learn_node.css(
                "img.course-banner::attr(src)").extract_first()
            # 进入课程详情页面
            yield scrapy.Request(
                url=course_url, callback=self.parse_learn, meta=item)

        # 下一页地址
        next_page_url = response.css(
            u"div.page a:contains("下一页")::attr(href)").extract_first()
        if next_page_url:
            yield scrapy.Request(
                url=urlparse.urljoin(response.url, next_page_url),
                callback=self.parse)

    def parse_learn(self, response):
        item = response.meta
        # 课程标题
        item["title"] = response.xpath(
            "//h2[@class="l"]/text()").extract_first()
        # 课程简介
        item["brief"] = response.xpath(
            "//div[@class="course-brief"]/p/text()").extract_first()
        yield item

这里用到了scrapyDemo目录下ImoocCourseItem类,下面我就说一下。

Item数据容器

在scrapyDemo目录下创建ImoocCourseItem.py,这个类就是我们用了保存数据的容器,我们定义了标题、图片、简介、地址。
scrapyDemo目录下ImoocCourseItem类:

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class ImoocCourseItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    # cate = scrapy.Field()
    image = scrapy.Field()
    # desc = scrapy.Field()
    brief = scrapy.Field()
    # cate = scrapy.Field()
    course_url = scrapy.Field()
    pass
Pipeline管道

Pipeline是用来处理抓取到的数据,我们在scrapyDemo目录下创建ScrapydemoPipeline.py类

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don"t forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

from scrapyDemo.db.dbhelper import DBHelper


class ScrapydemoPipeline(object):
    # 连接数据库
    def __init__(self):
        self.db = DBHelper()
    
    def process_item(self, item, spider):
        # 插入数据库
        self.db.insert(item)
        return item

别忘了在配置文件中开启管道哦,scrapyDemo目录下的settings.py文件中,找到下ITEM_PIPELINES,修改为

ITEM_PIPELINES = {
   "scrapyDemo.pipelines.ScrapydemoPipeline": 300,
}
数据库操作

这里面我们用到了数据库的操作DBHelper类,那么我们在scrapyDemo/db目录下创建dbhelper.py 模块,记得再创建一个__init__.py哦。

# -*- coding: utf-8 -*-

import pymysql
from twisted.enterprise import adbapi
from scrapy.utils.project import get_project_settings  #导入seetings配置
import time


class DBHelper():
    """这个类也是读取settings中的配置,自行修改代码进行操作"""

    def __init__(self):
        settings = get_project_settings()  #获取settings配置,设置需要的信息

        dbparams = dict(
            host=settings["MYSQL_HOST"],  #读取settings中的配置
            db=settings["MYSQL_DBNAME"],
            user=settings["MYSQL_USER"],
            passwd=settings["MYSQL_PASSWD"],
            charset="utf8",  #编码要加上,否则可能出现中文乱码问题
            cursorclass=pymysql.cursors.DictCursor,
            use_unicode=False,
        )
        #**表示将字典扩展为关键字参数,相当于host=xxx,db=yyy....
        dbpool = adbapi.ConnectionPool("pymysql", **dbparams)

        self.dbpool = dbpool

    def connect(self):
        return self.dbpool

    #创建数据库
    def insert(self, item):
        sql = "insert into tech_courses(title,image,brief,course_url,created_at) values(%s,%s,%s,%s,%s)"
        #调用插入的方法
        query = self.dbpool.runInteraction(self._conditional_insert, sql, item)
        #调用异常处理方法
        query.addErrback(self._handle_error)

        return item

    #写入数据库中
    def _conditional_insert(self, tx, sql, item):
        item["created_at"] = time.strftime("%Y-%m-%d %H:%M:%S",
                                           time.localtime(time.time()))
        params = (item["title"], item["image"], item["brief"],
                  item["course_url"], item["created_at"])
        tx.execute(sql, params)

    #错误处理方法

    def _handle_error(self, failue):
        print("--------------database operation exception!!-----------------")
        print(failue)

这里用到了pymysql和adbapi,adbapi是python的数据库连接池,可以pip安装:

pip install pymysql
pip install Twisted

这里面还用到了get_project_settings方法,意思是从配置文件settings.py里边获取数据库配置信息,我们在scrapyDemo目录下的settings.py文件最后加入数据库信息

#Mysql数据库的配置信息
MYSQL_HOST = "192.168.6.1"
MYSQL_DBNAME = "scrapy_demo_db"         #数据库名字,请修改
MYSQL_USER = "root"             #数据库账号,请修改 
MYSQL_PASSWD = "abc-123"         #数据库密码,请修改

MYSQL_PORT = 3306               #数据库端口,在dbhelper中使用

建表语句如下:

DROP TABLE IF EXISTS `tech_courses`;
CREATE TABLE `tech_courses` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `title` varchar(255) DEFAULT NULL,
  `image` varchar(255) DEFAULT NULL,
  `brief` varchar(255) DEFAULT NULL,
  `course_url` varchar(255) DEFAULT NULL,
  `created_at` timestamp NULL DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8mb4;
大功告成

我们在命令行运行项目

F:	echleepythonscrapyDemo>scrapy crawl imooc
2017-10-25 23:29:18 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapyDemo)
2017-10-25 23:29:18 [scrapy.utils.log] INFO: Overridden settings: {"BOT_NAME": "scrapyDemo", "NEWSPIDER_MODULE": "scrapyDemo.spiders", "ROBOTSTXT_OBEY": True, "SPIDER_MODULES": ["scrapyDemo.spiders"]}
2017-10-25 23:29:19 [scrapy.middleware] INFO: Enabled extensions:
["scrapy.extensions.corestats.CoreStats",

……

2017-10-26 00:06:48 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list?page=26)
2017-10-26 00:06:48 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.imooc.com/learn/127>
{"course_url": "http://www.imooc.com/learn/127", "image": "//img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg", "depth": 26, "download_timeout": 180.0, "download_slot": "www.imooc.com", "retry_times": 1, "download_latency": 0.24331021308898926, "title": "玩儿转Swift", "brief": "简介:我们期望用户在看完这套教程后,对swift语言的了解能达到中上水平。这意味着在接触Cocoa Touch将一点儿都不费劲,对一些高级概念,诸如闭包 、协议、泛型、内存管理都能有所理解并且有所实践。这套教程一定比市面上普遍看到的Swift中文教程深入,并且演示示例更丰富。"}
2017-10-26 00:06:48 [scrapy.core.engine] INFO: Closing spider (finished)
2017-10-26 00:06:48 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{"downloader/exception_count": 24,
 "downloader/exception_type_count/twisted.internet.error.TimeoutError": 24,
 "downloader/request_bytes": 359595,
 "downloader/request_count": 836,
 "downloader/request_method_count/GET": 836,
 "downloader/response_bytes": 8680952,
 "downloader/response_count": 812,
 "downloader/response_status_count/200": 812,
 "finish_reason": "finished",
 "finish_time": datetime.datetime(2017, 10, 25, 16, 6, 48, 884826),
 "item_scraped_count": 779,
 "log_count/DEBUG": 1616,
 "log_count/INFO": 18,
 "log_count/WARNING": 1,
 "request_depth_max": 32,
 "response_received_count": 812,
 "retry/count": 24,
 "retry/reason_count/twisted.internet.error.TimeoutError": 24,
 "scheduler/dequeued": 835,
 "scheduler/dequeued/memory": 835,
 "scheduler/enqueued": 835,
 "scheduler/enqueued/memory": 835,
 "start_time": datetime.datetime(2017, 10, 25, 15, 55, 43, 289328)}
2017-10-26 00:06:48 [scrapy.core.engine] INFO: Spider closed (finished)

如果没有报错,我们的数据库是不是有数据了呢

779    玩儿转Swift    //img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg    简介:我们期望用户在看完这套教程后,对swift语言的了解能达到中上水平。这意味着在接触Cocoa Touch将一点儿都不费劲,对一些高级概念,诸如闭包、协议、泛型、内存管理都能有所理解并且有所实践。这套教程一定比市面上普遍看到的Swift中文教程深入,并且演示示例更丰富。    http://www.imooc.com/learn/127    2017-10-26 00:06:48
778    iOS9那些神坑    //img1.mukewang.com/576b7a6a0001573206000338-240-135.jpg    简介:为啥我用iOS9开发的应用无法进行网络请求?为啥多出了一个Bitcode编译选项?什么又是白名单呢?这些都是iOS9的一些新特性,在我们的这门课程中都会为大家一一介绍。
    http://www.imooc.com/learn/609    2017-10-26 00:06:08
777    Cocos2d-x坦克大战--上    //img4.mukewang.com/570763d20001662806000338-240-135.jpg    简介:FC上的坦克大战相信大家都玩过~有逃学玩坦克的可以自己默默的扣一个1了~我们现在长大了,学习游戏开发了。有没有想过将小时候玩过的游戏复刻出来了?不为了彰显自己的技术,只为了小时候因为玩游戏而逃学挨过的打。由资深游戏开发者徐波老师为大家复刻的FC坦克大战吧
    http://www.imooc.com/learn/610    2017-10-26 00:06:08
776    快速入门ThinkPHP 5.0 --模型篇    //img2.mukewang.com/594cf6120001ddaf06000338-240-135.jpg    简介:一个标准的网站一定离不开数据库的操作,在本套课程中我和你一起来揭开ThinkPHP5 数据操作的神秘面纱,和你一起愉快的使用 ThinkPHP5 操作数据库,让数据库操作变的更愉悦。    http://www.imooc.com/learn/854    2017-10-26 00:06:08
775    MongoDB Day 2015 深圳    //img4.mukewang.com/56779555000160d106000338-240-135.jpg    简介:本次年度大会由来自MongoDB内部的专家以及各行业MongoDB大牛关于数据安全、wiredtiger内部机制、OpsManager以及在其它行业方面的成功案例。大会吸引了200多位MongoDB爱好者,会场内座无虚席!    http://www.imooc.com/learn/562    2017-10-26 00:06:08
774    web安全之SQL注入    //img1.mukewang.com/5991489e00019f5c06000338-240-135.jpg    简介:SQL注入自从WEB和数据库发展以来就一直存在,而且给WEB应用带来很大的安全问题,会造成用户隐私数据的泄露,数据库版本信息泄露和数据库攻击等,给业务带来很大的损失和不好的社会影响。所以对于我们WEB开发人员来说,项目开发过程中一定要培养一定的安全意识,了解SQL注入的定义,产生的原理、具体的一些攻击手法和相应的预防措施,为了更好的增加开发项目的健壮性和安全性    http://www.imooc.com/learn/883    2017-10-26 00:06:07
773    那些年你遇到的错误与异常    //img3.mukewang.com/572b06f40001d1c806000338-240-135.jpg    简介:本课程主要讲解两部分内容,先从PHP中的错误模块谈起,讲解了PHP中常见的错误类型,剖析了PHP中的错误处理。接着又讲解了PHP5面向对象过程中新的错误处理方式--异常模块,由浅入深,讲解异常及异常的实战应用等。    http://www.imooc.com/learn/380    2017-10-26 00:06:07
772    基于Websocket的火拼俄罗斯(基础)    //img3.mukewang.com/59ed96eb0001fe3606000338-240-135.jpg    简介:本课程主要带领大家了解要实现火拼俄罗斯的基础知识WebSocket,以及socket.io,为后续实现火拼俄罗斯打下基础。    http://www.imooc.com/learn/861    2017-10-26 00:06:07
771    Java定时任务调度工具详解之Quartz篇    //img1.mukewang.com/5940992d0001cae906000338-240-135.jpg    简介:本课程是系列课程Java定时任务调度工具详解中的Quartz篇,本系列课程旨在通过详细讲述Java定时调度工具的基本概念、工具,和这些工具里面包含的各个组件之间的关系,以及如何使用这些工具来实现定时调度功能,让学生能够对Java定时调度工具有一个清晰而准确的认识。然后结合一些经典的使用场景通过手把手的命令行操作进行教学,使同学们得心用手地使用这些定时调度工具来实现自己想要的功能。讲师实战课程已经上线,详情:http://coding.imooc.com/learn/list/144.html    http://www.imooc.com/learn/846    2017-10-26 00:06:07

原文 https://www.tech1024.cn/origi...

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/40980.html

相关文章

  • 快速上手——我用scrapy爬虫(一)

    摘要:写在前面用写爬虫的人很多,的爬虫框架也很多,诸如和,笔者还是笔记倾向于,本文就用写一个小爬虫。本文适用于有一定基础的,并且对爬虫有一定了解的开发者。 写在前面 用python写爬虫的人很多,python的爬虫框架也很多,诸如pyspider 和 scrapy,笔者还是笔记倾向于scrapy,本文就用python写一个小爬虫demo。本文适用于有一定python基础的,并且对爬虫有一定了...

    curlyCheng 评论0 收藏0
  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • scrapy 实战练习

    摘要:爬取百思不得姐首先一步一步来,我们先从爬最简单的文本开始。将百思不得姐段子保存到中别忘了将管道加到配置文件中。虽然我只是简单的爬了百思不得姐,不过这些方法可以应用到其他方面,爬取更多更有用的数据。 前一篇文章介绍了很多关于scrapy的进阶知识,不过说归说,只有在实际应用中才能真正用到这些知识。所以这篇文章就来尝试利用scrapy爬取各种网站的数据。 爬取百思不得姐 首先一步一步来,我...

    betacat 评论0 收藏0
  • 从零开始爬虫

    摘要:几个朋友对爬虫很感兴趣,他们也都是开发人员,一个开发两个开发,都没有过项目开发经验,正好其中一个最近要爬一个网店的产品信息,所以希望我能拿这网站当写一个爬虫来给他们参考学习。我们就在这个文件里开发爬虫的相关逻辑。 几个朋友对爬虫很感兴趣,他们也都是开发人员,一个PHP开发两个JAVA开发,都没有过python项目开发经验,正好其中一个最近要爬一个网店的产品信息,所以希望我能拿这网站当d...

    wwq0327 评论0 收藏0

发表评论

0条评论

Kross

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<