资讯专栏INFORMATION COLUMN

爬虫实例:当当网书籍介绍

dendoink / 1091人阅读

import json
import re
import requests
from requests import RequestException


def get_one_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            # print("2sas")
            print(response.text)
            return response.text
        return None
    except RequestException:
        return None

def parse_one_page(html):
    #  加上re.S后, .将会匹配换行符
    pattern = re.compile("
  • .*?list_num.*?>(.*?)
  • .*?pic.*?src="(.*?)".*?/>.*?name">.*?tuijian">(.*?).*?publisher_info.*?title="(.*?)".*?biaosheng.*?(.*?).*?",re.S) items = re.findall(pattern,html) for item in items: yield { "index":item[0], "iamge":item[1], "title":item[2], "tuijian":item[3], "author":item[4], "times":item[5], } def write_content_to_file(content): with open("book.txt", "a", encoding="UTF-8") as f: f.write(json.dumps(content, ensure_ascii=False) + " ") f.close() def main(page): url = "http://bang.dangdang.com/" "books/fivestars/01.00.00.00.00.00-recent30-0-0-1-" + str(page) html = get_one_page(url) parse_one_page(html) for item in parse_one_page(html): print(item) write_content_to_file(item) if __name__ == "__main__": for i in range(1,2): main(i)

    文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

    转载请注明本文地址:https://www.ucloud.cn/yun/42835.html

    相关文章

    • Python猫荐书系列之七:Python入门书籍有哪些?

      摘要:正好,最近又有几位不同身份的初学者来咨询,要我推荐几本入门书籍,而我们荐书系列已经停更了两个多月,所以,本期荐书就来推荐一些入门书籍吧。为了准备这期荐书,我专门搜集了本入门书籍,现在全部加入到了一份豆瓣豆列里,方便大家查看。 showImg(https://segmentfault.com/img/remote/1460000019299066?w=4790&h=3193); 本文原创...

      Joyven 评论0 收藏0
    • Python

      摘要:最近看前端都展开了几场而我大知乎最热语言还没有相关。有关书籍的介绍,大部分截取自是官方介绍。但从开始,标准库为我们提供了模块,它提供了和两个类,实现了对和的进一步抽象,对编写线程池进程池提供了直接的支持。 《流畅的python》阅读笔记 《流畅的python》是一本适合python进阶的书, 里面介绍的基本都是高级的python用法. 对于初学python的人来说, 基础大概也就够用了...

      dailybird 评论0 收藏0

    发表评论

    0条评论

    dendoink

    |高级讲师

    TA的文章

    阅读更多
    最新活动
    阅读需要支付1元查看
    <