摘要:太简单了就当做个记录,直接贴代码了发送请求设置编码防止乱码解析页面和保存数据程序用时
太简单了就当做个记录,直接贴代码了
import os import requests from bs4 import BeautifulSoup import time # 发送请求 def send(): r = requests.get(url=base_url) # 设置编码防止乱码 r.encoding ="GBK"; content = r.text parseAndSave(content) # 解析页面和保存数据 def parseAndSave(html): soup = BeautifulSoup(html, "lxml") ulList = soup.find_all("ul", attrs={"class": "kzlist"}) # print(ulList); for ul in ulList: li = ul.find_all("li"); for item in li: name = item.find("img").next_sibling obtain_method = item.find("a").find("p").text rootDir = os.getcwd() if not os.path.exists(name): os.mkdir(name); os.chdir(name); src = item.find("a").find("img")["src"] pic = requests.get(src) with open("pic.jpg", "wb") as fw: fw.write(pic.content) with open("info.txt", "a+") as fw: fw.write(name+" ") fw.write(obtain_method) os.chdir(rootDir); def main(): start_time = time.time() send() end_time = time.time() print("程序用时:",(end_time - start_time)) if __name__ == "__main__": base_url = "http://news.4399.com/gonglue/lscs/kabei/" cardList = [] main()
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/42905.html
摘要:不过因为各个平台互相挖人的关系,导致关注的一些主播分散到了各个直播平台,来回切换有点麻烦,所以萌生了做一个视频聚合站的想法。后续我们会对这三个部分的功能做逐一展开说明。正则处理要求比较高,但是几乎能应对所有的情况,属于大杀器。 前言 作为一个炉石传说玩家,经常有事没事开着直播网站看看大神们的精彩表演。不过因为各个平台互相挖人的关系,导致关注的一些主播分散到了各个直播平台,来回切换有点麻...
摘要:爬虫下载二最近在学习的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。需下载下载以下模块模块模块一源码设置命令行参数功能下载目标最大的线程数。方法的作用与内置函数类似,不过函数会在多个线程中并发调用方法返回一个生成器。 Python3爬虫下载pdf(二) 最近在学习python的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。 需下载下载以下模块 bs4模块 reques...
摘要:爬虫下载一最近在学习的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。 Python3爬虫下载pdf(一) 最近在学习python的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。 需下载以下模块 bs4 模块 requests 模块 一、源码 功能:下载指定url内的所有的pdf 语法:将含有pdf的url放到脚本后面执行就可以了 from bs4 import...
摘要:刚学爬虫不久,迫不及待的找了一个网站练手,新笔趣阁一个小说网站。继续学习,有改进方案的欢迎提出来,一起交流。 刚学Python爬虫不久,迫不及待的找了一个网站练手,新笔趣阁:一个小说网站。 前提准备 安装Python以及必要的模块(requests,bs4),不了解requests和bs4的同学可以去官网看个大概之后再回来看教程 爬虫思路 刚开始写爬虫的小白都有一个疑问,进行到什么时候...
阅读 3172·2021-11-23 09:51
阅读 3530·2021-11-09 09:46
阅读 3492·2021-11-09 09:45
阅读 2909·2019-08-29 17:31
阅读 1739·2019-08-26 13:39
阅读 2673·2019-08-26 12:12
阅读 3552·2019-08-26 12:08
阅读 2163·2019-08-26 11:31