摘要:搞清楚了的信息后,我们就可以写代码来自动提交信息了。里面存的就是要的信息,其中账号和密码我用代替了。若不是一种数据类型或者由数据类型构成的元组,将引发一个异常。
从自己别的博客搬过来的,很久之前的文章,正好放在专栏Python基础知识里~不知道对别人有没有用,希望不会辣眼睛哈哈~
最近学了点关于python的网络爬虫的知识,简单记录一下,这里主要用到了requests库和BeautifulSoup库
Requests is an elegant and simple HTTP library for Python, built for human beings.Beautiful Soup is a Python library for pulling data out of HTML and XML files. It works with your favorite parser to provide idiomatic ways of navigating, searching, and modifying the parse tree. It commonly saves programmers hours or days of work.
以上是两个库的介绍,链接是文档信息
1、示例页面这里我利用东北大学的图书馆的登陆页面来实现我们的爬虫功能(ps:没错,博主是东北大学的学生..所以我有账号密码),没有账号密码也没有关系,原理都是差不多的,之所以找这个页面,是因为这个页面没有验证码,能够简单一些,而且像学校的这种页面一般比较简单,方便操作
首先我用的账户和密码登陆进了东北大学图书馆,我使用的是chrome浏览器,打开开发者模式,我们来看看我们提交了哪些信息。
登陆进去后,按下F12打开开发者模式,在Network选项卡下面,我们找到这个文件,他的request方法是post,应该就是我们要找的文件了,拉到最下面看到Form Data,红色框出就是我们登陆时提交的信息了,一共五个部分,画红线的地方是账号和密码。搞清楚了post的信息后,我们就可以写代码来自动提交信息了。
登陆部分搞清楚了,接下就要分析要抓取的信息了,现在我要抓取我的
外借
借阅历史列表
预约请求
要抓取这三个数据,如上图所示,我当前外借1本书,借阅过65本书,预约请求为0,现在的目的是将这些数据抓取出来,我们按下F12来查看网页的源代码,分析我们应该抓取哪一部分。
如上图所示,一步步找到了数据所在的标签,我发现数据都在id=history这个标签下,所以可以先找到这个标签,然后再找tr标签,然后就能找到td标签里的数据了。
自动登陆
抓取页面上的一些信息,并在控制台输出
4、代码部分 4.1、post数据的部分首先贴上这部分的代码
def getHTMLText(url): try: kv = {"user-agent": "Mozilla/5.0"} mydata = {"func":"login-session", "login_source":"bor-info", "bor_id": "***", "bor_verification": "***","bor_library":"NEU50"} re = requests.post(url, data=mydata, headers=kv) re.raise_for_status() re.encoding = re.apparent_encoding return re.text except: print("异常") return""
代码如上,我们来分析一下
kv是为了模拟浏览器而定义的字典,因为有些网站如果识别出是爬虫的话,会拒绝访问,所以这里可以修改headers的信息来模拟浏览器登陆。
mydata里面存的就是要post的信息,其中账号和密码我用*代替了。
requests.post()就是向指定的url 提交数据,关于requests在网上都能搜的到,就不赘述了。
re.raise_for_status()这个的含义是如果访问失败的话,就会丢出异常。
re.encoding = re.apparent_encoding修改编码,保证中文能被正确的解析。
这里采用try except的结构,为了程序的健壮性考虑,让程序在错误的时候不至于崩溃。
最后返回我们新的页面的text。
4.2、抓取数据部分首先贴上代码
def fillBookList(booklist, html): soup = BeautifulSoup(html,"html.parser") for tr in soup.find(id="history").descendants: if isinstance(tr, bs4.element.Tag): temp = tr.find_all("td") if len(temp)>0: booklist.append(temp[1].string.strip()) booklist.append(temp[3].string.strip()) booklist.append(temp[5].string.strip()) break
参数分别是我们要填充的列表和目标页面
创建一个BeautifulSoup的对象
在整个页面中查找id=history的标签,然后遍历其所有子孙标签
在遍历的过程中,标签的子标签可能是字符串类型,我们要过滤掉这些,所以用了isinstance(tr, bs4.element.Tag)
isinstance 的用法:
语法:
isinstance(object, classinfo)
其中,object 是变量,classinfo 是类型(tuple,dict,int,float,list,bool等) 和 class类若参数 object 是 classinfo 类的实例,或者 object 是 classinfo 类的子类的一个实例, 返回 True。 若 object 不是一个给定类型的的对象, 则返回结果总是False。若 classinfo 不是一种数据类型或者由数据类型构成的元组,将引发一个 TypeError 异常。
在标签中寻找所有td标签,观察源代码发现,第一个td标签列表就是我们要的,所以一旦找到我们要的信息以后,就停止查找,并就信息存在booklist里面
4.3、打印信息贴上代码
def printUnivList(booklist): print("{:^10} {:^6} {:^10}".format("外借","借阅历史列表","预约请求")) print("{:^10} {:^6} {:^10}".format(booklist[0],booklist[1],booklist[2])
这部分很简单就不说了
4.4、主函数贴上代码
def main(): html = getHTMLText("http://202.118.8.7:8991/F/-?func=bor-info") booklist = [] fillBookList(booklist, html) printUnivList(booklist)5、测试
成功的在控制台打印出了我们要的信息!
import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: kv = {"user-agent": "Mozilla/5.0"} mydata = {"func":"login-session", "login_source":"bor-info", "bor_id": "***", "bor_verification": "***","bor_library":"NEU50"} re = requests.post(url, data=mydata, headers=kv) re.raise_for_status() re.encoding = re.apparent_encoding return re.text except: print("异常") return"" def fillBookList(booklist, html): soup = BeautifulSoup(html,"html.parser") for tr in soup.find(id="history").descendants: if isinstance(tr, bs4.element.Tag): temp = tr.find_all("td") if len(temp)>0: booklist.append(temp[1].string.strip()) booklist.append(temp[3].string.strip()) booklist.append(temp[5].string.strip()) break def printUnivList(booklist): print("{:^10} {:^6} {:^10}".format("外借","借阅历史列表","预约请求")) print("{:^10} {:^6} {:^10}".format(booklist[0],booklist[1],booklist[2])) def main(): html = getHTMLText("http://202.118.8.7:8991/F/-?func=bor-info") booklist = [] fillBookList(booklist, html) printUnivList(booklist) main()
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/101536.html
摘要:地址使用实现的一个简单的图片上传服务设计初衷对于图片的存储有很多选择一般采用云服务如七牛又拍等但是国内的服务像七牛自定义域名竟然需要域名备案当初就是因为备案麻烦才选择国外的而且浪费了我十块钱而我又想像七牛一样可以直接在本地就可以上传图片找 GitHub地址: https://github.com/honmaple/maple-file 使用flask实现的一个简单的图片上传服务 设计...
摘要:背景分析至此,下一步要解决的问题就是完成一次独立的请求,并解析得到目标数据。上方地址栏的网址是请求的入口,中间圆角方框中的格式天津则是请求参数。当我看到中的天津时,非常开心,因为我找到了请求的入口。 概要 背景描述 网站和http请求分析 IP受限的问题 1. 背景描述 大为软件公司于2001年9月在保定国家高新技术产业开发区注册,公司致力于中国、日本知识产权软件的研究开发,立志成...
摘要:定制筛选器,对内容进行筛选重点。审查元素这是浏览器自带的工具,提供抓包和检查网页源码的功能,供使用者分析网页。超时设置,如果服务器在指定秒数内没有应答,抛出异常,用于避免无响应连接,整形或浮点数。返回连接状态,正常。 前言 python 3.6 !! 本爬虫系列是面对有Python语法基础的读者写的,如果你没学过python,emmmm.....也没关系,你或许能从每篇文章中学到一些...
摘要:上一篇文章网络爬虫实战使用分析协议下一篇文章在前面一节我们了解了的基本用法,但是其中确实有不方便的地方。发送之后,得到的自然就是,在上面的实例中我们使用了和获取了内容,不过还有很多属性和方法可以获取其他的信息,比如状态码等信息。 上一篇文章:Python3网络爬虫实战---23、使用Urllib:分析Robots协议下一篇文章: 在前面一节我们了解了 Urllib 的基本用法,但是其中...
摘要:创建了数据库模型就要迁移数据库,迁移数据库的命令也在前面讲过。如果表单对应有一个数据库模型例如这里的评论表单对应着评论模型,那么使用类会简单很多,这是为我们提供的方便。表明这个表单对应的数据库模型是类。 创建评论应用 相对来说,评论其实是另外一个比较独立的功能。Django 提倡,如果功能相对比较独立的话,最好是创建一个应用,把相应的功能代码写到这个应用里。我们的第一个应用叫 blog...
阅读 1195·2023-04-25 23:22
阅读 1594·2023-04-25 20:04
阅读 2587·2021-11-22 15:24
阅读 2775·2021-11-11 16:54
阅读 1834·2019-08-30 14:03
阅读 1444·2019-08-29 16:35
阅读 1616·2019-08-26 10:29
阅读 2572·2019-08-23 18:01