摘要:四级报名网站为了公平公正,将每个报名学生的基本信息姓名学号大头照报考等级放在了网上,这样同学院同年级的同学就可以进行监督。正则表达式爬取的信息文件靠你了接下来就是用搭一个搜索引擎了。
首先:
中秋节快乐然后:
没有了...回寝室之前在304的晚上
转眼间就大二了,于是就要考四级,考四级就要报名,于是去了报名网站http://cet.tinyin.net/accuse.asp, 上传了照片,报了名,理论上就结束了。但是,中秋要来了,我要做点什么。
四级报名网站为了公平公正,将每个报名学生的基本信息(姓名、学号、大头照、报考等级)放在了网上,这样同学院、同年级的同学就可以进行监督。不得不说,证件照是很吸引人的部分,于是我审查了页面元素,希望可以发现更多a。
CET4网站为了防我这种好奇心很强的人还是做了一些处理,登录url/login.asp实际上是一个refer,真正的登录url是http://cet.tinyin.net/reginfo.asp|573597a1f9200a18be60068dca9ced0f7|,我要做的,就是利用我的用户名和密码登入网站,获取cookie,然后利用cookie进行后续登录。当然,首先需要把我自己变成浏览器啦def __init__(self): self.user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:42.0) Gecko/20100101 Firefox/42.0" self.headers = { "User-Agent":self.user_agent, "Referer":"http://cet.tinyin.net/login.asp", "Accept-encoding":"gzip" } self.postdata = urllib.urlencode({ "stype":"#", "stuno":"2014214761", "stupwd":"密码就不说了" })然后就是登录获取cookie
def analog_login(self): """ 登录cet4网站,获取cookie,并将 cookie保存至文件 """ filename = "cet4_cookie.txt" cookie = cookielib.MozillaCookieJar(filename) opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) login_url = "http://cet.tinyin.net/reginfo.asp" request = urllib2.Request(login_url, self.postdata, self.headers) opener.open(request) cookie.save(ignore_discard=True, ignore_expires=True)cookie get!!!
# Netscape HTTP Cookie File # http://www.netscape.com/newsref/std/cookie_spec.html # This is a generated file! Do not edit. cet.tinyin.net FALSE / FALSE ASPSESSlllllDAQBASRAC LKNFEMDCDOLABMFPLLLLL该正则表达式上场了!首先实验一下,cookie能否正常使用, 尝试访问 http://cet.tinyin.net/accuse.asp 页面, cookie是没问题,但是html却是中文乱码,没关系,改成utf-8,就行
html = response.read().decode("gbk").encode("utf-8’)
现在,一切都豁然开朗了,我只需要爬取标签,将获取的学号和姓名写入文件就行了。 正则表达式 parttern = re.compile("(.*?)
(.*?)
", re.S)爬取的信息文件
flask 靠你了接下来就是用flask搭一个搜索引擎了。在文字编码这一块用了很长时间,因为表单的输入数据编码和文件的编码是不匹配的,经过几次实验,我发现需要将表单输入数据decode为汉字编码
name = form.name.data.decode("utf-8")编码真头痛!!看一下这篇吧http://dengshuan.me/misc/xi-shuo-bian-ma...
ok了备注 实际的过程没有上面说的这么的一气呵成,中间还睡了一觉? 两瓶啤酒没有喝完 信息都是公开的,应该没有侵犯隐私吧? 开心就好?
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/37869.html
相关文章
Python爬虫神器pyppeteer,对 js 加密降维打击
摘要:爬虫神器,对加密降维打击是对无头浏览器的封装。使用等其他无头浏览器的最大优势当然是对加密实行降维打击,完全无视加密手段,对于一些需要登录的应用,也可以模拟点击然后保存。请求过滤你的那一段页面自动下拉脚本 爬虫神器pyppeteer,对 js 加密降维打击 pyppeteer 是对无头浏览器 puppeteer的 Python 封装。无头浏览器广泛用于自动化测试,同时也是一种很好地爬虫思...
Python 词云分析周杰伦《晴天》
摘要:词云可以通过网站纽扣词云来制作,然而可以通过代码来实现,下面开始吧。 词云可以通过网站 https://wordart.com/ 纽扣词云http://cloud.niucodata.com/ 来制作,然而 Python 可以通过代码来实现,下面开始吧。 showImg(https://segmentfault.com/img/bVQzIx?w=874&h=416); pip inst...
发表评论
0条评论
huayeluoliuhen
男|高级讲师
TA的文章
阅读更多
DediPath秋季促销:洛杉矶VPS/Hybrid Servers全部4折,美国vps主机最低每月
阅读 2554·2021-09-30 10:00
Megalayer:双节大促,美国/香港/菲律宾VPS全场5折起;特价vps套餐年付低至159元
阅读 3490·2021-09-22 10:54
2020年-2021年9月跑路IDC商家名单及黑名单IDC榜单!
阅读 6211·2021-09-07 10:28
iconfont 介绍
阅读 2943·2019-08-29 13:53
移动端响应式
阅读 741·2019-08-29 12:42
babel在提升前端效率的实践
阅读 957·2019-08-26 13:51
每日 30 秒 ⏱ 对数组项目进行统计
阅读 1257·2019-08-26 13:32
可以加一些复杂样式的数字动画
阅读 3020·2019-08-26 10:39
阅读需要支付1元查看