得到 html
import requests html=requests.get("http://sc.hkex.com.hk/TuniS/www.hkex.com.hk/chi/market/sec_tradinfo/stockcode/eisdeqty_c.htm").content解析数据
from pyquery import PyQuery as Q q=Q(html) tr = q("tr.tr_normal")导入 db
db=zpool["mysql+mysqldb://root:pwd@dbhost:3306/glhdb"] sqls = ["INSERT INTO `stocks_code` (`name`, `code`) VALUES ("{0}","{1}")".format(Q(i)("td")[0].text.encode("utf8","ignore"), ((Q(Q(i)("td")[1])("a") and Q(Q(i)("td")[1])("a")[0].text) or u"").encode("utf8","ignore").strip(")").strip(""").replace(""",""")) for i in tr[0:-3]] [db.execute(text(i)) for i in sqls]
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/37348.html
摘要:准备工作查看肯德基官网的请求方法请求。判断得肯德基官网是请求通过这两个准备步骤,明确本次爬虫目标的请求肯德基官网获取上海肯德基地点前页。构造不难发现,肯德基官网的的一个共同点,我们把它保存为。 ...
摘要:返回结果如下,接下来我们便开始爬取西刺代理,首先我们打开浏览器查看网页,并找到和端口元素的信息。爬取代理地址,代理的是西刺代理去掉可能重复的等待秒将要爬取页数的爬取好后存入数组,然后再对其中的逐一测试。 有时候在网站看小说,会莫名跳出来一个疑似机器恶意爬取,暂时无法访问这样类似的网站提示,需要刷新一下或者输入一个验证码才能重新进入,这样的情况偶有发生,相信大家都有遇到过。出现这个现象的...
摘要:返回结果如下,接下来我们便开始爬取西刺代理,首先我们打开浏览器查看网页,并找到和端口元素的信息。爬取代理地址,代理的是西刺代理去掉可能重复的等待秒将要爬取页数的爬取好后存入数组,然后再对其中的逐一测试。 有时候在网站看小说,会莫名跳出来一个疑似机器恶意爬取,暂时无法访问这样类似的网站提示,需要刷新一下或者输入一个验证码才能重新进入,这样的情况偶有发生,相信大家都有遇到过。出现这个现象的...
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
阅读 772·2023-04-25 15:13
阅读 1392·2021-11-22 12:03
阅读 821·2021-11-19 09:40
阅读 1901·2021-11-17 09:38
阅读 1705·2021-11-08 13:18
阅读 651·2021-09-02 15:15
阅读 1763·2019-08-30 15:54
阅读 2627·2019-08-30 11:12