资讯专栏INFORMATION COLUMN

【虫术】资深爬虫师带你爬取代理IP

learning / 1722人阅读

摘要:返回结果如下,接下来我们便开始爬取西刺代理,首先我们打开浏览器查看网页,并找到和端口元素的信息。爬取代理地址,代理的是西刺代理去掉可能重复的等待秒将要爬取页数的爬取好后存入数组,然后再对其中的逐一测试。

有时候在网站看小说,会莫名跳出来一个“疑似机器恶意爬取,暂时无法访问”这样类似的网站提示,需要刷新一下或者输入一个验证码才能重新进入,这样的情况偶有发生,相信大家都有遇到过。出现这个现象的原因就是我们浏览的网页采取了反爬虫的措施,特别做爬虫爬取网页,在某个ip单位时间请求网页次数过多时,服务器会拒绝服务,这种情况就是由于访问频率引起的封ip,这种情况靠解封不能很好的解决,所以我们就想到了伪装本机ip去请求网页,也就是我们今天要讲的使用代理ip。

目前网上有许多代理ip,有免费的也有付费的,例如西刺代理,豌豆代理,快代理等等,免费的虽然不用花钱但有效的代理很少且不稳定,付费的可能会好一点,不过今天我只爬取免费的西刺代理并将检测是否可用,将可用ip存入MongoDB,方便下次取出。

运行平台:Windows

Python版本:Python3.6

IDE: Sublime Text

其他:Chrome浏览器

简述流程为:

步骤1:了解requests代理如何使用

步骤2:从西刺代理网页爬取到ip和端口

步骤3:检测爬取到的ip是否可用

步骤4:将爬取的可用代理存入MongoDB

步骤5:从存入可用ip的数据库里随机抽取一个ip,测试成功后返回

对于requests来说,代理的设置比较简单,只需要传入proxies参数即可。

不过需要注意的是,这里我是在本机安装了抓包工具Fiddler,并用它在本地端口8888创建了一个HTTP代理服务(用Chrome插件SwitchyOmega),即代理服务为:127.0.0.1:8888,我们只要设置好这个代理,就可以成功将本机ip切换成代理软件连接的服务器ip了。

</>复制代码

  1. import requests
  2. proxy = "127.0.0.1:8888"
  3. proxies = {
  4. "http":"http://" + proxy,
  5. "https":"http://" + proxy
  6. }
  7. try:
  8. response = requests.get("http://httpbin.org/get",proxies=proxies)
  9. print(response.text)
  10. except requests.exceptions.ConnectionError as e:
  11. print("Error",e.args)

这里我是用来http://httpbin.erg/get作为测...,我们访问该网页可以得到请求的有关信息,其中origin字段就是客户端ip,我们可以根据返回的结果判断代理是否成功。返回结果如下:

{

</>复制代码

  1. "args":{},
  2. "headers":{
  3. "Accept":"*/*",
  4. "Accept-Encoding":"gzip, deflate",
  5. "Connection":"close",
  6. "Host":"httpbin.org",
  7. "User-Agent":"python-requests/2.18.4"
  8. },
  9. "origin":"xx.xxx.xxx.xxx",
  10. "url":"http://httpbin.org/get"

}

接下来我们便开始爬取西刺代理,首先我们打开Chrome浏览器查看网页,并找到ip和端口元素的信息。

可以看到,西刺代理以表格存储ip地址及其相关信息,所以我们用BeautifulSoup提取时很方便便能提取出相关信息,但是我们需要注意的是,爬取的ip很有可能出现重复的现象,尤其是我们同时爬取多个代理网页又存储到同一数组中时,所以我们可以使用集合来去除重复的ip。

</>复制代码

  1. 27def scrawl_xici_ip(num):
  2. 28 """
  3. 29 爬取代理ip地址,代理的url是西刺代理
  4. 30 """
  5. 31 ip_list = []
  6. 32 for num_page in range(1,num):
  7. 33 url = url_ip + str(num_page)
  8. 34 response = requests.get(url,headers=headers)
  9. 35 if response.status_code == 200:
  10. 36 content = response.text
  11. 37 soup = BeautifulSoup(content,"lxml")
  12. 38 trs = soup.find_all("tr")
  13. 39 for i in range(1,len(trs)):
  14. 40 tr = trs[i]
  15. 41 tds = tr.find_all("td")
  16. 42 ip_item = tds[1].text + ":" + tds[2].text
  17. 43 # print(ip_item)
  18. 44 ip_list.append(ip_item)
  19. 45 ip_set = set(ip_list) # 去掉可能重复的ip
  20. 46 ip_list = list(ip_set)
  21. 47 time.sleep(count_time) # 等待5秒
  22. 48 return ip_list

将要爬取页数的ip爬取好后存入数组,然后再对其中的ip逐一测试。

</>复制代码

  1. 51def ip_test(url_for_test,ip_info):
  2. 52 """
  3. 53 测试爬取到的ip,测试成功则存入MongoDB
  4. 54 """
  5. 55 for ip_for_test in ip_info:
  6. 56 # 设置代理
  7. 57 proxies = {
  8. 58 "http": "http://" + ip_for_test,
  9. 59 "https": "http://" + ip_for_test,
  10. 60 }
  11. 61 print(proxies)
  12. 62 try:
  13. 63 response = requests.get(url_for_test,headers=headers,proxies=proxies,timeout=10)
  14. 64 if response.status_code == 200:
  15. 65 ip = {"ip":ip_for_test}
  16. 66 print(response.text)
  17. 67 print("测试通过")
  18. 68 write_to_MongoDB(ip)
  19. 69 except Exception as e:
  20. 70 print(e)
  21. 71 continue

这里就用到了上面提到的requests设置代理的方法,我们使用http://httpbin.org/ip作为测试...,它可以直接返回我们的ip地址,测试通过后再存入MomgoDB数据库。

存入MongoDB的方法在上一篇糗事百科爬取已经提过了。连接数据库然后指定数据库和集合,再将数据插入就OK了。

</>复制代码

  1. 74def write_to_MongoDB(proxies):
  2. 75 """
  3. 76 将测试通过的ip存入MongoDB
  4. 77 """
  5. 78 client = pymongo.MongoClient(host="localhost",port=27017)
  6. 79 db = client.PROXY
  7. 80 collection = db.proxies
  8. 81 result = collection.insert(proxies)
  9. 82 print(result)
  10. 83 print("存储MongoDB成功")

最后运行查看一下结果吧

如果对Python编程、网络爬虫、机器学习、数据挖掘、web开发、人工智能、面试经验交流。感兴趣可以519970686,群内会有不定期的发放免费的资料链接,这些资料都是从各个技术网站搜集、整理出来的,如果你有好的学习资料可以私聊发我,我会注明出处之后分享给大家。

稍等,运行了一段时间后,难得看到一连三个测试通过,赶紧截图保存一下,事实上是,毕竟是免费代理,有效的还是很少的,并且存活时间确实很短,不过,爬取的量大,还是能找到可用的,我们只是用作练习的话,还是勉强够用的。现在看看数据库里存储的吧。

因为爬取的页数不多,加上有效ip也少,再加上我没怎么爬,所以现在数据库里的ip并不多,不过也算是将这些ip给存了下来。现在就来看看怎么随机取出来吧。

</>复制代码

  1. 85
  2. 86def get_random_ip():
  3. 87 """
  4. 88 随机取出一个ip
  5. 89 """
  6. 90 client = pymongo.MongoClient(host="localhost",port=27017)
  7. 91 db = client.PROXY
  8. 92 collection = db.proxies
  9. 93 items = collection.find()
  10. 94 length = items.count()
  11. 95 ind = random.randint(0,length-1)
  12. 96 useful_proxy = items[ind]["ip"].replace("
  13. ","")
  14. 97 proxy = {
  15. 98 "http": "http://" + useful_proxy,
  16. 99 "https": "http://" + useful_proxy,
  17. 100 }
  18. 101 response = requests.get(url_for_test,headers=headers,proxies=proxy,timeout=10)
  19. 102 if response.status_code == 200:
  20. 103 return useful_proxy
  21. 104 else:
  22. 105 print("此{ip}已失效".format(useful_proxy))
  23. 106 collection.remove(useful_proxy)
  24. 107 print("已经从MongoDB移除")
  25. 108 get_random_ip()
  26. 109

由于担心放入数据库一段时间后ip会失效,所以取出前我重新进行了一次测试,如果成功再返回ip,不成功的话就直接将其移出数据库。

这样我们需要使用代理的时候,就能通过数据库随时取出来了。

总的代码如下:

</>复制代码

  1. import random
  2. import requests
  3. import time
  4. import pymongo
  5. from bs4 import BeautifulSoup
  6. # 爬取代理的URL地址,选择的是西刺代理
  7. url_ip = "http://www.xicidaili.com/nt/"
  8. # 设定等待时间
  9. set_timeout = 5
  10. # 爬取代理的页数,2表示爬取2页的ip地址
  11. num = 2
  12. # 代理的使用次数
  13. count_time = 5
  14. # 构造headers
  15. headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36"}
  16. # 测试ip的URL
  17. url_for_test = "http://httpbin.org/ip"
  18. def scrawl_xici_ip(num):
  19. """
  20. 爬取代理ip地址,代理的url是西刺代理
  21. """
  22. ip_list = []
  23. for num_page in range(1,num):
  24. url = url_ip + str(num_page)
  25. response = requests.get(url,headers=headers)
  26. if response.status_code == 200:
  27. content = response.text
  28. soup = BeautifulSoup(content,"lxml")
  29. trs = soup.find_all("tr")
  30. for i in range(1,len(trs)):
  31. tr = trs[i]
  32. tds = tr.find_all("td")
  33. ip_item = tds[1].text + ":" + tds[2].text
  34. # print(ip_item)
  35. ip_list.append(ip_item)
  36. ip_set = set(ip_list) # 去掉可能重复的ip
  37. ip_list = list(ip_set)
  38. time.sleep(count_time) # 等待5秒
  39. return ip_list
  40. def ip_test(url_for_test,ip_info):
  41. """
  42. 测试爬取到的ip,测试成功则存入MongoDB
  43. """
  44. for ip_for_test in ip_info:
  45. # 设置代理
  46. proxies = {
  47. "http": "http://" + ip_for_test,
  48. "https": "http://" + ip_for_test,
  49. }
  50. print(proxies)
  51. try:
  52. response = requests.get(url_for_test,headers=headers,proxies=proxies,timeout=10)
  53. if response.status_code == 200:
  54. ip = {"ip":ip_for_test}
  55. print(response.text)
  56. print("测试通过")
  57. write_to_MongoDB(ip)
  58. except Exception as e:
  59. print(e)
  60. continue
  61. def write_to_MongoDB(proxies):
  62. """
  63. 将测试通过的ip存入MongoDB
  64. """
  65. client = pymongo.MongoClient(host="localhost",port=27017)
  66. db = client.PROXY
  67. collection = db.proxies
  68. result = collection.insert(proxies)
  69. print(result)
  70. print("存储MongoDB成功")
  71. def get_random_ip():
  72. """
  73. 随机取出一个ip
  74. """
  75. client = pymongo.MongoClient(host="localhost",port=27017)
  76. db = client.PROXY
  77. collection = db.proxies
  78. items = collection.find()
  79. length = items.count()
  80. ind = random.randint(0,length-1)
  81. useful_proxy = items[ind]["ip"].replace("
  82. ","")
  83. proxy = {
  84. "http": "http://" + useful_proxy,
  85. "https": "http://" + useful_proxy,
  86. }
  87. response = requests.get(url_for_test,headers=headers,proxies=proxy,timeout=10)
  88. if response.status_code == 200:
  89. return useful_proxy
  90. else:
  91. print("此{ip}已失效".format(useful_proxy))
  92. collection.remove(useful_proxy)
  93. print("已经从MongoDB移除")
  94. get_random_ip()
  95. def main():
  96. ip_info = []
  97. ip_info = scrawl_xici_ip(2)
  98. sucess_proxy = ip_test(url_for_test,ip_info)
  99. finally_ip = get_random_ip()
  100. print("取出的ip为:" + finally_ip)
  101. if __name__ == "__main__":
  102. main()

【给技术人一点关爱!!!】

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/19405.html

相关文章

  • 虫术资深爬虫师带你爬取代IP

    摘要:返回结果如下,接下来我们便开始爬取西刺代理,首先我们打开浏览器查看网页,并找到和端口元素的信息。爬取代理地址,代理的是西刺代理去掉可能重复的等待秒将要爬取页数的爬取好后存入数组,然后再对其中的逐一测试。 有时候在网站看小说,会莫名跳出来一个疑似机器恶意爬取,暂时无法访问这样类似的网站提示,需要刷新一下或者输入一个验证码才能重新进入,这样的情况偶有发生,相信大家都有遇到过。出现这个现象的...

    PiscesYE 评论0 收藏0
  • 【Python爬虫】手把手带你爬下肯德基官网(ajax的post请求)

    摘要:准备工作查看肯德基官网的请求方法请求。判断得肯德基官网是请求通过这两个准备步骤,明确本次爬虫目标的请求肯德基官网获取上海肯德基地点前页。构造不难发现,肯德基官网的的一个共同点,我们把它保存为。 ...

    WelliJhon 评论0 收藏0
  • K3s初探:Rancher架构带你尝鲜史上最轻量Kubernetes发行版

    摘要:发布不到两天,上数已近,这个业界大热的史上最轻量的开源发行版,你试过了没资深架构师来教你走出尝鲜第一步使用教程在此前言昨天,正式发布了一款史上最轻量的开源发行版。大小只有,极简,轻便,易于使用。 发布不到两天,GitHub上Star数已近3000,这个业界大热的、史上最轻量的开源Kubernetes发行版,你试过了没? Rancher资深架构师来教你走出尝鲜第一步!使用教程在此! sh...

    neuSnail 评论0 收藏0
  • 精通Python网络爬虫(0):网络爬虫学习路线

    摘要:以上是如果你想精通网络爬虫的学习研究路线,按照这些步骤学习下去,可以让你的爬虫技术得到非常大的提升。 作者:韦玮 转载请注明出处 随着大数据时代的到来,人们对数据资源的需求越来越多,而爬虫是一种很好的自动采集数据的手段。 那么,如何才能精通Python网络爬虫呢?学习Python网络爬虫的路线应该如何进行呢?在此为大家具体进行介绍。 1、选择一款合适的编程语言 事实上,Python、P...

    spacewander 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<