Tomcat和搜索引擎网络爬虫的攻防

cheukyin 发布于2019-06-21 16:49 / 3202人阅读

摘要：而搜索引擎如百度和微软搜索，搜索等通过什么方式才能收录我们的个人网站呢答案是搜索引擎的网络爬虫。网络爬虫是一个很形象的名词，是属于搜索引擎的工具，只有被这些网络爬虫爬过的内容才有机会出现在对应搜索引擎的搜索结果中。

不知道广大程序员朋友们注意到一个现象么？使用百度是无法搜索到淘宝网的网页。为什么会造成这种现象？这就要从网络爬虫说起了。

咱们程序员假如自己搭设个人网站，在上面分享少量自己的技术文章，面临的一个重要问题就是让搜索引擎能够搜索到自己的个人网站，这样才能让更多的读者访问到。

而搜索引擎如百度和微软Bing搜索，Google搜索等通过什么方式才能收录我们的个人网站呢？

答案是搜索引擎的网络爬虫。网络爬虫是一个很形象的名词，是属于搜索引擎的工具，只有被这些网络爬虫“爬过”的内容才有机会出现在对应搜索引擎的搜索结果中。

个人站长对网络爬虫是又爱又恨。一方面，网络爬虫可以让我们的个人网站出现在搜索结果里，对我们的个人网站进行扩散。另一方面，假如网络爬虫太多太频繁地访问个人网站，会肯定程度上影响正常使用户的请求解决。

于是就有了文章开头我提到的百度搜不到淘宝产品信息的文章。

在浏览器里输入https://www.taobao.com/robots...，

能看到淘宝网的一个文件robots.txt:

随意选一段解释：这个robots.txt的意思是，淘宝网做出了规定，假如网络请求来自百度爬虫(Baiduspider), 那么只允许(allow)百度爬虫读取article, oshtml和/ershou, 不允许读取的是product。

User-agent: Baiduspider

Allow: /article

Allow: /oshtml

Allow: /ershou

Disallow: /product/

Disallow: /

那么淘宝网怎样知道一个请求是来自百度爬虫，还是来自真正的使用户访问呢？答案就是HTTP请求的User-agent字段。

下图是我使用Chrome访问淘宝网的HTTP请求的User-agent：

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36

再回到Tomcat。假如有大量来自网络爬虫的读取请求，Web服务器需要为每一个请求创立一个session。当Session数量变得巨大时，消耗的服务器内存和资源也是巨大的。

因而，Tomcat对于来自网络爬虫的请求，用同一个session来解决。

我们打开Tomcat的源代码来学习。

Tomcat的源代码可以到其官网去下载：

https://tomcat.apache.org/dow...

点这个链接：

我下载的是7.0.90版本，只有7MB大。

这里需要注意，即便Spider显式的传了一个 sessionId过来，也会弃使用，而是根据client Ip 来进行判断，即对于相同的 Spider 只提供一个Session。

在下载好的源代码文件夹里，找到这个子文件夹：apache-tomcat-7.0.90-srcjavaorgapachecatalinavalves

打开CrawlerSessionManagerValve.java：

可以看到从第192行代码开始都是Tomcat使用来检测进来的网络请求能否是网络爬虫：

通过这个类里定义的正则表达式检测HTTP请求的user-agent字段来判断究竟该请求能否来自网络爬虫：

".[bB]ot.|.Yahoo! Slurp.|.Feedfetcher-Google."

一旦正则表达式在第205行匹配成功，将第206行的标志位设成true。

假如检测到是网络爬虫，则使用clientIdSessionId.get这个API获取Tomcat专门为网络爬虫预留的sessionId, 而后在第226行把该sessionId分配到进来的网络爬虫请求，这样就避免了白费太多的资源申请session来服务海量的网络爬虫请求，节省了Web服务器的资源。

要获取更多Jerry的原创技术文章，请关注公众号"汪子熙"或者扫描下面二维码:

GPU云服务器云服务器阿里云服务器和tomcat的区别爬虫搜索引擎搜索引擎爬虫 asp搜索引擎爬虫

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/11414.html

极简爬虫攻防战纪要

摘要：极简爬虫攻防战纪要爬虫是构建搜索引擎的基础负责抓取网页信息并对网页识别分类及过滤。爬虫方终于锁定了第一场战役的胜局由于断崖式技术的出现，反爬方在浏览器识别战役上望风披靡。经过反爬方的精心运作，逐渐有效削弱了敌方的攻势。极简爬虫攻防战纪要爬虫是构建搜索引擎的基础, 负责抓取网页信息并对网页识别、分类及过滤。我们熟识的电商、搜索、新闻及各大门户网站都有强大的爬虫集群在每...

elliott_hu 2019-08-26 14:06 评论0 收藏0
爬虫攻防实践

摘要：之前在学校曾经用过的方法做过一些爬虫脚本来玩，从正式转前端之后，出于兴趣，我对爬虫和反爬虫又做了一些了解，并且做了一些爬虫攻防的实践。爬虫脚本通常会很频繁的进行网络请求，比如要爬取豆瓣排行榜的电影，就会连续发送个网络请求。之前在学校曾经用过request+xpath的方法做过一些爬虫脚本来玩，从ios正式转前端之后，出于兴趣，我对爬虫和反爬虫又做了一些了解，并且做了一些爬虫攻防的实践...

wanglu1209 2019-08-02 15:34 评论0 收藏0
爬虫攻防实践

摘要：之前在学校曾经用过的方法做过一些爬虫脚本来玩，从正式转前端之后，出于兴趣，我对爬虫和反爬虫又做了一些了解，并且做了一些爬虫攻防的实践。爬虫脚本通常会很频繁的进行网络请求，比如要爬取豆瓣排行榜的电影，就会连续发送个网络请求。之前在学校曾经用过request+xpath的方法做过一些爬虫脚本来玩，从ios正式转前端之后，出于兴趣，我对爬虫和反爬虫又做了一些了解，并且做了一些爬虫攻防的实践...

xiangzhihong 2019-07-31 11:28 评论0 收藏0
如果有人问你爬虫抓取技术的门道，请叫他来看这篇文章

摘要：未授权的爬虫抓取程序是危害原创内容生态的一大元凶，因此要保护网站的内容，首先就要考虑如何反爬虫。反爬虫的银弹目前的反抓取机器人检查手段，最可靠的还是验证码技术。机器人协议除此之外，在爬虫抓取技术领域还有一个白道的手段，叫做协议。本文首发于我的个人博客，同步发布于SegmentFault专栏，非商业转载请注明出处，商业转载请阅读原文链接里的法律声明。 web是一个开放的平台，这也奠定了...

raoyi 2019-08-21 17:55 评论0 收藏0