资讯专栏INFORMATION COLUMN

每日 30 秒 ⏱ 漫游器法则

Render / 2894人阅读

简介
SEO、robot.txt、搜索引擎优化

在浩海的互联网世界中:

互联网 宛如 宇宙

站点 宛如 星系

网页 宛如 星球

网页内容 宛如 生灵万物

而在互联网世界漫游的搜索引擎爬虫小蜘蛛,就好比一搜穿梭在宇宙里的星际漫游器,想想是不是还挺浪漫的。对于不同的星系有着自己的规则,如果不准守规则,小心自动防御功能把 漫游器 打坏哦~

小二幻想过这个世界如果是由代码组成的,还是挺有意思的,很多灵异事件都可以解释为 bug,有次和同学脑洞大开聊了一晚上,有机会可以找个时间来构筑一个代码 世界观
漫游器法则

每个星系的入口处即网站根目录都会设置一个 robot.txt 又叫做漫游器法则,记录漫游器应该准守的规则。漫游器法则 更多的是一个协定,并不是写了所有的爬虫都会准守这个规则。

很多公司或者个人在没有内容输出时,往往会通过 爬虫 去爬取别人站点的数据,如果准守规则也可以叫其 漫游器,但是不准守规则肆无忌惮爬取的称之为 海盗船。被爬取的站点,对于这些 海盗船 会做出一定的判断,或者访问评率限制来保护自己。

名单法则

robot.txt 中通过 User-agent 来规定那些 漫游器 应该准守哪些规则,使用 * 星号表示允许所有 漫游器 都应该准守例如User-agent: *。也可以对特定的漫游器做出限制,例如对 百度漫游器 做出限制 User-agent: Baiduspider。在名单法则之下是与之对应的 允许法则拒接法则

允许法则通过 Allow: 配合路径法则来告诉 漫游器 哪些链接是应该爬取访问的。

拒接法则通过 Disallow: 配合路径法则来告诉 漫游器 哪些链接是不应该爬取访问的。

路径法则

pathname 组成 query 的路径,配合上 *$ 符号可以拼凑出一条网站路径规则。下面给出几个例子:

用户列表 https://pushme.top/users 用路径表达 /users

文章评论 https://pushme.top/posts/1/comments 用路径表达 /posts/*/comments

样式文件 https://pushme.top/assets/styles/main.css 用路径表达 /assets/styles/*.css$

更多 URL 详细内容可以查看 URL 大爆炸
星系推荐法则

在 投怀送抱 中介绍了 sitemap 网页地图,用于告诉漫游器哪些网站哪些页面值得访问。通过 Sitemap: 来指定 Sitemap: https://pushme.top/sitemap.xml

单双号法则

网站和现实生活一样也有分 单双号漫游器海盗船 爬取页面也会占用到服务器的资源。如果占用太多资源会导致 正常用户 无法访问网站,所以利用 单双号法则 来限制 漫游器 的访问频率:

Crawl-delay: n 每次抓取间隔n秒。

Request-rate: x/n 抓取x个页面在n秒之内。

掘金漫游器法则

在讲完了整体的漫游器法则构成,让我们一起阅读一下 掘金漫游器法则。访问 https://juejin.im/robots.txt 就可以看到如下内容:

User-agent: *
Request-rate: 1/1
Crawl-delay: 5

Disallow: /timeline
Disallow: /submit-entry
Disallow: /new-entry
Disallow: /edit-entry
Disallow: /notification
Disallow: /subscribe/subscribed
Disallow: /user/settings
Disallow: /reset-password
Disallow: /drafts
Disallow: /editor
Disallow: /user/invitation
Disallow: /user/wallet
Disallow: /entry/*/view$
Disallow: /auth
Disallow: /oauth
Disallow: /zhuanlan/*?sort=newest
Disallow: /zhuanlan/*?sort=comment
Disallow: /search
Disallow: /equation

可以看到掘金漫游器法则还是相对宽松的,限制了访问评率和不应该访问网页,没有对具体的 百度漫游器谷歌漫游器 等作出限制,所以同学也可以写 漫游器 来爬取掘金的部分内容。比如今天的沸点中就看到了:

SEO 相关内容

H1 の 小秘密

SEO 初体验

img の 小九九

千里姻缘一线牵

投怀送抱

漫游器法则

其他

关于 robot.txt 生成的工具这里推荐 robots文件生成 简单易用。

小二在这里只讨论了一些力所能及容易做到 的 SEO 内容,关于 SEO 相关的内容就讨论到这里了。虽然 语义化标签 这部分内容也对 SEO 有所帮助,但是实践起来挺难做到的,如果小二有想简单且容易理解的方法到时候再补上这篇。

一起成长
在困惑的城市里总少不了并肩同行的 伙伴 让我们一起成长。

如果您想让更多人看到文章可以点个 点赞

如果您想激励小二可以到 Github 给个 小星星

如果您想与小二更多交流添加微信 m353839115

本文原稿来自 PushMeTop

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/103413.html

相关文章

  • 每日 30 ⏱ 终极等于

    简介 字符串、数字、数组、对象、时间、类型、等于 科学家发现,人脑中会分泌多种能让人感到快乐、安全和成就感的物质,这些物质统称为快乐素。通常情况下,快乐素的释放水平很低,维持我们心情平静。只有当我们完成了预设目标,作为奖励,大脑才会增加快乐素的分泌,让人感受到满足和成功的喜悦。 这是之前看到的一篇关于 大脑奖励机制 文章的一段话,为了要获得奖励我们需要有预设目标,而是每日 30 秒系列也是为了帮助...

    lakeside 评论0 收藏0
  • 每日 30 ⏱ 扼住焦点的喉咙

    简介 无障碍、HTML 小细节、焦点、a11y、Accessibility、框架选择 无障碍开发还是应该从 HTML 开始聊起,无论是盲人阅读器还是浏览器等工具最核心的部分还是在 HTML,毕竟没了 CSS 只是不美观了,没了 JavaScript 只是少了交互和无限扩展的可能性。 有的同学会说了产品和老板拿着鞭子在后头赶马车哪里有时间写这些。现实是这样的,但是在选择UI框架的时候可以选择 无障碍...

    antyiwei 评论0 收藏0
  • 3D全景漫游

    摘要:可选,默认值为,设置为则禁止用户和全景图交互导航条不可用。可选,默认值为,全景图在毫秒后会自动进行动画。当全景图准备就绪并且第一张图片显示时的回调函数。 3D全景漫游 showImg(http://mmbiz.qpic.cn/mmbiz/cibketMByvrbpDqUQ9LiaBvutnwMehicnO2RZurdl96FLtwqlf6LjWS0Bv8ApQY0YjHdtyFWuzz...

    DesGemini 评论0 收藏0
  • 每日 30 ⏱ 巧用可视区域

    简介 可视区域、页面优化、DOM节点多、图片懒加载、性能 可视区域是一个前端优化经常出现的名词,不管是显示器、手机、平板它们的可视区域范围都是有限。在这个 有限可视区域 区域里做到完美显示和响应,而在这个区域外少做一些操作来减少渲染的压力、网络请求压力。在 每日 30 秒之 对海量数据进行切割 中的使用场景,我们就是利用了 有限可视区域 只渲染一部分 DOM 节点来减少页面卡顿。 既然 可视区域 ...

    DevYK 评论0 收藏0
  • 每日 30 ⏱ 判断是否为页面底部

    showImg(https://segmentfault.com/img/remote/1460000018771130?w=900&h=500); 简介 分页、优化、可视区域、无限加载 写前端页面时最经常遇到的开发需求之一就是 渲染后端数据返回的数据对象,当数据对象数量极多的时候便需要进行分页。 常见的分页方式有三种: 在页面底部生成 上一页、下一页、页面列表 按钮。 用户可以很直接的选择...

    callmewhy 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<