摘要:项目简介前端站点项目效果预览使用实现磁力链接爬虫磁力链接解析成种子信息,保存到数据库,利用实现中文检索。搭建磁力链接搜索引擎源码地址后端脚本磁力链接获取磁力链接解析入库定时同步源码地址此项目仅用学习交流技术使用不做商业用途。
项目简介
前端站点 项目效果预览 http://findcl.com
使用 nodejs 实现磁力链接爬虫 磁力链接解析成 torrent种子信息,保存到数据库,利用 Elasticsearch 实现中文检索。koa2 搭建磁力链接搜索引擎
源码地址 https://github.com/ssstk/findcl
后端脚本 磁力链接获取 磁力链接解析 入库 Mongodb 定时同步 Elasticsearch
源码地址 https://github.com/ssstk/mang...
此项目仅用学习交流技术使用 不做商业用途。
上线2018-06-01 网站正式上线。暂时想不到什么名字 各位大大可以推荐下哦。域名是 http://findcl.com ,
两台 VPS (都是某些云做活动买的 配置低)
第一台部署了 FindCl 站点本身( koa2、nginx )和单个节点的 Elasticsearch
第二台部署了磁力链接爬虫 hashinfo 解析 入库 Mongodb
Mongodb 数据库在套路云(目前有 300W 数据库,每日新收录 3W+的数据)
项目依赖Mongodb
mongoose
Elasticsearch
nginx
koa2
vue
DHT BT 资源爬虫 磁力链接解析 manget2torrent
crontab 定时执行 Mongodb 与 Elasticsearch 的数据同步
...
存在的问题 manget2torrent依赖的 dhtspider 爬虫 长时间使用一个端口的时,由于 P2P 网络的特性,越来越多的节点来访问 会导致带宽跑满(其主要是活动买的云主机 1M 的),如果活力全开不做闲置 大概稳定在 10M 左右。解决方案就是 每次采集 5000 条不重复的磁力 hashindo 就暂停爬虫,取解析获取信息。等小于 1000 条时候,再随机端口开启服务。
解析磁力链接缓慢且成功率很低, 失败的大概在 3 成左右且需要好几秒
其他有其他问题请新建issue交流。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/19302.html
摘要:闲话不多说了,接下来谈谈网络爬虫吧。根据中的到指定端口使用扩展协议进行数据的交换即下载下载成功,解析出种子文件列表信息入库。具体实现请参考我的开源项目代码如有问题,欢迎指正,仅供技术交流,切勿用作非法商业用途。 演示地址: https://dodder.cc 三年前,照着 Python 版的 DHT 网络爬虫用 Java 重写了一遍,当时大学还未毕业,写出来的代码比较杂乱,数据跑到 1...
摘要:本人建立个群作为去转盘网的官方群,人数现在也不多,如果有兴趣的话来逛逛吧,多个粉丝去转盘多一份热闹,群号 之前我在写百度网盘爬虫,百度图片爬虫的时候答应网友说,抽时间要把ok搜搜的的源码公开,如今是时候兑现诺言了,下面就是爬虫的所有代码,完全,彻底的公开,你会不会写程序都可以使用,不过请先装个linux系统,具备公网条件,然后运行: python startCrawler.py 有必要...
摘要:后来在爬取不到让我一度怀疑人生的时候巧合下,发现磁力链接有小写字母,有长度的,有长度的。。 原文博客: 羞羞的node爬虫 前言 学了一阵子node,除了用 express 写东西,就没怎么做过东西突然就想写个 爬虫 来玩一玩,而且还是爬一些羞羞的东西 使用模块 SuperAgent 是个 http 方面的库,可以发起 get 或 post 请求。 cheerio 大家可以理解成一个 ...
阅读 1996·2021-09-30 09:47
阅读 682·2021-09-22 15:43
阅读 1955·2019-08-30 15:52
阅读 2410·2019-08-30 15:52
阅读 2508·2019-08-30 15:44
阅读 851·2019-08-30 11:10
阅读 3343·2019-08-29 16:21
阅读 3277·2019-08-29 12:19