资讯专栏INFORMATION COLUMN

node JS爬虫基础篇

AlanKeene / 2403人阅读

摘要:项目中一直用不到但是觉得这门以作为编程基础的服务端语言很有意思用它可以写一些接口写个爬虫这是一门基础篇看了一段时间文档后写个爬虫增强一下的认识吧爬虫的原理感觉很简单大致分为一下三步获取到对应网站的数据也就是代码筛选出你需要的数据比如用户的信

项目中一直用不到node,但是觉得node这门以js作为编程基础的服务端语言很有意思,用它可以写一些接口,写个爬虫.这是一门基础篇,看了一段时间文档后写个爬虫增强一下node的认识吧
爬虫的原理感觉很简单,大致分为一下三步

获取到对应网站的数据(也就是html代码)

筛选出你需要的数据(比如用户的信息,图片的地址)

下载或者整理出你所要的资源写入数据库

var http=require("http")
var fs  =require("fs")
var path=require("path")
http.get("http://jspang.com/",function(res){
    var content=""
    res.on("data",function(txt){
        content+=txt
    })

    res.on("end",function(){
        var reg=/data-src="(.*?.jpg)"/img;//匹配出图片地址
        // var data=content.match(reg);
        // fs.writeFile("./test.txt",data,function(){
        //     console.log("写入成功")
        // })

        var filename=null;
        //循环出图片地址
        while(filename=reg.exec(content)){
            getImage(filename[1])
        }
    })
})
//下载图片
function getImage(url){
    var obj=path.parse(url);
    var name=obj.base;
    var filestream=fs.createWriteStream("./img/"+name);
    http.get(url,function(res){
        res.pipe(filestream)
    })
}
当然这只是个最简单的demo了,下面会持续更新进阶版的!
市面上的框架千变万化,只有基础知识比较好才能够学习的更好,而且需要多学习一下性能优化,网络,安全这方面,因为在大公司里面,其实重要的东西并不是你能够做的多好看,而是你的安全性那些做的好不好,一不小心信息泄露了,那就会导致很多无法想象的事情。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/93289.html

相关文章

  • 实用的开源百度云分享爬虫项目yunshare - 安装

    摘要:今天开源了一个百度云网盘爬虫项目,地址是。推荐使用命令安装依赖,最简单的安装方式更多安装的命令可以去上面找。启动项目使用进行进程管理,运行启动所有的后台任务,检查任务是否正常运行可以用命令,正常运行的应该有个任务。 今天开源了一个百度云网盘爬虫项目,地址是https://github.com/callmelanmao/yunshare。 百度云分享爬虫项目 github上有好几个这样的...

    lei___ 评论0 收藏0
  • 上天的Node.js爬虫 15行代码爬取京东淘宝资源 【深入浅出】

    摘要:这里由于京东的分界面都使用了,所以我们可以用,总之他们开发能用的选择器,我们都可以用,否则就不可以。 难道爬虫只能用 python 做? 不,我们上天的 Node.js 也可以做! 需要准备的包 Node.js的最新版本 下载地址 Node.js官网 npm 包管理器下载 下载最新的官网版本 Node.js 会自带 npm npm的第三方包 puppeteer 在对应...

    宋华 评论0 收藏0
  • 上天的Node.js爬虫 15行代码爬取京东淘宝资源 【深入浅出】

    摘要:这里由于京东的分界面都使用了,所以我们可以用,总之他们开发能用的选择器,我们都可以用,否则就不可以。 难道爬虫只能用 python 做? 不,我们上天的 Node.js 也可以做! 需要准备的包 Node.js的最新版本 下载地址 Node.js官网 npm 包管理器下载 下载最新的官网版本 Node.js 会自带 npm npm的第三方包 puppeteer 在对应...

    104828720 评论0 收藏0
  • 上天的Node.js爬虫 15行代码爬取京东淘宝资源 【深入浅出】

    摘要:这里由于京东的分界面都使用了,所以我们可以用,总之他们开发能用的选择器,我们都可以用,否则就不可以。 难道爬虫只能用 python 做? 不,我们上天的 Node.js 也可以做! 需要准备的包 Node.js的最新版本 下载地址 Node.js官网 npm 包管理器下载 下载最新的官网版本 Node.js 会自带 npm npm的第三方包 puppeteer 在对应...

    kyanag 评论0 收藏0
  • 使用Node.js爬取任意网页资源并输出高质量PDF文件到本地~

    摘要:上面只爬取了京东首页的图片内容,假设我的需求进一步扩大,需要爬取京东首页中的所有标签对应的跳转网页中的所有的文字内容,最后放到一个数组中。 showImg(https://segmentfault.com/img/bVbtVeV?w=3840&h=2160); 本文适合无论是否有爬虫以及Node.js基础的朋友观看~ 需求: 使用Node.js爬取网页资源,开箱即用的配置 将爬取到的...

    seasonley 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<