摘要:本次分享将在此基础上,利用多线程,提高程序运行的效率。思路本次分享建立在博客爬虫之下载中电影的图片上,总体的爬虫思路没有变化,只是在此基础上引入多线程。
介绍
在博客:Java爬虫之下载IMDB中Top250电影的图片中我们实现了利用Java爬虫来下载图片,但是效率不算太高。本次分享将在此基础上,利用多线程,提高程序运行的效率。
思路本次分享建立在博客Java爬虫之下载IMDB中Top250电影的图片上,总体的爬虫思路没有变化,只是在此基础上引入多线程。多线程的思路如下:
Java的每个任务类必须实现Runnable接口,因此,我们将新建ImageDownload类来实现Runnable接口。ImageDownload类的构造函数的参数有: url:网站的网址, dir: 图片储存目录。并在run()方法中实现将网页中的图片下载到本地。
在主函数中,调用ImageDownload类,利用多线程实现爬虫下载,提高运行效率。
程序ImageDownload类的代码完整如下:
package wikiScrape; import java.io.File; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; import java.net.URLConnection; import org.apache.commons.io.FileUtils; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; /* ImageDownload类实现Runnable接口 * ImageDownload类的构造参数: url:网址的网址, dir: 图片存储目录 * ImageDownload类实现了将网页中的图片下载到本地 */ public class ImageDownload implements Runnable{ private String url; private String dir; public ImageDownload(String url, String dir) { this.url = url; this.dir = dir; } // run()函数: 将网页中的电影图片下载到本地 @Override public void run(){ // 利用URL解析网址 URL urlObj = null; try{ urlObj = new URL(url); } catch(MalformedURLException e){ System.out.println("The url was malformed!"); } // URL连接 URLConnection urlCon = null; try{ // 打开URL连接 urlCon = urlObj.openConnection(); // 将HTML内容解析成UTF-8格式 Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url); // 提取电影图片所在的HTML代码块 Elements elems = doc.getElementsByClass("ss-3 clear"); Elements pic_block = elems.first().getElementsByTag("a"); for(int i=0; i主函数ImageScraper.java的代码如下:
package wikiScrape; /* 本爬虫利用多线程爬取http://www.imdb.cn/IMDB250/中Top250的图片 * 先利用Jsoup解析得到该网页中的图片的url * 然后利用FileUtils.copyURLToFile()函数将图片下载到本地 */ import wikiScrape.ImageDownload; import java.util.ArrayList; import java.util.concurrent.*; import java.util.Date; public class ImageScraper { public static void main(String[] args) { Date d1 = new Date(); System.out.println("爬虫开始......"); // 爬取的网址列表,一共十个网页 ArrayList运行urls = new ArrayList (); urls.add("http://www.imdb.cn/IMDB250/"); for(int i=2; i<=10; i++) { urls.add("http://www.imdb.cn/imdb250/"+ Integer.toString(i)); } String dir = "E://log/"; // 图片储存目录 // 利用多线程下载每个页面中的图片 ExecutorService executor = Executors.newCachedThreadPool(); // Create and launch 100 threads for(int i=0; i<10; i++) { executor.execute(new ImageDownload(urls.get(i), dir)); } executor.shutdown(); // wait until all tasks are finished while(!executor.isTerminated()) { } System.out.println("程序运行完毕!"); Date d2 = new Date(); // 计算程序的运行时间,并输出 long seconds = (d2.getTime()-d1.getTime())/1000; System.out.println("一共用时: "+seconds+"秒."); } } 运行上述主函数,结果如下:
一共也是下载了244张图片,运行结果与博客:Java爬虫之下载IMDB中Top250电影的图片中的结果一模一样,但是时间却少了一半!可见利用多线程来写爬虫效率相当高!
本次分享到此结束,欢迎大家交流~~
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/68921.html
摘要:介绍在博客爬虫爬取豆瓣电影图片中我们利用的爬虫框架,将豆瓣电影图片下载到自己电脑上。那么,在的爬虫的也可以下载图片吗答案当然是肯定的在本次分享中,我们将利用的包和函数来实现图片的下载。 介绍 在博客:Scrapy爬虫(4)爬取豆瓣电影Top250图片中我们利用Python的爬虫框架Scrapy,将豆瓣电影Top250图片下载到自己电脑上。那么,在Java的爬虫的也可以下载图片吗?答...
摘要:本次爬虫项目将会用到模块中的类,多线程豆瓣电影图片。总结通过上述两个爬虫程序的对比,我们不难发现,同样是下载豆瓣电影,个网页中的图片,在没有使用多线程的情况下,总共耗时约,而在使用多线程个线程的情况下,总共耗时约秒,效率整整提高了约倍。 爬虫项目介绍 本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如...
摘要:前篇全片都是生硬的理论使用,今天就放个静态爬取的实例让大家体验一下的使用,了解一些背后的原理。给出网站打开右键检查第一个电影,分析源码先,发现每个标签就对应着一个电影的信息。 前篇全片都是生硬的理论使用,今天就放个静态爬取的实例让大家体验一下BeautifulSoup的使用,了解一些背后的原理。 顺便在这引入静态网页的概念——静态网页是指一次性加载所有内容的网页,爬虫一次请求便能得到所...
摘要:这次我们爬取的内容准备步骤找到格式网页中需要爬取的数据的例如我们需要爬取图片的这里用的是不会用的同学请百度然后我们开始建立工程打开然后在你想要建立工程的目录下面输入就会自动建立一个工程然后去根目录建立一个去这个目录里建立一个注意这里的主爬虫 这次我们爬取的内容 showImg(https://segmentfault.com/img/bVSirX?w=1021&h=521); 准备步骤...
摘要:前言新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例。 0.前言 新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例。所以找了很多实例和文...
阅读 1102·2023-04-26 02:46
阅读 572·2023-04-25 19:38
阅读 584·2021-10-14 09:42
阅读 1216·2021-09-08 09:36
阅读 1335·2019-08-30 15:44
阅读 1297·2019-08-29 17:23
阅读 2220·2019-08-29 15:27
阅读 778·2019-08-29 14:15