摘要:介绍本篇博客将继续上一篇博客爬虫之使用的模块爬取各国国旗的内容,将用来实现这个爬虫,下载全世界国家的国旗图片。
介绍
本篇博客将继续上一篇博客:Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗 的内容,将用Java来实现这个爬虫,下载全世界国家的国旗图片。项目不再过多介绍,具体可以参考上一篇博客。
我们将全世界国家的名称放在一个txt文件中,每一行一个国家名字,该文件位于E盘flag目录下,名称为countries.txt, 部分内容如下:
我们这个爬虫的思路还是和上一篇博客的思路一样:先是读取countries.txt中的国家名称,以国家名称为参数,读取该国家搜索后的所在网页,再找到该搜索网页中的国家的国旗图片,并实现下载。这个搜索的过程,我们可以用Java的URL包中的POST方法来实现,关于POST方法的请求头和请求体,可以用Fiddler工具进行抓包分析。
该Java项目的具体结构如下:
其中用到的第三方API为commons-io和Jsoup,主函数为Country_Flag_Download.java,其java代码完整如下:
package wikiScrape; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.io.OutputStreamWriter; import java.net.HttpURLConnection; import java.net.URL; import java.net.URLConnection; import java.util.ArrayList; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.apache.commons.io.FileUtils; public class Country_Flag_Download { public static void main(String[] args){ String fileName ="E://flag/countries.txt"; // 读取countries.txt文件中的国家名,储存在ArrayList中 ArrayList运行结果countries = readFileByLines(fileName); for(String country: countries) { String page = doPost(country); // 获取国家所在的网页 if (page.indexOf("html") >= 0) { // 获取成功 getContent(page); // 下载该国国家的国旗 } } System.out.println("国旗下载完毕!"); } /* 发送HTTP的POST请求,获取指定国家的网页地址 * 传入参数:country(国家): String类型 */ public static String doPost(String country){ String url = "http://country.911cha.com/"; try { // 设置网址,打开连接 URL obj = new URL(url); HttpURLConnection conn = (HttpURLConnection) obj.openConnection(); // 设置POST请求头和请求体,请求体的参数为国家(country) conn.setUseCaches(false); conn.setRequestMethod("POST"); String USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"; conn.setRequestProperty("User-Agent", USER_AGENT); conn.setRequestProperty("Content-Type", "application/x-www-form-urlencoded; charset=UTF-8"); String postParams = String.format("q=%s", country); // 传入POST请求体的参数 conn.setDoOutput(true); OutputStreamWriter os = new OutputStreamWriter(conn.getOutputStream(),"UTF-8"); os.write(postParams); os.flush(); os.close(); // 获取响应结果状态码 int responseCode = conn.getResponseCode(); if (responseCode == HttpURLConnection.HTTP_OK) { //如果响应状态码为200 // 将HTML内容解析成UTF-8格式 Document doc = Jsoup.parse(conn.getInputStream(), "utf-8", url); // 刷选需要的网页内容 String page = doc.select("div.mcon").get(1) .selectFirst("ul") .selectFirst("li") .selectFirst("a") .attr("href"); return page; } else { // 如果响应状态码不是200, 则返回"Get page failed!" return "Get page failed.!"; } } catch(Exception e){ return "Get page failed."; } } // getContent()函数主要实现下载指定国家的国旗 public static void getContent(String page){ String base_url = "http://country.911cha.com/"; String url = base_url+page; try{ // 利用URL解析网址 URL urlObj = new URL(url); // URL连接 URLConnection urlCon = urlObj.openConnection(); // 打开URL连接 // 将HTML内容解析成UTF-8格式 Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url); // 刷选需要的网页内容 Element image = doc.selectFirst("img"); String flag_name = image.attr("alt").replace("国旗", ""); String flag_url = image.attr("src"); URL httpurl = new URL(base_url+"/"+flag_url); // 利用FileUtils.copyURLToFile()实现图片下载 FileUtils.copyURLToFile(httpurl, new File("E://flag/"+flag_name+".gif")); System.out.println(String.format("%s国旗下载成功~", flag_name)); } catch(Exception e){ e.printStackTrace(); System.out.println("下载失败!"); } } // 以行读取文件,返回ArrayList, 里面的元素为每个国家的名称 public static ArrayList readFileByLines(String fileName) { File file = new File(fileName); BufferedReader reader = null; // 设置reader为null ArrayList countries = new ArrayList (); try { reader = new BufferedReader(new FileReader(file)); String tempString = null; // 一次读入一行,直到读入null为文件结束 while ((tempString = reader.readLine()) != null) countries.add(tempString); // 在列表中添加国家名称 reader.close(); // 关闭reader return countries; } catch (IOException e) { return countries; } finally { if (reader != null) { try { reader.close(); } catch (IOException e1) { e1.printStackTrace(); } } } } }
点击运行该Java程序,可以发现在E盘的flag目录下已经下载了全世界国家的国旗图片,查看如下:
Bingo, 我们的Java爬虫程序运行成功!本次爬虫的主要目标是为了在Java中实现类似于Python中的requests模块的POST方法~
注意:本人现已开通两个微信公众号: 因为Python(微信号为:python_math)以及轻松学会Python爬虫(微信号为:easy_web_scrape), 欢迎大家关注哦~~
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/71511.html
摘要:流程作为上述过程的一个演示,我们使用的网址为页面如下在表单中输入德国,跳转后的页面如下我们可以发现,在搜索的结果中,会出现德国这个搜索结果。点击该搜索结果,跳转后的页面如下在这个页面中有我们需要的德国的国旗。 介绍 本篇博客将会介绍一个Python爬虫,用来爬取各个国家的国旗,主要的目标是为了展示如何在Python的requests模块中使用POST方法来爬取网页内容。 为了知道...
摘要:异步下载国旗图片和国家名数据用来捕获异常保存图片文件负责下载的主函数,由传递国家名是数据。异步获取图片异步获取国家名中的子句在没有异常时会运行这里获取循环是为了在保存图片时不阻塞函数内部维护了一个对象注。 异步下载国旗图片和国家名数据 import aiohttp import asyncio import os import time import sys POP20_CC = (...
摘要:本届世界杯中,在日本与比利时的比赛中,日本球迷们高举队长小翼的画面就足以证明这部动漫对日本足球的深远影响。本文将介绍如何利用爬虫来下载足球小将的动漫图片。 尽管俄罗斯世界杯的热度已经褪去,但这届世界杯还是给全世界人民留下了无数难忘的回忆,不知你的回忆里有没有日本队的身影?本次世界杯中,日本队的表现让人眼前一亮,很难想象,就是这样一只队伍,二十几年还是我们国家足球队的水平一样,也许还...
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:本次分享将在此基础上,利用多线程,提高程序运行的效率。思路本次分享建立在博客爬虫之下载中电影的图片上,总体的爬虫思路没有变化,只是在此基础上引入多线程。 介绍 在博客:Java爬虫之下载IMDB中Top250电影的图片中我们实现了利用Java爬虫来下载图片,但是效率不算太高。本次分享将在此基础上,利用多线程,提高程序运行的效率。 思路 本次分享建立在博客Java爬虫之下载IMD...
阅读 1103·2021-11-08 13:13
阅读 1688·2019-08-30 15:55
阅读 2725·2019-08-29 11:26
阅读 2410·2019-08-26 13:56
阅读 2524·2019-08-26 12:15
阅读 2093·2019-08-26 11:41
阅读 1373·2019-08-26 11:00
阅读 1514·2019-08-23 18:30