摘要:问题来源今天与同学聊天,得知他有个任务是抓取同花顺网站上的股票数据,有点兴趣,便做了相关实验。由于时间关系,以上代码只是把数据所在的网页抓取到本地,没有进行解析。
问题来源
今天与同学聊天,得知他有个任务是抓取同花顺网站上的股票数据,有点兴趣,便做了相关实验。
介绍网站地址:http://q.10jqka.com.cn/
网站界面:
爬取内容:图中全部股票专栏表格中的数据
观察浏览器:Firefox
观察现象:网页中每次只展示一页的数据,一页20条数据。通常来说,为了减轻浏览器的存储压力,后台服务器一般只给前台发送一页的数据,数据的获取需要前端发送请求
寻找请求:为了获取某一页数据对应的请求,点击F12键,调出浏览器工具控制台,并点击到网络专栏,同时清空界面中的所有请求,页面如下:
点击页,发现请求,该请求方法为GET,返回类型为html,界面如下:
探索请求:发现该请求的返回类型为html,为了进一步探索该请求,将该请求的地址复制到浏览器地址栏中,打开页面,发现这与主网站上的数据一致,可认为该请求可获取到股票数据。
寻找关系:通常来说,某一页与请求的地址会有特定的联系。刚刚我们请求的地址为:http://q.10jqka.com.cn/index/...,发现其中的4正好为我们所点击的页数,这个时候页数和请求地址的规律寻找出来了
实验语言:Java
工具:htmlunit,
</>复制代码
net.sourceforge.htmlunit
htmlunit
2.35.0
基本思想:浏览器模拟点击
源码如下:
</>复制代码
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.net.URL;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.HttpMethod;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.Page;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.WebRequest;
import com.gargoylesoftware.htmlunit.html.HtmlAnchor;
import com.gargoylesoftware.htmlunit.html.HtmlButton;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlPasswordInput;
import com.gargoylesoftware.htmlunit.html.HtmlTextInput;
public class HtmlUtil {
WebClient webClient;
//初始化
public HtmlUtil(){
webClient = new WebClient(BrowserVersion.CHROME);//新建一个模拟谷歌Chrome浏览器的浏览器客户端对象
webClient.getOptions().setThrowExceptionOnScriptError(false);//当JS执行出错的时候是否抛出异常, 这里选择不需要
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);//当HTTP的状态非200时是否抛出异常, 这里选择不需要
webClient.getOptions().setActiveXNative(false);
webClient.getOptions().setCssEnabled(false);//是否启用CSS, 因为不需要展现页面, 所以不需要启用
webClient.getOptions().setJavaScriptEnabled(true); //很重要,启用JS。有些网站要开启!
webClient.setAjaxController(new NicelyResynchronizingAjaxController());//很重要,设置支持AJAX
webClient.getOptions().setTimeout(30000);
}
//获取某个url的web客户端
public String htmlUnitUrl(String url, WebClient webClient) {
try {
WebRequest request = new WebRequest(new URL(url), HttpMethod.GET);
Map additionalHeaders = new HashMap();
additionalHeaders
.put("User-Agent",
"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36");
additionalHeaders.put("Accept-Language", "zh-CN,zh;q=0.8");
additionalHeaders.put("Accept", "*/*");
request.setAdditionalHeaders(additionalHeaders);
// 获取某网站页面
Page page = webClient.getPage(request);
return page.getWebResponse().getContentAsString();
} catch (Exception e) {
}
return null;
}
//爬取某网页
public void work(String url) {
try {
HtmlPage page = webClient.getPage(url);//打开网页
int pageCount = 177;
for(int i=1;i<=pageCount;i++) {
//当访问速度过快时,后台浏览器会禁止,在这里可加入适当延迟的代码
/**
*延迟执行的代码
*/
String content = htmlUnitUrl("http://q.10jqka.com.cn/index/index/board/all/field/zdf/order/desc/page/"+i+"/ajax/1/",webClient);
if(content.contains("Nginx forbidden."))
return;
else {
writeFile("F://测试//"+i+".html",content);
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
public static void main(String[] args){
HtmlUtil demo=new HtmlUtil();
String url = "http://q.10jqka.com.cn/";
demo.work(url);
}
/**
* 保存抓取的html到本地
* @param path
* @param content
*/
public static boolean writeFile(String path,String content) {
File file = new File(path);
boolean isSuccess = true;
System.out.println(path);
// if file doesnt exists, then create it
if (!file.exists()) {
try {
isSuccess = file.createNewFile();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
isSuccess = false;
}
}else {
file.delete();
}
FileWriter fw;
try {
fw = new FileWriter(file.getAbsoluteFile());
BufferedWriter bw = new BufferedWriter(fw);
bw.write(content);
bw.close();
System.out.println("写入成功.");
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
System.out.println("写入失败.");
isSuccess = false;
}
return isSuccess;
}
}
总结
因为心存兴趣,便做了相关的实验,为了方便,其中的部分代码还借鉴了网上的源码。由于时间关系,以上代码只是把数据所在的网页抓取到本地,没有进行解析。
大家晚安~
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/74954.html
摘要:将另存为格式时,文件将工作表中的单元格所显示的文本和数值以逗号分离进行保存。方法此处使用模块的函数读取文件,函数以字典形式返回,字典的键则是这个单元格的标题即列头,每一个单元格内容放在字典的值内。 前言 数据是进行量化交易的基础和关键,目前国内做量化产品的金融机构大部分是从券商获取高频实时行情数据的,另外很多金融网站也提供了数据接口,可以调用接口方式获取,也可以用爬虫的方式获取。文本讲...
摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...
摘要:月日,各项竞赛的排名将决定最终的成绩排名。选手通过训练模型,对虚拟股票走势进行预测。冠军将获得万元人民币的奖励。 showImg(https://segmentfault.com/img/bVUzA7?w=477&h=317); 2017年9月4日,AI challenger全球AI挑战赛正式开赛,来自世界各地的AI高手,将展开为期三个多月的比拼,获胜团队将分享总额超过200万人民币的...
摘要:截至年月日零时,杭州市常住人口为万人。年,杭州市实现地区生产总值亿元。阿里巴巴对杭州的影响巨大,一线的七个企业中,有四个企业都是阿里巴巴大集团下的。 欢迎持续关注我...
阅读 2831·2023-04-25 14:41
阅读 2440·2021-11-23 09:51
阅读 3738·2021-11-17 17:08
阅读 1725·2021-10-18 13:31
阅读 5627·2021-09-22 15:27
阅读 954·2019-08-30 15:54
阅读 2265·2019-08-30 13:16
阅读 773·2019-08-29 17:04