资讯专栏INFORMATION COLUMN

Java抓取淘宝/天猫商品详情

zlyBear / 3309人阅读

摘要:有项目需求抓取淘宝天猫的商品详情。如果为,则无限期等待设置控制器淘宝详情抓取分析淘宝的页面,商品详情是异步从加载的,我们只要找到这个的,直接请求获取即可。

有项目需求抓取淘宝天猫的商品详情。琢磨一段时间搞出来了。放出来让大家参考下。

Maven依赖:
HtmlUnit

        
            org.apache.httpcomponents
            httpclient
            4.5.2
        
        
        
            net.sourceforge.htmlunit
            htmlunit
            2.23
            
                
                    httpclient
                    org.apache.httpcomponents
                
            
        

准备工作:

    public static BrowserVersion getBrowserVersion() {
        BrowserVersion bv = BrowserVersion.BEST_SUPPORTED.clone();
        // 设置语言,否则不知道传过来是什么编码
        bv.setUserLanguage("zh_cn");
        bv.setSystemLanguage("zh_cn");
        bv.setBrowserLanguage("zh_cn");

        // 源码里是写死Win32的,不知道到生产环境(linux)会不会变,稳妥起见还是硬设
        bv.setPlatform("Win32");
        
        return bv;
    }
    
    public static WebClient newWebClient() {
        WebClient wc = new WebClient(bv);
        wc.getOptions().setUseInsecureSSL(true); // 允许使用不安全的SSL连接。如果不打开,站点证书过期的https将无法访问
        wc.getOptions().setJavaScriptEnabled(true); //启用JS解释器
        wc.getOptions().setCssEnabled(false); //禁用css支持
        // 禁用一些异常抛出
        wc.getOptions().setThrowExceptionOnScriptError(false);
        wc.getOptions().setThrowExceptionOnFailingStatusCode(false);

        wc.getOptions().setDoNotTrackEnabled(false); // 随请求发送DoNotTrack
        wc.setJavaScriptTimeout(1000);      // 设置JS超时,这里是1s
        wc.getOptions().setTimeout(5000); //设置连接超时时间 ,这里是5s。如果为0,则无限期等待
        wc.setAjaxController(new NicelyResynchronizingAjaxController()); // 设置ajax控制器
        
        return wc;
    }

淘宝详情抓取:
分析淘宝的页面,商品详情是异步从cdn加载的,我们只要找到这个cdn的url,直接请求获取response即可。

    public String getTaobaoDetail(String url) {
        WebClient wc = newWebClient();
        
        String detail = "";

        try {
            WebRequest request = new WebRequest(UrlUtils.toUrlUnsafe(url));
            request.setAdditionalHeaders(searchRequestHeader);

            Page page = wc.getPage(request);

            if(page.isHtmlPage()) {
                HtmlPage htmlPage = (HtmlPage) page;

                String html = htmlPage.asXml();
                               DomNodeList script = htmlPage.getHead().getElementsByTagName("script");
                String detailUrl = "";
                for(HtmlElement elm : script) {
                    String textContent = elm.getTextContent();
                    if(textContent.contains("var g_config = {")) {
                        for(String line : textContent.split("
")) {
                            if(line.startsWith("        descUrl")) {
                                detailUrl = "http:" + RegexUtil.getFirstMatch(line,
                                        ""//dsc.taobaocdn.com/i[0-9]+/[0-9]+/[0-9]+/[0-9]+/.+[0-9]+"s+:"
                                ).replaceAll("s+:","").replace(""","");
                                break;
                            }

                        }
                        break;
                    }
                }
                if(StringUtils.isNotBlank(detailUrl))
                detail = wc.getPage(detailUrl).getWebResponse().getContentAsString().replace("var desc="","").replace("";","");
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            wc.close();
        }
        return detail;
    }
        
    public static String getFirstMatch(String str,String regex) {
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(str);
        String ret = null;
        if(matcher.find()) {
            ret = matcher.group();
        }
        return ret;
    }

天猫详情抓取:
淘宝天猫是截然两种风格,没找到像淘宝详情页一样的cdn地址,只能从页面上去抓取了。
使用js模拟滚动,然后等待js执行完毕。至于多久真的看RP。。。

    public String getTmallDetail(String url) {
        WebClient wc = newWebClient();

        String detail = "";

        try {
            WebRequest request = new WebRequest(UrlUtils.toUrlUnsafe(url));

            request.setAdditionalHeaders(searchRequestHeader);

            wc.getCurrentWindow().getTopWindow().setOuterHeight(Integer.MAX_VALUE);
            wc.getCurrentWindow().getTopWindow().setInnerHeight(Integer.MAX_VALUE);

            Page page = wc.getPage(request);
            page.getEnclosingWindow().setOuterHeight(Integer.MAX_VALUE);
            page.getEnclosingWindow().setInnerHeight(Integer.MAX_VALUE);

            if(page.isHtmlPage()) {
                HtmlPage htmlPage = (HtmlPage) page;
                ScriptResult sr = htmlPage.executeJavaScript(String.format("javascript:window.scrollBy(0,%d);",Integer.MAX_VALUE));
                // 执行页面所有渲染相关的JS
                int left = 0;
                do {
                    left = wc.waitForBackgroundJavaScript(10);
//                    System.out.println(left);
                } while (left > 7); // 有6-7个时间超长的js任务

                htmlPage = (HtmlPage)sr.getNewPage();
                detail = htmlPage.getElementById("description").asXml()
                        .replaceAll("src="//.{0,100}.png" data-ks-lazyload=", "src=");  // 移除懒加载
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            wc.close();
        }
        return detail;
    }

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/66625.html

相关文章

  • Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇)

    摘要:这就是我们第一个核心函数代码,后面还有很多个喔明天待续中级玩家淘宝天猫商品搜索爬虫自动化工具第二篇等不及,请武装 查看·Github 使用Golang重构PC版本搜索框:https://github.com/hunterhug/... 一、前言 大家好,今天我要来讲讲一个比较实用的爬虫工具,抓取淘宝的关键字商品信息,即是: showImg(https://segmentfault.co...

    oliverhuang 评论0 收藏0
  • Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容

    摘要:,引言最近一直在看爬虫框架,并尝试使用框架写一个可以实现网页信息采集的简单的小程序。本文主要介绍如何使用结合采集天猫商品内容,文中自定义了一个,用来采集需要加载的动态网页内容。 showImg(https://segmentfault.com/img/bVyMnP); 1,引言 最近一直在看Scrapy 爬虫框架,并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试...

    z2xy 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<