摘要:星座屋运势界面最终爬取数据结果展示在上的效果下面就是使用正则实现的代码,是自己一年多前花了半天时间写的。
星座屋(http://www.xzw.com/fortune/)运势界面:
最终爬取数据结果展示在APP上的效果:
下面就是使用正则实现的代码,是自己一年多前花了半天时间写的。现在想来,如果使用Scrapy或者phpspider只用几行代码就搞定了,不用这么费力气了~
array("aries", "03/21-04/19"), "金牛座" => array("taurus", "04/20-05/20"), "双子座" => array("gemini", "05/21-06/21"), "巨蟹座" => array("cancer", "06/22-07/22"), "狮子座" => array("leo", "07/23-08/22"), "处女座" => array("virgo", "08/23-09/22"), "天秤座" => array("libra", "09/23-10/23"), "天蝎座" => array("scorpio", "10/24-11/22"), "射手座" => array("sagittarius", "11/23-12/21"), "魔羯座" => array("capricorn", "12/22-01/19"), "水瓶座" => array("aquarius", "01/20-02/18"), "双鱼座" => array("pisces", "02/19-03/20") );*/ $constellation = isset($_REQUEST["xingzuo"]) && !empty($_REQUEST["xingzuo"]) ? trim($_REQUEST["xingzuo"]) : null; $category = isset($_REQUEST["category"]) && !empty($_REQUEST["category"]) ? intval($_REQUEST["category"]) : null; $all_xingzuo = array( "aries", "taurus", "gemini", "cancer", "leo", "virgo", "libra", "scorpio", "sagittarius", "capricorn", "aquarius", "pisces" ); $all_category = array(0,1,2,3,4,5); if(!in_array($constellation, $all_xingzuo) || !in_array($category, $all_category)){ exit("Params error"); } $domain = "http://www.xzw.com/fortune/"; $apiUrl = ""; if($category){ $apiUrl = $domain.$constellation."/".$category.".html"; } else { $apiUrl = $domain.$constellation."/"; } header("Content-type: text/html; charset=utf-8"); function getFortuneData($url){ $fortune_data = array(); $data = file_get_contents($url); $data = mb_convert_encoding($data, "utf-8", "gbk"); preg_match("/(.*)/ism", $data, $div_c_main); preg_match("/
", "{p}", $p_cont); $p_cont = preg_replace(""<[/!]*?[^<>]*?>"si","",$p_cont); $p_cont = preg_replace("/s+/","",$p_cont); //$p_cont = preg_replace(""([rn])[s]+"","",$p_cont); $p_cont = str_replace("
End
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/28387.html
摘要:星座屋运势界面最终爬取数据结果展示在上的效果下面就是使用正则实现的代码,是自己一年多前花了半天时间写的。 星座屋(http://www.xzw.com/fortune/)运势界面:showImg(https://segmentfault.com/img/bV5Qou?w=693&h=518); 最终爬取数据结果展示在APP上的效果:showImg(https://segmentfaul...
摘要:为了方便广大的开发者,特此统计了网上诸多的免费,为您收集免费的接口服务,做一个的搬运工,以后会每月定时更新新的接口。将长段中文切词分开。 为了方便广大的开发者,特此统计了网上诸多的免费API,为您收集免费的接口服务,做一个api的搬运工,以后会每月定时更新新的接口。有些接口来自第三方,在第三方注册就可以成为他们的会员,免费使用他们的部分接口。 百度AccessToken:针对HTTP ...
摘要:正则表达式是从字符串最头部开始匹配,一直到结束,需要匹配整个串匹配的时候返回包含正则匹配的串为找到所有匹配的串代表整个表达式星座运势匹配创建对象现在创建对象星座运势星座运势参考资料 Java 正则表达式 java.util.regex.Pattern java.util.regex.Matcher Match match 是从字符串最头部开始匹配,一直到结束,需要匹配整个串 Strin...
摘要:写在最后近年来,随着人们思想观念的改变,相亲也逐渐得到年轻人的接受与认可,特别是对于那些圈子比较窄,接触不到异性的人而言。 前不久,小编刷到这样一条短视频,1.7亿...
摘要:是一个开源的简单的爬虫框架主要是通过将获取的网页信息封装成来进行爬取信息。作者也是一个新手。这篇文章只是提供一个入门的思路。开启多少个线程抓取隔多长时间抓取次部分。是用来抓取元素的连接是指获取得到的内容。并且这个类需要实现。 Gecco是一个开源的简单的java爬虫框架主要是通过将获取的网页信息封装成HtmlBean来进行爬取信息。作者也是一个新手。这篇文章只是提供一个入门的思路。如果...
阅读 2323·2021-10-08 10:04
阅读 1097·2021-09-03 10:40
阅读 1150·2019-08-30 15:53
阅读 3309·2019-08-30 13:13
阅读 2925·2019-08-30 12:55
阅读 2277·2019-08-29 13:21
阅读 1328·2019-08-26 12:12
阅读 2755·2019-08-26 10:37