扒取方法
public function index() { $url = "http://www.dytt8.net/"; // $url = "Public/txt/movies.txt"; $content = file_get_contents($url); $content = iconv("gb2312", "utf-8//IGNORE",$content); $reg = "|(.*?)|is";//正则匹配div $res = preg_match_all($reg, $content, $match); $count = count($match[1]); //有数据 if($count) { $arr = array(); $array = array(); for($i=0;$i<$count;$i++) { $a = "|]*>(.*?)|is"; //匹配value $patten="//";//匹配href值 preg_match_all($a, $match[1][$i], $mat); preg_match_all($patten, $match[1][$i], $href); foreach($mat[1] as $key=>$val){ $array = array( "href"=>"http://www.dytt8.net/".$href[1][$key], "name"=>$val, "ctime"=>time(), ); array_push($arr,$array); } } $res = $this->Movies->addAll($arr); if($res) { echo "抓取成功!"; } else { echo "抓取失败!"; } } }
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/30435.html
摘要:按照同样的方式扒取所有的自己的用户。但是为了尊重人家隐私权,好吧,就这样吧,我也不能做啥。 这几天我很焦虑,受不了那些先follow我,等我follow回去后又unfollow的人,因为是他们先follow我的,我出于人道主义想着互粉一下的,结果这么对我,太不厚道了。github又不像微博那样有互粉标志,这真的整得我很心烦,于是想着写一个爬虫,把这些坏人揪出来~第一步,当然是放出代码啦...
摘要:对于数据科学而言只是一个工具。扒取网站前端的源码应该是一个学习开发人员必备的技能,具备了此能力你可以快速搭建起一个网站。接下来我会把崔大佬的个人博客网站使用实现。 1、准备 工具:仿站小工具+V9.0 工具获取方式一: 关注微信公众号 微信公众号『stormsha』,后台回复『仿站工具』获取工具 工具获取方式二: 仿站小工具官网 https://smalltool.github.io/...
摘要:对于数据科学而言只是一个工具。扒取网站前端的源码应该是一个学习开发人员必备的技能,具备了此能力你可以快速搭建起一个网站。接下来我会把崔大佬的个人博客网站使用实现。 1、准备 工具:仿站小工具+V9.0 工具获取方式一: 关注微信公众号 微信公众号『stormsha』,后台回复『仿站工具』获取工具 工具获取方式二: 仿站小工具官网 https://smalltool.github.io/...
阅读 1471·2021-08-09 13:47
阅读 2751·2019-08-30 15:55
阅读 3472·2019-08-29 15:42
阅读 1079·2019-08-29 13:45
阅读 2978·2019-08-29 12:33
阅读 1726·2019-08-26 11:58
阅读 959·2019-08-26 10:19
阅读 2393·2019-08-23 18:00