资讯专栏INFORMATION COLUMN

php 扒取网页数据

Jonathan Shieber / 425人阅读

扒取方法

    public function index()
    {
        $url = "http://www.dytt8.net/";
       // $url = "Public/txt/movies.txt";
        $content = file_get_contents($url);
        $content = iconv("gb2312", "utf-8//IGNORE",$content);
        $reg = "|
(.*?)
|is";//正则匹配div $res = preg_match_all($reg, $content, $match); $count = count($match[1]); //有数据 if($count) { $arr = array(); $array = array(); for($i=0;$i<$count;$i++) { $a = "|]*>(.*?)|is"; //匹配value $patten="//";//匹配href值 preg_match_all($a, $match[1][$i], $mat); preg_match_all($patten, $match[1][$i], $href); foreach($mat[1] as $key=>$val){ $array = array( "href"=>"http://www.dytt8.net/".$href[1][$key], "name"=>$val, "ctime"=>time(), ); array_push($arr,$array); } } $res = $this->Movies->addAll($arr); if($res) { echo "抓取成功!"; } else { echo "抓取失败!"; } } }

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/30435.html

相关文章

  • python爬虫爬取github所有follwers初级版

    摘要:按照同样的方式扒取所有的自己的用户。但是为了尊重人家隐私权,好吧,就这样吧,我也不能做啥。 这几天我很焦虑,受不了那些先follow我,等我follow回去后又unfollow的人,因为是他们先follow我的,我出于人道主义想着互粉一下的,结果这么对我,太不厚道了。github又不像微博那样有互粉标志,这真的整得我很心烦,于是想着写一个爬虫,把这些坏人揪出来~第一步,当然是放出代码啦...

    stormgens 评论0 收藏0
  • 个人博客一|抓取崔庆才个人博客网站前端源码

    摘要:对于数据科学而言只是一个工具。扒取网站前端的源码应该是一个学习开发人员必备的技能,具备了此能力你可以快速搭建起一个网站。接下来我会把崔大佬的个人博客网站使用实现。 1、准备 工具:仿站小工具+V9.0 工具获取方式一: 关注微信公众号 微信公众号『stormsha』,后台回复『仿站工具』获取工具 工具获取方式二: 仿站小工具官网 https://smalltool.github.io/...

    googollee 评论0 收藏0
  • 个人博客一|抓取崔庆才个人博客网站前端源码

    摘要:对于数据科学而言只是一个工具。扒取网站前端的源码应该是一个学习开发人员必备的技能,具备了此能力你可以快速搭建起一个网站。接下来我会把崔大佬的个人博客网站使用实现。 1、准备 工具:仿站小工具+V9.0 工具获取方式一: 关注微信公众号 微信公众号『stormsha』,后台回复『仿站工具』获取工具 工具获取方式二: 仿站小工具官网 https://smalltool.github.io/...

    yintaolaowanzi 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<