资讯专栏INFORMATION COLUMN

基于PHP/CURL/codeIgniter的Spider Webbot爬虫[6]-PHP关于正则表

yzd / 3342人阅读

摘要:模式,其实就是要查找的字段。不能是数字,字母。如果是数字和字母的话,要用来表示替换字段要替换上的,可以是任意操作目标,这里可以是一段,也可以使一个变量,或者一个。

preg_replace(pattern,replacement,subject)

pattern模式,其实就是要查找的字段。不能是数字,字母。如果是数字和字母的话,要用/string/来表示
replacement替换字段 要替换上的string,可以是任意
subject操作目标,这里可以是一段string,也可以使一个变量,或者一个http_get()。

preg_match(pattern,subject)这个只返回bool真假
preg_match_all(pattern,subject,result_array)这个在返回bool真假的同时,还会返回一个二维数组,里面有相似的字符,还有把这个string作为一个数组元素
preg_split(pattern,subject)
如果在subject中找到了pattern,就在该处进行切割,并且不保留pattern
//返回result_array[0]=前半段,result_array[1]=后半段

$subject_string="there are 129 stories about Tim and another 3129 about Tom";
/这是要匹配的内容/ 这是pattern
$subject_string //这是target字符串

preg_match_all("/d/",$subject_string,$matches_array);

$matches_array=Array([0]=>1 [1]=>2 [2]=>9)

跳脱符

匹配数字
d可以表示多带带一个数字,这样一个下标代表一个数字
ffffd 可以代表3个数字,并且一个下标代表三个数字
d+表示取一整块数字,直到最后一位不是数字

匹配字母
D匹配一个字母,
DDD匹配3个字母,但是,如果不加上进行边界定位,就会匹配所有含有三个字母的情况
比如Tom,Tom,There之中的the,也会被抓取

/DDD/这样可以正确匹配3个字母,等价于/D{3}/

万用字元

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/20805.html

相关文章

  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[0]-使用原生PHP

    摘要:学了天的,写了一个爬虫开源项目。现在把所有的笔记放到记录下来,算是一个纪念。定义抓取下载的档案对目标档案建立一个网络连接。 学了7天的PHP/CURL,写了一个爬虫开源项目。 现在把所有的笔记放到Segmentfault记录下来,算是一个纪念。 https://github.com/hosinoruri/Omoikane $target=http://www.WebbotsSp...

    masturbator 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[8]-预判网站支持压缩

    摘要:预判压缩,如果支持压缩则优先使用捕捉档案并且压缩范例得到捕捉到的档案,并且进行压缩,并且输出压缩前后的大小移除标签还可以添加移除所有空格输出一张显示用的表格 预判压缩,如果支持压缩则优先使用 $header[]=Accept-Encoding:compress,gzip; curl_setopt($curl_session,CURLOPT_HTTPHEADER,$header); ...

    Java3y 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[7]常用正则达式

    摘要:验证是否含有等字符只能输入汉字验证地址验证验证电话号码正确格式为,,,,,。验证身份证号位或位数字验证一年的个月正确格式为和验证一个月的天正确格式为和。 一、校验数字的表达式 1 数字:^[0-9]*$ 2 n位的数字:^d{n}$ 3 至少n位的数字:^d{n,}$ 4 m-n位的数字:^d{m,n}$ 5 零和非零开头的数字:^(0|1-9*)$ 6 非零开头的最多带两位小数的数字...

    wow_worktile 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[9]捕捉图像并且建立t

    1.配置好PHP的gd2模块 2.调用LIB_thumbnail.php模块 Full-size imageshowImg(test.jpg src=https://cdn.segmentfault.com/v-5cc2cd8e/global/img/squares.svg> Thumbnail imageshowImg(thumbnail.jpg src=https://cdn.segme...

    hss01248 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[5]-常用字符串处理函

    stristr(haystack,needle) 区分大小写 干草堆和缝衣针//判断haystack中是否存在needle。输出bool真假 strstr不区分大小写 strip_tags($string) 移除其中的HTML和PHP标记 str_replace( ,,$string)//移除定位符号 str_replace( ,,$string)//移除连续的空白 str_replace(...

    HackerShell 评论0 收藏0

发表评论

0条评论

yzd

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<