资讯专栏INFORMATION COLUMN

php源码分析trim函数的实现

tolerious / 1368人阅读

摘要:通过对底层源代码的分析来说一下为什么会出现这种情况。从代码可以看到,函数接受了个字符串类型的参数,一个就是需要处理的字符串,第二个参数是用来表示需要去除的字符。实现返回的操作。

在实际开发中遇到关于 trim 函数的2个问题:
    1:使用trim函数不能去除2个以上的连续点号(.)
    2 : 使用trim函数去除字符串的问题
先说一下第一个问题。
下面的一段代码:
    php -r "echo trim("abcdcba...","...");"
我的本意是要将字符串abcdcba...最后三个点去掉,结果是报错。

PHP Warning:  trim(): Invalid ".."-range, no character to the left of ".." in Command line code on line 1
Warning: trim(): Invalid ".."-range, no character to the left of ".." in Command line code on line 1
PHP Warning:  trim(): Invalid ".."-range, no character to the right of ".." inCommand line code on line 1
Warning: trim(): Invalid ".."-range, no character to the right of ".." in Command line code on line 1

这个问题其实很好解释,因为 trim 函数本书可以范围操作,例如 如果trim函数的第二个参数 a..d,它就会把a b c d 都去掉。因为省略号的原因,所以trim函数的第二个参数不能用..开头或者结尾。

第二个问题:
再看一个例子:
php -r "echo trim("abcdcba","abc")." ";"
我的本意是将字符串abcdcba最前面的abc去掉保留dcba,但结果却是这样的:
d
也就是说他会把a b c分别去掉。这应该算是个坑吧。

通过对底层源代码的分析来说一下为什么会出现这2种情况。
trim函数的源代码师在php代码根目录开始的 ext/standard/string.c
函数的定义如下:


PHP_FUNCTION(trim)
{
    php_do_trim(INTERNAL_FUNCTION_PARAM_PASSTHRU, 3);
}

可以看到,定义调用了另外的函数,函数体如下:

static void php_do_trim(INTERNAL_FUNCTION_PARAMETERS, int mode)
{
    char *str;
    char *what = NULL;
    int str_len, what_len = 0;
    if (zend_parse_parameters(ZEND_NUM_ARGS() TSRM\_CC, "s|s", &str, &str_len, &what, &what_len) == FAILURE) {
        return;
    } 
    php_trim(str, str_len, what, what_len, return_value, mode TSRMLS_CC);
}

zend_parse_parameters函数的作用就是接受参数,有兴趣的同学可以查阅相关资料。从代码可以看到,函数接受了2个字符串类型的参数,一个str,就是需要处理的字符串,第二个参数是what,用来表示需要去除的字符。
这个函数在最后用调用了另外一个函数,函数php_trim,函数体如下:

PHPAPI char *php_trim(char *c, int len, char *what, int what_len, zval *return_value, int mode TSRMLS_DC)
{
    register int i;
    int trimmed = 0;
    char mask[256];
    
        if(what) {
            php_charmask((unsigned char*)what, what_len, mask TSRMLS_CC);
        } else {
            php_charmask((unsigned char*)" 

	v", 6, mask TSRMLS_CC);
        }

        if (mode & 1) {
            for (i = 0; i = 0; i--) {
                if (mask[(unsigned char)c[i]]) {
                    len--;
                } else {
                    break;
                }
            }
        }

        if (return_value) {
            RETVAL_STRINGL(c, len, 1);
        } else {
            return estrndup(c, len);
        }
        return "";
}

这个函数就是php真正处理去除操作的结构。
刚开始就是定义了简单的变量,再下面对变量what有一个判断,来判断是否传递了要去除的字符。可以看到,根据是不是传递了what,函数传递给php_charmask函数的参数不一样,从这儿可以看出,如果trim没有传要去除的字符,默认情况是去除" v"六个字符的,下面来看看php_charmask函数进行了哪些操作。

static inline int php\_charmask(unsigned char *input, int len, char *mask TSRMLS_DC)
{
    unsigned char *end;
    unsigned char c;
    int result = SUCCESS;
    memset(mask, 0, 256);
    for (end = input+len; input = c) { 
            memset(mask+c, 1, input[3] - c + 1);
            input+=3;
        } else if ((input+1 = input) { /* there was no "left" char */
                php_error_docref(NULL TSRMLS_CC, E_WARNING, "Invalid ".."-range, no character to the left of ".."");
                result = FAILURE;
                continue;
            }
            if (input+2 >= end) { /* there is no "right" char */
                php_error_docref(NULL TSRMLS_CC, E_WARNING, "Invalid ".."-range, no character to the right of ".."");
                result = FAILURE;
                continue;
            }
            if (input[-1] > input[2]) { /* wrong order */
                php_error_docref(NULL TSRMLS_CC, E_WARNING, "Invalid ".."-range, ".."-range needs to be incrementing");
                result = FAILURE;
                continue;
            }
            /* FIXME: better error (a..b..c is the only left possibility?) */
            php_error_docref(NULL TSRMLS_CC, E_WARNING, "Invalid ".."-range");
            result = FAILURE;
            continue;
        } else {
            mask[c]=1;
        }
    }    
    return result;
}

这个函数的作用主要是,创建要去除的字符的哈希对应关系,刚开始考虑了特殊情况像a..d这样的情况(从这儿也能看出来为什么trim函数不能处理...的情况)。后面就是建立hash结构的过程。最后的结果是一个数组,以要去除的字符是 abc 为例:

    mask["a"] = 1;
    mask["b"] = 1;
    mask["c"] = 1;

这样的hash结构,最后返回的就是这个 mask(实际没有返回,使用引用变量传值的方式做到数据的返回)
前面的都是准备工作,后面的就是真正处理去除操作了。
通过源代码可以看到,下面的操作先对mode这个变量做了判断,那么mode这个变量是干嘛的?答案就是用来处理 ltrim rtirm trim3个函数的。
下面师一段C语言代码:


#include 
int main(){
     printf("%d
",1&1);
     printf("%d
",2&2);
     printf("%d
",3&1);
     printf("%d
",3&2);
     return 0;
}

这段代码的输出结果如下:

1
2
1
2

通过这个大家可以看出来,trim的底层是怎么处理的。先对mode 分别取模,再做相应的操作。
实际的去除操作就很简单了。
定义一个len来存储字符串的长度,c 是一个字符指针,刚开始从左边开始去除,判断c中的字符是否在hashmask中存在,如果存在,就将c 的指针向后移动一位,将len减去一位,如果发现*c的字符不存在于hashmask中,停止操作(可能和实际代码逻辑不不一致,但思想师一样的)。相关代码如下:


for (i = 0; i 

左边操作完成以后,右边的操作比较简单,从*c最右边开始匹配,如果匹配到,就将len的长度减1,如果没有旧停止操作。相关的代码如下:

for (i = len - 1; i >= 0; i--) {
    if (mask[(unsigned char)c[i]]) {
        len--;
    } else {
        break;
    }
}

最后就是一个简单返回操,把c指针现在指向的位置以后的len个字符返回。实现返回的操作。整个过程完成。
相关代码如下:

if (return_value) {
   RETVAL_STRINGL(c, len, 1);
} else {
   return estrndup(c, len);
}

最后感叹一下:所有的事情最重要的还是你自己.

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/20821.html

相关文章

  • [PHP源码阅读]trim、rtrim、ltrim函数

    摘要:系列函数是用于去除字符串中首尾的空格或其他字符。此处要注意,左右两边是一对合法的范围值,如果传递的是非法的值会报错。本文主要对函数进行分析,和函数跟的类似。更多源码文章源码阅读函数性能为王从源码剖析和源码阅读和函数源码阅读和函数 trim系列函数是用于去除字符串中首尾的空格或其他字符。ltrim函数只去除掉字符串首部的字符,rtrim函数只去除字符串尾部的字符。 我在github有对P...

    时飞 评论0 收藏0
  • PHP 源码探秘 - 为什么 trim 会导致乱码

    摘要:我的博客运行以下代码互联网产品我们可能以为会得到的结果是互联网产品,实际结果是互联网产。所以在执行的时候,通过字节比对,会将去掉,导致了最后出现了乱码。 我的博客 https://mengkang.net/1039.html 运行以下代码: $tag = 互联网产品、; $text = rtrim($tag, 、); print_r($text); 我们可能以为会得到的结果是互联网产品...

    xbynet 评论0 收藏0
  • CI框架源码解读--ROUTE和URL类

    摘要:支持基于段方法和查询字符串方法两种形式的。里的方法就是利用类来实现解析出类名方法名。在类的构造函数里有一步方法代码如下如果你的原始是的话,经过这个方法处理,你会得到参考文章 路由的目的是为了从URL中解析出class类名是什么,method方法名是什么,所传的参数有哪些,参数值又是什么,类文件存在的路径是哪。最终实现方法的调度。 CI支持基于段方法和查询字符串方法两种形式的URL。 基...

    trilever 评论0 收藏0
  • PHPCMSv9.6.1任意文件读取漏洞挖掘和分析过程

    摘要:中是对称加密且在不知道的情况下理论上不可能构造出有效密文。而且这句话是新增的,更加确定了,这个漏洞是特有的。通过对进行控制,间接控制等变量完成漏洞的利用。马上对进行全文搜索,并且查找符合下列条件的上下文。的触发条件尽可能的限制小。 看到网上说出了这么一个漏洞,所以抽空分析了下,得出本篇分析。 1.准备工作&漏洞关键点快速扫描 1.1前置知识 这里把本次分析中需要掌握的知识梳理了下: ...

    golden_hamster 评论0 收藏0
  • zepto源码分析-代码结构

    摘要:本来想学习一下的源码,但由于的源码有多行,设计相当复杂,所以决定从开始,分析一个成熟的框架的代码结构及执行步骤。同时发表在我的博客源码分析代码结构 本来想学习一下jQuery的源码,但由于jQuery的源码有10000多行,设计相当复杂,所以决定从zepto开始,分析一个成熟的框架的代码结构及执行步骤。 网上也有很多zepto的源码分析,有的给源码添加注释,有的谈与jQuery的不同,...

    sherlock221 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<