【正则表达式】之Possessive Quantifiers

Zoom 发布于2019-08-15 11:08 / 1324人阅读

摘要：本篇主要解疑正则表达式的占有型量词。贪婪型结果在不做任何额外处理情况下，正则表达式默认是贪婪型的。结果皆为注意括号。说点什么占有量词是一种用来组织正则表达式尝试所有排列组合的方式。

针对“*”、“+”、“?”等限定符都是贪婪的（尽可能多的匹配字符），通过在最后追加“+”或“?”量词可改变贪婪性。本篇主要解疑正则表达式的“占有型量词”（Possessive Quantifiers）。

Greediness（贪婪型）

Pattern p = Pattern.compile("[.+][.+]");
Matcher m = p.matcher("[che][1]"s blog is [rebey.cn][2],and built in [2016][3].");
while(m.find()) {
    System.out.println(m.group());
}

// 结果：[che][1]"s blog is [rebey.cn][2],and built in [2016][3]

在不做任何额外处理情况下，正则表达式默认是贪婪型的。贪婪型一次读取所有字符进行匹配。
以下是匹配过程猜想：
“[.+”先遍历到字符“.”时发现不匹配了，开始往左回溯，得到“[che...]”;
继续往左回溯，像这样“che...”，因此就有了以上的输出结果。

Reluctant/Laziness（勉强型）

Pattern p1 = Pattern.compile("[.+?][.+?]");
Matcher m1 = p1.matcher("[che][1]"s blog is [rebey.cn][2],and built in [2016][3].");
while(m1.find()) {
    System.out.println(m1.group());
}

// 结果：
//    [che][1]
//    [rebey.cn][2]
//    [2016][3]

在原有的“.+”之后加个“？”，就成为了勉强型。它将从左至右依次读取进行匹配，直到字符串结束。

Possessive（占有型）

Pattern p2 = Pattern.compile("[.++][.++]");
Matcher m2 = p2.matcher("[che][1]"s blog is [rebey.cn][2],and built in [2016][3].");
while(m2.find()) {
    System.out.println(m2.group());
}

// 结果：匹配不到

在原有的“.+”之后加个“+”，就成为了占有型。它也是一次读取所有字符串进行匹配，区别在于它不回溯。
以下是匹配过程猜想：
“[.+”匹配“[che...”直到最后字符“.”不匹配，立即结束。

x+ ≈ (?>x)

Pattern p3 = Pattern.compile("[.++");
Matcher m3 = p3.matcher("[che][1]"s blog is [rebey.cn][2],and built in [2016][3].");
while(m3.find()) {
    System.out.println(m3.group());
}

Pattern p4 = Pattern.compile("(?>([.+))");
Matcher m4 = p4.matcher("[che][1]"s blog is [rebey.cn][2],and built in [2016][3].");
while(m4.find()) {
    System.out.println(m4.group());
}

结果皆为：[che][1]"s blog is [rebey.cn][2],and built in [2016][3].

注意括号。

说点什么

Possessive quantifiers are a way to prevent the regex engine from trying all permutations.

占有量词是一种用来组织正则表达式尝试所有排列组合的方式。（即不回溯）

With a possessive quantifier, the deal is all or nothing.

使用占有量词只有两种结果，全匹配或者空匹配。

The main practical benefit of possessive quantifiers is to speed up your regular expression.

占有量词的主要实际意义是加速你的正则表达式。

更多有意思的内容，欢迎访问笔者小站： rebey.cn

参考文献

Regex Tutorial - Possessive Quantifiers

云服务器 GPU云服务器正则正则表达式正则匹配正则表达式 -正则表达式正则表达式?

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/67563.html

还不会正则表达式？看这篇！

摘要：匹配次匹配次匹配次匹配次匹配次，等价于匹配次，等价于元字符在正则表达式中有一些具有特殊含义的字母，被称为元字符，简言之，元字符就是描述字符的字符，它用于对字符表达式的内容转换及各种操作信息进行描述。 showImg(https://segmentfault.com/img/remote/1460000018489886?w=2000&h=1125); 正则表达式是很多程序员，甚至是一些...

go4it 2019-08-26 13:37 评论0 收藏0
用一杯咖啡的时间学会正则表达式

摘要：如字段，使用，会匹配出使用，会匹配出元字符在正则表达式中有一些具有特殊含义的字母，被称为元字符，简言之，元字符就是描述字符的字符，它用于对字符表达式的内容转换及各种操作信息进行描述。关于正则表达式的教程网上实在太多，但都不太友好，在此我整理一篇，面向自己行文。学正则需要记语法，最好的方式无非就是实操，边写边学，因此第一步，推荐一个在线工具：在线工具 regex101 正则的在线工...

entner 2019-08-23 18:18 评论0 收藏0
Java 正则表达式

摘要：正则表达式是一个强大的字符串处理工具，可以对字符串进行查找提取分隔替换等操作。例如，正则表达式用于匹配的三个访问控制符其中之一边界匹配符数量标识符贪婪模式数量表示符默认采用贪婪模式。方法以空格为分隔符，将字符串分割成多个子串哈哈正则表达式是一个强大的字符串处理工具，可以对字符串进行查找、提取、分隔、替换等操作。String类里提供了如下几个特殊方法 boolean matches(...

forrest23 2019-08-14 17:00 评论0 收藏0
[Regular Expression]Mastering Python Regular Expre

摘要：续上基础通俗三类常用的的简写形式偷懒需要用来对某一类特定字符进行匹配，通常，我们用的最多的字符就是下面的三类数字，字母和这类看不到占位符，上一部分学过通过方括号表示这三类的的方法由于上面的表达试比较长，所以需要有一种更简单的写法可以续上:[Regular Expression]Mastering Python Regular Expression基础通俗(1) 三类常用的meta...

daydream 2019-07-25 10:21 评论0 收藏0
JavaScript的正则表达式

摘要：正则表达式是由普通字符例如字符到以及特殊字符称为元字符组成的文字模式。方法参数一个正则表达式对象。如果正则表达式没有标志，则会返回和相同的结果。其被视为一整个字符串，而不是一个正则表达式。正则表达式正则表达式(Regular Expression)是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为元字符）。正则表达式使用单个字符串来描述、匹配一系列匹配某个...

jsdt 2019-08-21 17:11 评论0 收藏0