摘要:自带的只能用单个符号给文本分段,如果想用多个符号分段呢比如想用句号,逗号,分号,感叹号问好等等标点,怎么办这时候用解释代表是,由于这些符号本身在中有特殊意味,所以要在前面加个,用来代表逗号,问号,感叹号。的效果是后仍然包括这些标点本身。
python自带的 i.e. text.split(".") 只能用单个符号给文本分段,如果想用多个符号分段呢? 比如想用句号,逗号,分号,感叹号问好等等标点,怎么办?
这时候用 re.split()
import re a="Beautiful uef filenrfwe, is not really right; better*than ugly" print(re.split("(; |, |*| )",a)) text = "If you have a; suspicion about, an activity. but are !unsure if it ?warrants, escalation" pattern = "(;|.|,|?|!)" new = re.split(pattern, text)
解释:
pattern = "(;|.|,|?|!)"
| 代表 or
是escape character, 由于 , ? ! 这些符号本身在regex中有特殊意味,所以要在前面加个escape,用,, ?, !来代表 逗号,问号,感叹号。
() 的效果是 split后仍然包括这些标点本身。 比较:
new = re.split("(;|.|,|?|!)", text)
输出是:
["If you have a", ";", " suspicion about", ",", " an activity", ".", " but are ", "!", "unsure if it ", "?", "warrants", ",", " escalation"]
然而:
new = re.split(";|.|,|?|!", text)
输出是:
["If you have a", " suspicion about", " an activity", " but are ", "unsure if it ", "warrants", " escalation"]
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/43941.html
摘要:读到一个非数字非英文字母非下划线字符。此时立即跳转回状态。以一个双引号开始,并以一个双引号结束。另外,在读和时源代码不许结束,即读到符号,若结束,则判定为词法错误。对于而言,也有一些其他的词法错误判定,如,不能换行。 对于非 Normal 状态,我只需要关心两个过程: 何时从 Normal 跳转到该状态; 何时从该状态跳回 Normal 状态。 在上一章中,我已经写好了从 Nor...
摘要:比如正则表示匹配这样一个字符串第一个字符是,接下来是到个字符,最后是字符。其实现的方式是使用字符组。具体形式如下,其中和是子模式,用管道符分隔,表示其中任何之一。 贪婪模式: 在使用修饰匹配次数的特殊符号时,有几种表示方法可以使同一个表达式能够匹配不同的次数,比如:{m,n}, {m,}, ?, *, +,具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中,总...
摘要:能匹配中的,但不能匹配中的数量界定符符号定义是一个非负整数。则等价于和均为非负整数,其中。该方法接受一个正则表达式作为它的第一个参数。是一个非强制异常类,它表示一个正则表达式模式中的语法错误。 正则表达式及多语言操作指南 1. 正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一...
摘要:能匹配中的,但不能匹配中的数量界定符符号定义是一个非负整数。则等价于和均为非负整数,其中。该方法接受一个正则表达式作为它的第一个参数。是一个非强制异常类,它表示一个正则表达式模式中的语法错误。 正则表达式及多语言操作指南 1. 正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一...
阅读 2850·2021-09-22 15:43
阅读 4685·2021-09-06 15:02
阅读 843·2019-08-29 13:55
阅读 1678·2019-08-29 12:58
阅读 3059·2019-08-29 12:38
阅读 1205·2019-08-26 12:20
阅读 2262·2019-08-26 12:12
阅读 3309·2019-08-23 18:35