资讯专栏INFORMATION COLUMN

Python实用技法第31篇:文本过滤和清理

Bryan / 3180人阅读

摘要:上一篇文章实用技法第篇从字符串中去掉不需要的字符下一篇文章实用技法第篇对齐文本字符串问题某些无聊的脚本小子在页面表单中填入了这样的文本,我们想以某种方式将其清理掉。讨论文本过滤和清理的一个主要问题就是运行时的性能。

上一篇文章:Python实用技法第30篇:从字符串中去掉不需要的字符
下一篇文章:Python实用技法第32篇:对齐文本字符串
 问题

某些无聊的脚本小子在Web页面表单中填入了“pýtĥöñ”这样的文本,我们想以某种方式将其清理掉。

 解决方案

文本过滤和清理所涵盖的范围非常广泛,涉及文本解析和数据处理方面的问题。在非常简单的层次上,我们可能会用基本的字符串函数(例如str.upper()和str.lower())将文本转换为标准形式。简单的替换操作可通过str.replace()或re.sub()来完成,它们把重点放在移除或修改特定的字符序列上。也可以利用unicodedata.normalize()来规范化文本。

然而我们可能想更进一步。比方说也许想清除整个范围内的字符,或者去掉音符标志。要完成这些任务,可以使用常被忽视的str.translate()方法。为了说明其用法,假设有如下这段混乱的字符串:

>>> s = "pytĥonfis	awesome
"
>>> s
"pytĥonx0cis	awesome
"
>>>

第一步是清理空格。要做到这步,先建立一个小型的转换表,然后使用translate()方法:

>>> remap = {
...      ord("	") : " ",
...      ord("f") : " ",
...      ord("
") : None        # Deleted
... }
>>> a = s.translate(remap)
>>> a
"pytĥon is awesome
"

可以看到,类似t和f这样的空格符已经被重新映射成一个多带带的空格。回车符r已经完全被删除掉了。

可以利用这种重新映射的思想进一步构建出更加庞大的转换表。例如,我们把所有的Unicode组合字符都去掉:

>>> import unicodedata
>>> import sys
>>> cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c)))
...
>>> b = unicodedata.normalize("NFD", a)
>>> b
"pytĥon is awesome
"
>>> b.translate(cmb_chrs)
"python is awesome
"
>>>

在这个例子中,我们使用dict.fromkeys()方法构建了一个将每个Unicode组合字符都映射为None的字典。

原始输入会通过unicodedata.normalize()方法转换为分离形式,然后再通过translate()方法删除所有的重音符号。我们也可以利用相似的技术来去掉其他类型的字符(例如控制字符)。

下面来看另一个例子。这里有一张转换表将所有的Unicode十进制数字字符映射为它们对应的ASCII版本:

>>> digitmap = { c: ord("0") + unicodedata.digit(chr(c))
...               for c in range(sys.maxunicode)
...               if unicodedata.category(chr(c)) == "Nd" }
...
>>> len(digitmap)
460
>>> # Arabic digits
>>> x = "u0661u0662u0663"
>>> x.translate(digitmap)
"123"
>>>

另一种用来清理文本的技术涉及I/O解码和编码函数。大致思路是首先对文本做初步的清理,然后通过结合encode()和decode()操作来修改或清理文本。示例如下:

>>> a
"pytĥon is awesome
"
>>> b = unicodedata.normalize("NFD", a)
>>> b.encode("ascii", "ignore").decode("ascii")
"python is awesome
"
>>>

这里的normalize()方法先对原始文本做分解操作。后续的ASCII编码/解码只是简单地一次性丢弃所有不需要的字符。很显然,这种方法只有当我们的最终目标就是ASCII形式的文本时才有用。

 讨论

文本过滤和清理的一个主要问题就是运行时的性能。一般来说操作越简单,运行得就越快。对于简单的替换操作,用str.replace()通常是最快的方式——即使必须多次调用它也是如此。比方说如果要清理掉空格符,可以编写如下的代码:

def clean_spaces(s):
    s = s.replace("
", "")
    s = s.replace("	", " ")
    s = s.replace("f", " ")
return s

如果试着调用它,就会发现这比使用translate()或者正则表达式的方法要快得多。

另一方面,如果需要做任何高级的操作,比如字符到字符的重映射或删除,那么translate()方法还是非常快的。

从整体来看,我们应该在具体的应用中去进一步揣摩性能方面的问题。不幸的是,想在技术上给出一条“放之四海而皆准”的建议是不可能的,所以应该尝试多种不同的方法,然后做性能统计分析。

尽管本节的内容主要关注的是文本,但类似的技术也同样适用于字节对象(byte),这包括简单的替换、翻译和正则表达式。

上一篇文章:Python实用技法第30篇:从字符串中去掉不需要的字符
下一篇文章:Python实用技法第32篇:对齐文本字符串

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/44124.html

相关文章

  • Python实用技法32:对齐文本字符串

    摘要:解决方案对于基本的字符串对齐要求,可以使用字符串的和方法。例如的好处之一是它并不是特定于字符串的。此外,可作用于任意类型的对象,比字符串的以及方法要更加通用。上一篇文章实用技法第篇文本过滤和清理下一篇文章实用技法第篇字符串连接及合并 上一篇文章:Python实用技法第31篇:文本过滤和清理下一篇文章:Python实用技法第33篇:字符串连接及合并  问题 我们需要以某种对齐方式将文本...

    leon 评论0 收藏0
  • Python实用技法30:从字符串中去掉不需要的字符

    摘要:上一篇文章实用技法第篇用正则表达式处理字符下一篇文章实用技法第篇文本过滤和清理问题我们想在字符串的开始结尾或中间去掉不需要的字符,比如说空格符。解决方案方法可用来从字符串的开始和结尾处去掉字符。 上一篇文章: Python实用技法第29篇:用正则表达式处理Unicode字符下一篇文章:Python实用技法第31篇:文本过滤和清理  问题 我们想在字符串的开始、结尾或中间去掉不需要的字...

    yck 评论0 收藏0
  • Python实用技法24:正则:查找替换文本

    摘要:上一篇文章实用技法第篇正则文本模式的匹配和查找下一篇文章实用技法第篇正则以不区分大小写的方式对文本做查找和替换需求 上一篇文章:Python实用技法第23篇:正则:文本模式的匹配和查找下一篇文章:Python实用技法第25篇:正则:以不区分大小写的方式对文本做查找和替换 1、需求

    刘永祥 评论0 收藏0
  • Python实用技法23:正则:文本模式的匹配查找

    摘要:上一篇文章实用技法第篇利用通配符做字符串匹配下一篇文章实用技法第篇正则查找和替换文本需求 上一篇文章:Python实用技法第22篇:利用Shell通配符做字符串匹配下一篇文章:Python实用技法第24篇:正则:查找和替换文本 1、需求

    ralap 评论0 收藏0
  • Python实用技法25:正则:以不区分大小写的方式对文本做查找替换

    摘要:上一篇文章实用技法第篇正则查找和替换文本下一篇文章实用技法第篇定义实现最短匹配的正则表达式需求 上一篇文章:Python实用技法第24篇:正则:查找和替换文本下一篇文章:Python实用技法第26篇:定义实现最短匹配的正则表达式 1、需求

    darkbug 评论0 收藏0

发表评论

0条评论

Bryan

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<