怎么用python正则表达式提取/匹配中文汉字

89542767 发布于2022-11-11 14:38 / 1370人阅读

　　小编写这篇文章的一个主要目的，主要是给大家去做一个解答，解答的内容主要还是python相关事宜，比如，可以用python正则表达式去匹配和提取中文汉字，那么，具体的内容做法是什么呢？下面就给大家详细解答下。

　　python用正则表达式提取中文

　　Python re正则匹配中文，其实非常简单，把中文的unicode字符串转换成utf-8格式就可以了，然后可以在re中随意调用

　　unicode中中文的编码为/u4e00-/u9fa5，因此正则表达式u”[u4e00-u9fa5]+”可以表示一个或者多个中文字符

　　&gt;&gt;&gt;import re
　　&gt;&gt;&gt;s='中文：123456aa哈哈哈bbcc'.decode('utf8')
　　&gt;&gt;&gt;s
　　u'u4e2du6587uff1a123456aau54c8u54c8u54c8bbcc'
　　&gt;&gt;&gt;print s
　　中文：123456aa哈哈哈bbcc
　　&gt;&gt;&gt;re.match(u"[u4e00-u9fa5]+",s)
　　&lt;_sre.SRE_Match object at 0xb77742c0&gt;
　　&gt;&gt;&gt;pat='中文'.decode("utf8")
　　&gt;&gt;&gt;re.search(pat,s)
　　&lt;_sre.SRE_Match object at 0x16a16df0&gt;
　　&gt;&gt;&gt;newpat='这里是中文内容'.decode("utf8")
　　&gt;&gt;&gt;news=re.sub(pat,newpat,s)
　　&gt;&gt;&gt;print news

　　这里是中文内容：123456aa哈哈哈bbcc

　　python正则如何匹配中文汉字

　　正则表达式匹配中文汉字，在实际应用中十分常见。

　　比如：爬虫网页文本提取、验证用户输入标准等。

　　以下面文本字符串为例，匹配出astr这个字符串中的所有汉字。

　　import re
　　astr='''aaaaa何时when杖尔看see南雪snow，我me与梅花plum blossom两白头'''

　　下面介绍两种方法（本文环境为python3）

　　一、使用Unicode编码来匹配中文

　　常见的中文Unicode编码范围：u4e00-u9fa5

　　实现匹配代码：re.findall(’[u4e00-u9fa5]’,astr)

　　import re
　　astr='''aaaaa何时when杖尔看see南雪snow，我me与梅花plum blossom两白头'''
　　res=re.findall('[u4e00-u9fa5]',astr)

　　print(res)

　　匹配结果：

　　二、直接使用中文汉字实现中文匹配

　　没使用过可能还真不知道，中文匹配还可以这样

　　实现匹配代码：re.findall(’[一-龥]’,astr)

　　import re
　　astr='''aaaaa何时when杖尔看see南雪snow，我me与梅花plum blossom两白头'''
　　res=re.findall('[一-龥]',astr)
　　print(res)

　　匹配结果：

　　注：其实这里“一”对应的Unicode编码就是“u4e00”,“龥”（yù）对应的Unicode编码就是“u9fa5”。

　　常见非英文字符Unicode编码范围：

　　u4e00-u9fa5(中文)

　　u0800-u4e00(日文)

　　uac00-ud7ff（韩文）

　　综上所述，这篇文章就给大家介绍到这里了，希望可以给大家带来一定帮助。

云服务器 GPU云服务器正则匹配汉字正则匹配正则表达式正则表达式匹配匹配中文汉字

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/128316.html

经验拾忆（纯手工）=> Python正则全解详解

预编译 import re re1 = re.compile(r元字符组成的正则规则) # 元字符下面会说 re1.方法() # 方法下边也会说元字符：表示普通字符： . # 除了外都可以匹配的到 d # 只匹配纯数字 0-9 D # 和 d相反，除了数字全都匹配 ...

Luosunce 2019-07-31 11:25 评论0 收藏0
PHP正则表达式规则及常用方法整理

摘要：和均为非负整数，其中。如果之前至少个获取的子表达式，则为后向引用。注：本文转自摘取天上星的博客 PHP常用正则表达式 ^d+$　　//非负整数（正整数+ 0） ^[0-9]*[1-9][0-9]*$　　//正整数 ^((-d+)|(0+))$　　//非正整数（负整数+ 0） ^-[0-9]*[1-9][0-9]*$　　//负整数 ^-?d+$　　　　//整数 ^d+(.d+)?$　...

UCloud 2019-07-01 14:18 评论0 收藏0
使用PHP辅助快速制作一套自己的手写字体实践

摘要：参考代码地址四制作字体模板把自己最常接触的汉字找出来之后，需要制作一套字体模板，这套字体模板的用处是让手写汉字后，顺利的找到对应的汉字，这里需要依靠第三方网站提供的一些功能。一、背景笔者以前在网上看到有民间高手制作字体的相关事迹，觉得把自己的手写字用键盘敲出来是一件很有意思的事情，所以一直有时间想制作一套自己的手写体，前几天在网上搜索了一下制作字体的方法，发现技术上并不是太难，结合...

moven_j 2019-07-01 10:32 评论0 收藏0
正则表达式及多语言操作指南

摘要：能匹配中的，但不能匹配中的数量界定符符号定义是一个非负整数。则等价于和均为非负整数，其中。该方法接受一个正则表达式作为它的第一个参数。是一个非强制异常类，它表示一个正则表达式模式中的语法错误。正则表达式及多语言操作指南 1. 正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个规则字符串，这个规则字符串用来表达对字符串的一...

ingood 2019-08-23 11:28 评论0 收藏0
正则表达式及多语言操作指南

摘要：能匹配中的，但不能匹配中的数量界定符符号定义是一个非负整数。则等价于和均为非负整数，其中。该方法接受一个正则表达式作为它的第一个参数。是一个非强制异常类，它表示一个正则表达式模式中的语法错误。正则表达式及多语言操作指南 1. 正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个规则字符串，这个规则字符串用来表达对字符串的一...

xzavier 2019-08-19 11:01 评论0 收藏0