摘要:而在使用英文输入法时我们将个英文字符所占的位置称为半角。需要注意的是只有在支持汉字等语言的计算及上才存在全角和半角的概念。由于在规定中半角字符是从开始到结束。当然除了以上的方式外还有其他的方式将全角转换为半角。
原文地址:
http://52sox.com/use-python-t...
关于全角转换为半角的问题,其实源自在公司的运营人员在输入法切换的时候选择了全角,结果导致程序有时候没有办法进行解析。
为了避免这样的问题再次出现,于是就有了将全角转换为半角的问题了。
在这里,会对以下内容进行描述:
什么是全角
如何将全角字符转换为半角
使用python实现上述转换操作
我们知道在编码中,存储在计算机中仅仅是1个数字,而编码其实充当的是1种转换的过程,如果将1个字符转换为1个数字而问题。
全角和半角一般情况下,普通的英文字符只占用1个字节的空间,而1个字节有8位,因此可以存储256个字符。而汉字、日语及朝鲜文字这样CJK的文字很明显不止256个,因此会使用2个字节来存储。
而在使用英文输入法时,我们将1个英文字符所占的位置称为半角。而由于1个汉字占用2个英文字符的位置,因为我们将其称为全角。
需要注意的是,只有在支持汉字等语言的计算及上才存在全角和半角的概念。另外,虽然通常情况下的英文字母、数字键及符号键都是半角的,但是为了排列整齐,英文和其他拉丁文的字符和标签也可以使用全角格式。
因此,我们知道全角需要占用2个字节,而半角则占用1个字节。
在ASCII编码中,我们知道可以打印的字符只有127-33=94个。在这里,我们需要去除del键及ASCII编码表中前32位。
由于半角和全角只是占用字节个数的不同,因此全角可打印的字符也是94个。因此这2者之间是存在规律的,比如我们假设半角a字符的在计算机中存储的数字为60,而全角的a字符在计算机中存储的数字为1200。而假设a的下1个字符为b,其存储的数字为61, 那么全角的b字符存储的数字应为1201。
因此,这种一一映射的关系就查看各种规范中是如何定义的了。不同的规范定义会有所不同。
由于在Unicode规定中,半角字符是从33开始,到126结束。而Unicode中全角的编码是从65281开始到65374结束。
细心的你们会发现,这里少了1个字符,那就是空格。在半角中,空格是32,而在全角中它是12288。
现在,我们使用python来实现转换的操作,我们会检查给定的字符是否为全角,只有在全角的情况下才进行转换的操作。
def FullToHalf(s): n = [] s = s.decode("utf-8") for char in s: num = ord(char) if num == 0x3000: num = 32 elif 0xFF01 <= num <= 0xFF5E: num -= 0xfee0 num = unichr(num) n.append(num) return "".join(n)
在这里,我们对字符串进行遍历,然后判断其字符的大小,如果给定的字符是全角则将其进行减法操作。最后将其组装在一起返回就可以了。
然后我们进行如下的测试:
s = "张三,是1个帅哥。" result = FullToHalf(s) print result print "-" * 80 print s
其结果如下所示:
张三,是1个帅哥。 ----------------------------------------------------------------------- 张三,是1个帅哥。
当然,除了以上的方式外,还有其他的方式将全角转换为半角。比如我隔壁那个搞python的哥们直接就用正则进行匹配然后批量的进行转换。
由于我比较懒和能力比较有限,只好通过上面的方式来简化我的工作量。
参考文章:
http://www.cnblogs.com/kaituo...
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/38094.html
摘要:前言最近在爬日文小说的过程中,经常遇到全角甚至和和半角混用,造成我强迫症强烈不适,就着手专门写一个脚本处理之思路首先在网上寻找看是否已经有现成库脚本能做到,寻找一番之后只找到一些思路文章,这里就不重复了有一点要注意,不少文章里是的情况,里面 前言 最近在爬日文小说的过程中,经常遇到全角(甚至和和半角混用),造成我(强迫症)强烈不适,就着手专门写一个脚本处理之 思路 首先在网上寻找看是否...
摘要:序本文展示一下如何将进行半角与全角转换。术语全角进制转为进制半角进制转为进制工具类全角空格半角空格全角半角转换间隔验证输出工具类全角半角字符相互转换 序 本文展示一下如何将char进行半角与全角转换。 术语 全角 SBC case Sexagesimal to Binary Converter 60进制转为2进制 半角 DBC case Decimal to Binary Con...
摘要:全角占两个字节。汉字字符和规定了全角的英文字符及国标中的图形符号和特殊字符都是全角字符。在全角中,字母和数字等与汉字一样占据着等宽的位置。全角转换为半角 1.什么是全角和半角? 全角:是一种电脑字符,是指一个全角字符占用两个标准字符(或两个半角字符)的位置。全角占两个字节。 汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符。在全角中,字母和数字等...
摘要:的简明图示使用说明是自带的开发工具,参见下图在的提示符后输入代码,回车,就可以执行此代码,参见下图下面演示用的编辑器编写程序文件并运行程序文件将以为扩展名。输出在屏幕上显示数据,将数据保存至文件等。 python IDLE的简明图示使用说明 IDLE 是python自带的开发工具,参见下图...
阅读 2421·2023-04-26 02:18
阅读 1176·2021-10-14 09:43
阅读 3770·2021-09-26 10:00
阅读 6794·2021-09-22 15:28
阅读 2480·2019-08-30 15:54
阅读 2553·2019-08-30 15:52
阅读 428·2019-08-29 11:30
阅读 3419·2019-08-29 11:05