细说Unicode(一) Unicode初认识

loostudy 发布于2019-08-21 11:28 / 2952人阅读

摘要：所以中国人自己创造了一种字符编码，每个汉字和符号用两个字节来表示。第一个字节称为高位字节，第二个字节称为低位字节。而目前为止我们使用最广泛的中文编码还是。

网站开发中经常会被乱码问题困扰。知道文件编码错误会导致乱码，但对其中的原理却知之甚少。偶然从某篇文章了解了Unicode，发现从这条线出发也牵引出了一系列缺失的知识点。通过研读文章，基本了解了一些以前不明白的问题，所以整理了几篇，从几个角度介绍下Unicode，并聊聊一些相关的问题。

ASCII

上世纪60年代，美国人采用了一种编码来表示英语以及各种符号，该编码方式只有一个字节，能表示256(2^8)个字符。至今为止才定义了128个字符。包括33个控制字符和95个可显示字符，这些可显示字符涵盖了大小写英文字母和一些符号，这就是大名鼎鼎的ASCII编码。

GB 2312

然而随着计算机的发展，各个国家的语言符号多不胜数，在中国光中文字符就有7000多个，还不包括繁体中文，ASCII显然无法满足这么多字符编码需求。所以中国人自己创造了一种字符编码，每个汉字和符号用两个字节来表示。第一个字节称为"高位字节"，第二个字节称为"低位字节"。高位字节使用了0xA1 - 0xF7, "低位字节"使用了0xA1 - 0xFE。同时该编码方式兼容了ASCII的编码，对于小于127的字符即0x00 - 0x7F的字符予以保留。这种编码方式就是中文编码GB 2312。

GBK

然而GB 2312能表示的文字也比较有限，对于一些人名，古汉语和繁体字也无能为力。所以我们改进了GB 2312的编码方式，扩展了GB 2312 中不使用的字节，使其同时包括了GB2312的所有内容，又新增了近20000个新的汉字，包括繁体字。该编码就是我们熟悉的GBK。后来由于又加了少数名族的文字，又推出了GB18030，用于取代GBK。而目前为止我们使用最广泛的中文编码还是GBK。

Unicode

再后来，由于不同的国家地区之间都使用不同的编码，导致计算机文件的读取都需要安装不同的解码软件。经常照成文件读取乱码。于是有一些组织决定制定出一个方案，通过统一的编码解决这个难题。于是其中一个团队发明了UCS编码，还有另一个团队发明了Unicode。后来两者达成一致，只发布一套字符集，那就是Unicode 。而UCS的码点将与Unicode保持一致。

Unicode最初规定用16位的编码空间，这16位编码空间称为统一码。这样理论上一共最多有2^16（65536）个字符。基本满足各种语言的使用。实际上当前版本的统一码并未完全使用这16位编码，而是保留了大量空间以作为特殊使用或将来扩展。

目前的Unicode字符分为17组编排，每组称为一个平面（Plane），而每平面拥有65536（即2^16）个码点。上述16位统一码字符称为基本多文种平面（BMP），写成16进制就是从U+0000到U+FFFF。剩下还有16个辅助平面（SMP），码点范围从U+010000一直到U+10FFFF。这17个平面结合起来至少需要占据21位的空间（2^16 x 2^5），也就是差不多3个字节（24位），而辅助平面实际上是用4个字节表示，方便以后向后扩展。

上面讲到的几种编码都是编码方式，规定了从码点到字符的映射关系，例如 Unicode中U+0061 对应的就是小写字母 "a", 我们可以在浏览器控制台中输入码点查找对应的字符：

UTF
Unicode的实现方式不同于编码方式。一个字符的Unicode编码是确定的。但是在实际传输过程中，由于不同系统平台的设计不一定一致，以及出于节省空间的目的，对Unicode编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式（Unicode Transformation Format，简称为UTF）。

网页开发中比较熟悉和常用的编码实现是UTF-8。那么这种实现方式有什么优势呢？UTF-8是一种变长的编码方法。字符长度从1字节到4字节不等。最前面的128个字符，只使用1个字节表示，延续了ASCII的用法。其他分段的字节数如下：

计算机在读取数据的时候都是从高位到地位或从地位到高位。当计算机读到一个3字节字符时，怎么判断是输出1位字符，还是继续读取接下来的2位并合并为一个字符呢？这就要涉及到UTF-8的具体实现了。

UTF-8是这样做的：

单字节的字符，字节的第一位设为0，对于英语文本，UTF-8码只占用一个字节，和ASCII码完全相同；

n个字节的字符(n>1)，第一个字节的前n位设为1，第n+1位设为0，后面字节的前两位都设为10，这n个字节的其余空位填充该字符unicode码，高位用0补足。

这样就形成了如下的UTF-8标记位：

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

当读到第一位时，发现是0开头，就读一个字节。发现是110，就读两个字节，发现是1110就读三个字节，以此类推，再根据Unicode规则找到对应的符号输出。这种变长的编码方式，能根据字符采用不同位数的码点，能够有效减少文件的体积。

如果采用Unicode的编码方式直接作为实现方法。那么每个字符都是定长的码点，对于只需要一个字节的字符，需要在前面补0. 这样就照成了空间的浪费，文件就会变大。

UTF编码除了UTF-8，还有UTF-16：最小的码点为2个字节；UTF-32：每个码点固定用4个字节表示。由于UTF-32传输场进下会照成文件空间浪费，HTML5标准规定，网页不得编码成UTF-32。

关于Unicode的介绍就到这。UCS的相关知识，将在下一章结合JavaScript一起讲到。

参考文章：
https://zh.wikipedia.org/wiki
http://www.ruanyifeng.com/blo...
https://www.zhihu.com/questio...

云服务器 GPU云服务器 unicode unicode16 Unicode加密 unicode码

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/86750.html

细说Unicode(二) Unicode与JavaScript的纠葛

摘要：受到这个的影响，中的字符操作函数某些情况无法返回正确的结果。的码点，还有另外一种表示方法，称为进制转义序列。这与我们的认知有点不同，我们通常认为一个表情符号也是一个字符，长度为。而如果通过来判断字符串长度显然是不够准确的。大家对上一篇文章中提到的UCS编码可能比较陌生。殊不知这就是JavaScript采用的编码方法。既然Unicode已经统一了天下，为什么JavaScript不采用...

Achilles 2019-08-21 11:28 评论0 收藏0
[零基础学Python]坑爹的字符编码

摘要：所以，哪怕是初学者，都要了解并能够解决字符编码问题。在这个世界上，有好多不同的字符编码。目前最新的版本为，已收入超过十万个字符第十万个字符在年获采纳。涵盖的数据除了视觉上的字形编码方法标准的字符编码外，还包含了字符特性，如大小写字母。字符编码，在编程中，是一个让学习者比较郁闷的东西，比如一个str，如果都是英文，好说多了。但恰恰不是如此，中文是我们不得不用的。所以，哪怕是初学者，都要...

rozbo 2019-07-24 17:36 评论0 收藏0
细说Unicode(三) Unicode 番外之附加字符

摘要：在各种论坛上，经常会看到一些奇怪的字符，它们的内容会超出显示范围，举个例子常见的还有一些有泰文字符组成的。第一种是对字符串文字区域设置最大高度，超出的部分自动隐藏。将附加字符进行过滤，这种方法在某种程度上会误杀一些需要正常显示的附加符号。在各种论坛上，经常会看到一些奇怪的字符，它们的内容会超出显示范围，举个例子： Z͑ͫ̓ͪ̂ͫ̽͏̴̙̤̞͉͚̯̞̠͍A̴̵̜̰͔ͫ͗͢L̠ͨͧͩ͘...

qujian 2019-08-21 11:28 评论0 收藏0
正则表达式巧用 Unicode 匹配特殊字符

摘要：正则表达式巧用匹配特殊字符作者原文章首先声明，本文所有的代码都是在下面运行，需要修改之后才能运行，但是本文没有涉及到太多的新特性，而且由于对修饰符不支持，最后的实现也基本是用的知识写的代码。正则表达式巧用 Unicode 匹配特殊字符作者 @zwhu 原文章 @github 首先声明，本文所有的代码都是在 ES6 下面运行，ES5需要修改之后才能运行，但是本文没有涉及到太多的ES6...

rubyshen 2019-08-21 10:40 评论0 收藏0
似懂非懂unicode

摘要：起初这个委员没有认识到我国博大精深的语言文化，认为用已经足以表示世界上的任何一个字符。所以是一种编码标准，目标将世界上的每一个字符用统一二进制数字来表示。编码期间有一段区间码是保留的，保留的范围是这段字符码不表示任何字符。 ---对unicode编码和java代码单元问题研究总结前言:最近在《java编程思想》一书中看到了代码点与代码单元的概念，当中介绍了java采用U...

pingink 2019-08-16 10:27 评论0 收藏0