Java程序员遇上字符乱码2-容易混淆的两种编码类别

hidogs 发布于2019-08-15 10:56 / 2101人阅读

摘要：字符集编码就是对字符根据不同字符集中对应的格式进行编码解码，这个大家都好理解。下面详细说说，以编码解码和编码解码为例。

《来自罗志晓的笔记：http://note.youdao.com/notesh...》
我们平时老说的编码解码，很多人都只知道字符集编码解码。其实除了字符集编码解码，常见的还有另一类，如 Url编码解码、Base64编码解码。
这两类编码的原理是完全不一样的，如果没有了解到这个分类以为编码都是字符集编码，那么你会无法理解那些解释编码的博文，会疑问：怎么说的都不一样啊，久之真的会怀疑人生。可恨的是，很多博文在关键环节上对这两个概念都是统一用 “编码解码” 四字一笔带过。

字符集编码: 就是对字符根据不同字符集中对应的格式进行编码解码，这个大家都好理解。
而另一类别编码解码出现的意义并不是为在不同字符集之间对字符进行格式转换，而是为了别的原因，例如：将不安全字符转化、原内容不可见以提高安全性、和便于网络传输。
下面详细说说，以Base64编码解码 和 Url 编码解码为例。

Base64编码解码

生活中的场景：
我们平时接收发送邮件所使用的SMTP协议，是基于文本的协议，也就是说只能处理常见字符。可是我们为何还可以发送接收图片、视频、压缩包等二进制文件？这就是Base64编码解码出现的意义了。我们发送邮件前，客户端会将图片等进行Base64编码，于是整张图片变成了人类可读的常见字符，然后在发送出去。接收方客户端接收到后，再 Base64解码还原成图片呈现给我们。
原理过程：
简单来说，Base64就是一种用 64个Ascii字符来表示任意二进制数据的方法，或者简单的说将二进制数据编码成Ascii字符。
这 64个Ascii字符如下：

即ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/

一眼看去就知道是26个字母大小写和数字和+/ 。

没错，别惊讶，你没理解错，上面的64个字符真的可以表示任意的二进制文件数据。那么是怎么操作的呢？过程如下：
以3个字节为一组（24位），按每6位高位补0扩展成8位得到4个字节（32位）。
（一）图片举例
假如一张图片只有四个字节：11101111 11011011 11101111 11011011

以3个字节为一组:(剩余的字节不足3个字节的话则补0凑够) 11101111 11011011 11101111 11011011 00000000 00000000

每组按 6bit 划分成 4小分组 111011 111101 101111 101111 110110 110000 000000 000000

每个小分组高位补0 以凑够 8bit，即一个字节 00111011 00111101 00101111 00101111 00110110 00110000 00000000 00000000
[这里你可能会容易认为：每个新的字节映射到一个Ascii字符集中的字符，然而你又错了！]

上述的每个新的字节其实是上表格的字符集合的索引下标（位置序号）而已，并非映射到原生Ascii字符集。如下图，我们将新的字节用十进制展示：

根据索引做转换：[这里注意：凡是后面补0 的字节，只能算映射到 = ]
59 ---> 7 61---> 947---> v 47---> v 54---> 2 48--->w 0---> = 0---> =
即：

因此最后这张图片变成：79vv2w== ，即Ascii字符，这样就可以符合SMTP文本协议了。

（二）字符举例
图片的话，我们是着眼其字节的。字符也是如此。首先我们要根据字符集找出字符对应的二进制字节，然后按照上面的过程编码。下面以“你a”为例

UTF-8

  ‘你’ :   `0xE4BDA0` 即   `111001001011110111000000`    
  ‘a’  :   `0x61` 即`01100001`  合起来就是： `11100100101111011100000001100001`
  计算后得到结果： `5L2gYQ==`

GBK

  ‘你’  :   `0xC4E3` 即   `1100010011100011`   
  ‘a’   :   `0x61`即 `01100001`  合起来就是：`110001001110001101100001` 
  计算后得到结果就和上面不一样了。

Tips:

其实网上好多Base64在线编码器，如工具网址：http://www.qqxiuzi.cn/bianma/...我们可以很方便地Base64编码：【注意：在网页上输入框输入的字符都是根据响应头中的ContentType指定的字符集编码进行编码的】

Base64编码的优缺点：

优点：可以将二进制数据转换成可打印Ascii字符，方便传输数据；对数据进行简单的加密，肉眼不可识别。

缺点：内容编码后的体积会变大，编码和解码需要额外的工作量。

常见运用场景：(来自网络)

将图片等资源文件以Base64编码形式直接放于代码中，使用的时候反Base64后转换成Image对象使用；

有些文本协议不支持不可见字符的传递，只能转换成可见字符来传递信息；

有时在一些特殊的场合，大多数消息是纯文本的，偶尔需要用这条纯文本通道传一张图片之类的情况发生的时候，就会用到Base64。

注意：

Base64 不是什么实质意义上的加解密算法，不过的确可以将原内容 ”改头换面“，人们往往将这理解成加密了。

GPU云服务器云服务器 json的两种结构】数据统计的两种方法最优生成树的两种算法域名解析的两种主要方式为

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/67439.html

Python编码问题及中文解决方案

摘要：中国人民看到这样很不错，于是就把这种汉字方案叫做。结果扩展之后的编码方案被称为标准，包括了的所有内容，同时又增加了近个新的汉字包括繁体字和符号。声明：文章借鉴自【彻底搞懂 python 中文乱码问题】一. 各种编码的由来 1.1 ASCII编码很久很久以前，有一群人，他们决定用8个可以开合的晶体管来组合成不同的状态，以表示世界上的万物。他们看到8个开关状态是好的，于是他们把这称为...

kevin 2019-07-31 11:14 评论0 收藏0
深入分析 Java Web 中的中文编码问题

摘要：文章首发地址深入分析中的中文编码问题背景编码问题一直困扰着程序开发人员，尤其是在中更加明显，因为是跨平台的语言，在不同平台的编码之间的切换较多。文章首发地址：深入分析 Java Web 中的中文编码问题背景：编码问题一直困扰着程序开发人员，尤其是在 Java 中更加明显，因为 Java 是跨平台的语言，在不同平台的编码之间的切换较多。接下来将介绍 Java 编码问题出现的根本原...

jsyzchen 2019-08-16 10:28 评论0 收藏0
JavaWeb 乱码问题终极解决方案！

摘要：经常有读者在公众号上问乱码的问题，昨天又有一个小伙伴问及此事，其实这个问题很简单，但是想要说清楚却并不容易，因为每个人乱码的原因都不一样，给每位小伙伴都把乱码的原因讲一遍也挺费时间的，因此，松哥今天决定写一篇文章，和大伙好好捋捋中的乱码问题经常有读者在公众号上问 JavaWeb 乱码的问题，昨天又有一个小伙伴问及此事，其实这个问题很简单，但是想要说清楚却并不容易，因为每个人乱码的原因...

canger 2019-08-19 11:35 评论0 收藏0
文件和字符编码

摘要：为了消除文件格式和字符编码的疑惑，上网搜索并翻出以前收藏的文章，心结总算了却。本文即是对文件和字符编码的个人总结。双字节多字节字符，编码方式和字节序，才是困扰程序员的问题。使用两个字节表示一个字符，平台默认的字符编码方案都是。转载请注明来源：https://tlanyan.me/ascii-bina... 近期对识别文件格式感到好奇，不幸和字符编码搞混，不明其中原理导致心烦意乱。为...

_Zhao 2019-06-28 18:32 评论0 收藏0