编码 / 编程语言 · 2023年 10月 21日 0

编码

127 次浏览

大家都遇到过乱码，本质在于默认和使用的字符集不同，用不同的编码在交流。尽管Unicode是世界标准，但它在某些场合未必是最优的编码，不一定会采用。

编码举例

比如python.py:
s = '你好'
$ hexdump -c python.py
0000000 s = ' 344 275 240 345 245 275 ' \r \n

每个中文是3个字节，是UTF-8编码。

源代码的编码

VS2019: C语言代码开头默认插入EF BB BF标志(BOM标志), 代表UTF-8编码。如果修改为Unicode Little Endian编码保存，代码开头会被插入FF FE.
Javac提供-encoding编译选项指定代码编码。
HTML提供charset属性指定编码格式。

乱码的本质

以Python为例：从源代码角度，程序员写完之后保存编码格式A，放到Python解释器运行，它按编码格式B解析，最终输出的结果也可能在命令行窗口展示，它使用编码C. 只有A/B/C都适配，结果才是预期。

BOM标记

为了更清晰标明字符编码，引入了BOM ( Byte-Order Mark). BOM的设计高明之处在于它将字符编码信息放在文件开头，而非文件之外，强制要求对字符编码的判断。注意，BOM只对UTF-16和UTF-8有效，对其他编码是无效的。

标签：编码编程语言

您可能还喜欢...

发表回复取消回复