奇思妙想 · 2024年 9月 17日 0

字符串默认编码

40 次浏览

随着编程语言逐渐国际化,字符串并不总是早期的ASCII码,中文也逐渐进入编程语言的世界。不同编程语言和编译器因设计差异,字符串默认编码也可能存在差异。

  • GCC/G++/Clang/Clang++编译的C/C++代码默认字符串为UTF-8编码,MSVC默认字符串为ANSI编码。ObjC编译器是GCC或Clang, 跟随编译器的特性,NSString字符串默认编码也是UTF-8.
    • 可通过objdump -x -s a.out获取字符串常量的数值。
  • Rust字符串默认编码也是UTF-8编码,可用str.as_bytes()获取原始数据。
  • Swift 5之前字符串默认编码是ASCII(如果字符串每个字符都是ASCII码)和UTF-16,Swift 5之后(包含)默认编码为UTF-8.
  • Go默认字符串原始数据为UTF-8编码,通过[]byte(str)获取原始字节数据。
  • Java/C#字符串原始数据是UTF-16编码(字符串被加载到内存中的编码),尽管java编译出.class文件可能是UTF-8编码。