格式化 / 编程语言 · 2023年 10月 5日 0

格式串基本规则

54 次浏览

编程语言毕竟是文本,只在ASCII码内无法表达更多的含义,如果不用新的函数或者关键字,就需要用“转义”的字符串格式来代表特定格式串。这就是格式串的来源。

格式

  • C/ObjC 语言的格式串比较典型,采用%符号作为格式类型前缀,避免编译器当做普通%字符。此方法有一定优势,同一个内存变量可以用不同%格式表达,可以随心控制。
  • C++除了继承它,iostream提供了新的设定模式,形如ios setw/setprecision/fixed等属性,它依托输入输出流对象属性。C++20引入了std::format()集成了格式化的优点,颇有C#风格,例如:
    • std::format("Age: {}, sex: {}", 28, 1) // 输出Age: 28, sex: 1
    • std::format("{1}, {0}, {1}", 1, 2) // 输出2, 1, 2
      • C++20也提供了自定义类型parse/format方法std::formatter类。
  • C#改进了C语言必须写%格式符的问题,用{0} {1}表达不同变量,也被称为复合格式化。C# 6.0之后更甚,0和1都不用输入,利用字符串前添加$将变量放入{}即可。
    • 注意,占位符可以按任意顺序,也可以多次使用。
  • Python除了类似C语言的%格式串,还提供字符串的format方法,Python 3.6以上还提供f-string创建格式串,它和C#的{}占位符类似,例如f"name: {name}, sex: {sex}".
    • %格式串需要在真实变量前统一加%,稍显繁琐,例如print("%d %d", % (a, b)).
    • Python 2.6开始支持字符串format方法,虽然也可以完成f-string同样的功能,但稍显繁琐:
      What’s New in Python 2.6
    • f-string格式串还支持插入函数,例如f"{len(str)}"是str的长度。
  • Swift也提供了一种简约的字符串插值方式,形如:let s3 = "\(str1) \(str2)"
  • Rust使用{}格式实现字符串插值。
  • Java对于简约格式串的支持比较落后,Java 15开始才支持formatted方法,但其方便程度只能和原始的C语言%格式串属于一个级别。
  • VB 格式串特立独行,利用Format函数,通过传递一些特别的格式字符达到特定显示。
    • 数值类型:例如 0代表显示字符或者0,#代表显示字符或不显示,%代表百分比格式。
      Format(123, "00000") 会输出:"00123" (实际显示去掉两边的引号)
    • 字符格式类型:例如 @代表显示字符或者空格,&代表显示字符或者不显示。
      Format("xyz", "@@@@") 会展示:" xyz" (实际显示去掉两边的引号)

不同格式符

  • C语言%d对应整形,%hd和%ld对应短整形和长整形。格式串解析是在libc完成。
    • 不能有%h或%l格式串,会产生冲突。
    • VS2019编译C代码只有%h格式符: 编译警告: 格式字符串“%h”未终止
  • 如果新增格式符,可以选择没有用过的符号。

格式串安全

  • C语言可以自由使用格式化,且printf第一个参数为const char *也可有程序员指定,形如printf(s)有很大风险。可以构造字符串s中的格式符,误导程序去访问特定内存。scanf同样可以构造带特定格式,产生一些有趣或危险的结果。