七、格式化字符串漏洞

原文： Format String Vulnerability 译者：飞龙

printf ( user_input );

上面的代码在 C 程序中十分常见。这一章中，我们会发现如果程序使用权限运行（例如 Set-UID 程序），可能造成什么问题。

1 格式化字符串

什么是格式化字符串？

printf ("The magic number is: %d\n", 1911);

被打印的文本是

The magic number is:

，后面是格式化参数

%d

。它在输出中由参数 1911 替换。因此输出是这样：

The magic number is: 1911

。除了

%d

，还有几种其它的格式化参数，每种都有不同的含义。下面的表格总结了这些格式化参数：

参数 含义 传递方式
------------------------------------------

%d 十进制 (int) 传值 
%u 无符号十进制 (unsigned int) 传值 
%x 十六集进制 (unsigned int) 传值 
%s 字符串 ((const) (unsigned) char *) 传址 
%n 目前为止写入的字符数 (* int) 传址

栈和它在格式化字符串中的作用

格式化函数的行为格式化字符串控制。函数从栈上获取由格式化字符串请求的参数。
```
printf ("a has value %d, b has value %d, c is at address: %08x\n", a, b, &c);           
```
如果格式化字符串和实际参数之间不匹配，会如何？
```
printf ("a has value %d, b has value %d, c is at address: %08x\n", a, b);           
```
- 在上面的例子中，格式化字符串请求三个参数，但是程序实际上提供了两个（也就是 a 和 b ）。
- 这个可以通过编译器嘛？
  - 函数 printf 定义为参数长度可变的函数。因此，通过查看参数数量，一切都正常。
  - 为了寻找不匹配，编译器需要理解 printf 如何工作，以及格式化字符串是什么意思。但是，编译器不会做这种分析。
  - 有时，格式化字符串不是个字符串常量。它在程序执行期间生成。因此，这里编译器没有办法发现不匹配。
- printf 可能检测不匹配吗？
  - printf 从栈上获取参数。如果格式化字符串需要三个参数，它会从栈上获取三个参数。除非栈上存在标记， printf 不知道它超出了提供给它的参数范围。
  - 由于不存在标记， printf 会继续从栈上抓取数据。在不匹配的情况下，它会抓取一些不属于这个函数调用的数据。

2 格式化字符串漏洞攻击

使程序崩溃
```
printf ("%s%s%s%s%s%s%s%s%s%s%s%s");           
```
- 对于每一个 %s ， printf 会从栈上抓取一个数值，将其看做地址，并将由该地址指向的内存内容打印为字符串，直到遇到了空字符（数值 0 而不是字符 0）。
- 由于 printf 抓取的数值可能不是有效地址，由该数值指向的内存可能不存在（也就是没有物理内存赋给这个地址），程序就会崩溃。
- 也可能数值碰巧是有效地址，但是地址空间被保护了（也就是为内核空间预留）。这样的话，程序也会崩溃。
查看栈
```
printf ("%08x %08x %08x %08x %08x\n");           
```
- 这让 printf 函数从栈上获取五个参数，并将其展示为填充长度为 8 的十六进制数值。所以输出可能为：
```
40012980 080628c4 bffff7a4 00000005 08059c04           
```
查看任何地址的内存
- 我们需要提供内存地址。但是我们不能修改代码，我们只能提供格式化字符串。
- 如果我们使用 printf(%s) ，而不指定内存地址， printf 就会从栈上获取目标地址。函数维护了初始的栈指针，所以它知道栈上参数的位置。
- 观察：格式化字符串通常位于栈上。如果我们可以将目标地址编码在格式化字符串中，目标地址就能在栈上。下面的示例中，格式化字符串储存在缓冲区中，它位于栈上。
```
int main(int argc, char *argv[]) { 
    char user_input[100]; 
    ... ... /* other variable definitions and statements */

    scanf("%s", user_input); /* getting a string from user */ 
    printf(user_input); /* Vulnerable place */

    return 0;
}           
```
- 如果我们可以让 printf 从格式化字符串获取地址（也位于栈上），我们就可以控制该地址。
```
printf ("\x10\x01\x48\x08 %x %x %x %x %s");           
```
- \x10\x01\x48\x08 是目标地址的四个字节。在 C 语言中， \x10 让编译器将十六进制值 0x10 放入当前位置。这个值只占一个字节。如果我们不使用 \x ，直接将 10 放入字符串，就会储存 ASCII 值 1 和 0。它们的 ASCII 值是 49 和 48。
- %x 让栈指针沿着格式化字符串移动。
- 这里是攻击方式，如果 user_input 包含下面的格式化字符串：
```
"\x10\x01\x48\x08 %x %x %x %x %s"           
```
- 本质上，我们使用四个 %x 来使 printf 的指针，向我们储存在格式化字符串中的地址移动。一旦到达了目标，我们就会像 printf 提供 %s ，使其打印出地址 0x10014808 的内容。函数 printf 会将内存看做字符串，并打印出来，知道到达了字符串尾部（空字符）。
- user_input 和传给 printf 函数的地址之间的栈空间并不是 printf 的。但是，由于程序中的格式化字符串漏洞。 printf 将它们看做匹配格式化字符串中 %x 的参数。
- 这个攻击的关键就是弄清楚 user_input printf 的地址的距离。这个距离决定了在提供 %s 之前，你需要向格式化字符串插入多少个 %x 。
在进程的内存中向任何地址写入整数
- %n ：目前为止写入的字符数量，储存在一个整数中，它由相应参数表示。
```
int i; 
printf ("12345%n", &i);           
```
- 它使 printf 将 5 写入变量 i
- 使用查看任意地址内存的相同方式，我们可以使 printf 将整数写入任意地址。只需要将上面例子中的 %s 替换为 %n ，就会覆盖 0x10014808 地址处的内容。
- 使用这个攻击，攻击者可以做这些事情：
  - 覆盖控制访问权限的重要程序标志位
  - 覆盖栈上的返回地址，函数指针，以及其他
- 但是，写入的值由 %n 之前已打印的字符数量决定。是否真的可以写入任意整数呢？
  - 使用伪造的输出字符。为了写入值 1000，应该事先打印 1000 个伪造字符的间隔。
  - 为了避免过长的格式化字符串，我们可以使用格式化标志的宽度限定。
预防措施
- 地址空间随机化：就像用于保护缓冲区溢出攻击的预防措施那样，地址空间随机化攻击者难以找到他们想要读取或写入什么地址。（译者注：但是仍然有一些区域无法随机化，比如 PLT）。

雪城大学信息安全讲义七、格式化字符串漏洞七、格式化字符串漏洞

七、格式化字符串漏洞

1 格式化字符串

2 格式化字符串漏洞攻击

继续阅读

《JAVA编程思想》第四版学习需要我记住的something –持有对象

《JAVA编程思想》第四版学习需要我记住的something--多态

《JAVA编程思想》第四版学习需要我记住的something –复用类

Java 实现RSA非对称加密算法的签名与验签

【图解HTTP】——确保Web安全的HTTPSHTTPS小结

网络攻防技术（2021期末考试）

【C++进阶】__stdcall 详解函数调用约定

软件设计师笔记-----系统安全分析与设计五、系统安全分析与设计

软考-软件设计师笔记五（系统安全分析与设计）信息系统安全属性对称加密技术非对称加密技术信息摘要数字签名数字信封与PGP各个网络层次的安全保障网络威胁与攻击防火墙技术

初谈验证码与验证码设计

内网渗透1一、信息收集二、一些概念三、提权四、获取当前机器下各类密码四、用到的工具

DOG（4）：解析器的部分实现细节先来说说parser一些可能迷惑的地方结果如何返回?pcd其实是一回事最后的一点说明

Kali的安装、配置和换国内源KALI的安装、配置

effective c++ 第三版读书笔记1

可变参数宏， Variadic Macros

什么是BNF范式

雪城大学信息安全讲义 七、格式化字符串漏洞七、格式化字符串漏洞

七、格式化字符串漏洞

1 格式化字符串

2 格式化字符串漏洞攻击

继续阅读

雪城大学信息安全讲义七、格式化字符串漏洞七、格式化字符串漏洞