缓冲区溢出

一、缓存区溢出条件：

1.程序有向栈写入数据的行为
2.程序不限制写入数据的长度；

二、函数调用栈

1.调用函数在栈内，被调用函数在栈顶。
调用结束后被调用函数被弹出，栈顶恢复到调用函数的状态
2.esp –> 用来存储函数调用栈的==栈顶地址==（在压栈退栈中变化）
ebp –> 用来存储当前函数状态的==基地址==，在函数运行时不变，可以用来索引确定函数参数和局部变量的位置

eip –> 用来存储即将执行的程序指令的地址（CPU依照eip的存储内容读取指令并执行）
3

发生函数调用的核心任务是将调用函数（caller）的状态保存起来，同时创建被调用函数（callee）的状态

将被调用函数的参数逆序压入栈内，这些参数会保存在caller的状态里，之后压入的数据会作为callee处理 –> 压入被调用函数的返回地址 –> 压入caller的ebp，并更新ebp的值为栈顶的返回地址 –>
将callee的局部变量压入栈内

PS:调用参数以外的数据构成了callee的状态

函数调用结束的核心任务是丢弃被调用函数(callee)的状态，并将栈顶恢复为调用函数(caller)的状态
将局部变量弹出，栈顶指向callee的基地址 –>
将基地址内存储的调用函数caller的基地址弹出并存到ebp寄存器内，caller的ebp信息恢复，栈顶指向callee的返回地址 –>
将返回地址弹出，caller的eip信息恢复

三、栈攻击溢出

1.最关键：eip寄存器（载入攻击命令的地址）

> 结束函数调用时
  核心目的：用攻击指令的地址来覆盖返回地址

> 函数调用发生时
eip会指向原程序中的某个指定函数
手段：“偷梁换柱” ---  将原本指定的函数在调用时替换为其他函数

shellcode：修改返回地址，让其指向溢出数据的一段指令

return2libc：修改返回地址，让其指向内存中已有的某个函数

ROP：修改返回地址，让其指向内存中已有的一段指令

hijack GOT：修改某个被调用函数的地址，让其指向另一个函数

四、Shellcode

（–修改返回地址，让其指向溢出数据的一段指令–）

溢出数据的构造
padding1 + address of shellcode + padding2 +shellcode

padding1处的数据可以随意填充（如果利用==字符串==程序输入溢出数据不要包含”\x00”，否则向程序传入溢出数据时会造成截断），长度应该刚好覆盖函数的基地址。
address of shellcode是后面shellcode起始处的地址，用来覆盖返回地址。
padding2处的数据也可以随意填充，长度任意。shellcode应该为十六进制的机器码格式

返回地址之前的填充数据（padding1）应该多长？

我们可以用调试工具（例如 gdb）查看汇编代码来确定这个距离，也可以在运行程序时用不断增加输入长度的方法来试探（如果返回地址被无效地址例如“AAAA”覆盖，程序会终止并报错）。

shellcode起始地址应该是多少？

我们可以在调试工具里查看返回地址的位置（可以查看 ebp 的内容然后再加4（32位机），参见前面关于函数状态的解释），可是在调试工具里的这个地址和正常运行时并不一致，这是运行时环境变量等因素有所不同造成的。所以这种情况下我们只能得到大致但不确切的 shellcode 起始地址，解决办法是在 padding2 里填充若干长度的 “\x90”。这个机器码对应的指令是 NOP (No Operation)，也就是告诉 CPU 什么也不做，然后跳到下一条指令。有了这一段 NOP 的填充，只要返回地址能够命中这一段中的任意位置，都可以无副作用地跳转到 shellcode 的起始处，所以这种方法被称为 NOP Sled（中文含义是“滑雪橇”）。这样我们就可以通过增加 NOP 填充来配合试验 shellcode 起始地址。

操作系统可以将函数调用栈的起始地址设为随机化（这种技术被称为内存布局随机化，即Address Space Layout Randomization (ASLR) ），这样程序每次运行时函数返回地址会随机变化。反之如果操作系统关闭了上述的随机化（这是技术可以生效的前提），那么程序每次运行时函数返回地址会是相同的，这样我们可以通过输入无效的溢出数据来生成core文件，再通过调试工具在core文件中找到返回地址的位置，从而确定 shellcode 的起始地址。

解决完上述问题，我们就可以拼接出最终的溢出数据，输入至程序来执行 shellcode 了。

五、Return2libc

（–修改返回地址，让其指向内存中已有的某个函数–）

1.要在内存中确定某个函数的地址，并用其覆盖掉返回地址。

主要关注libc动态链接库，该库包含了一些系统级的函数（如system()等），从而利用这些系统级函数来获得当前进程的控制权。
下面以system(“/bin/sh”)为例

2.payload:padding1 + address of system() + padding2 + address of “/bin/sh”
padding1 处的数据可以随意填充（注意不要包含 “\x00” ，否则向程序传入溢出数据时会造成截断），长度应该刚好覆盖函数的基地址。address of system() 是 system() 在内存中的地址，用来覆盖返回地址。padding2 处的数据长度为4（32位机），对应调用 system() 时的返回地址。因为我们在这里只需要打开 shell 就可以，并不关心从 shell 退出之后的行为，所以 padding2 的内容可以随意填充。address of “/bin/sh” 是字符串 “/bin/sh” 在内存中的地址，作为传给 system() 的参数。

返回地址之前的填充数据（padding1）应该多长？

解决方法和 shellcode 中提到的答案一样。

system() 函数地址应该是多少？

要回答这个问题，就要看看程序是如何调用动态链接库中的函数的。当函数被动态链接至程序中，程序在运行时首先确定动态链接库在内存的起始地址，再加上函数在动态库中的相对偏移量，最终得到函数在内存的绝对地址。说到确定动态库的内存地址，就要回顾一下 shellcode 中提到的内存布局随机化（ASLR），这项技术也会将动态库加载的起始地址做随机化处理。所以，如果操作系统打开了 ASLR，程序每次运行时动态库的起始地址都会变化，也就无从确定库内函数的绝对地址。在 ASLR 被关闭的前提下，我们可以通过调试工具在运行程序过程中直接查看 system() 的地址，也可以查看动态库在内存的起始地址，再在动态库内查看函数的相对偏移位置，通过计算得到函数的绝对地址。