1. 函数调用

我们用下面的代码来研究函数调用的过程。

例 19.1. 研究函数的调用过程

  1. int bar(int c, int d)
  2. {
  3. int e = c + d;
  4. return e;
  5. }
  6.  
  7. int foo(int a, int b)
  8. {
  9. return bar(a, b);
  10. }
  11.  
  12. int main(void)
  13. {
  14. foo(2, 3);
  15. return 0;
  16. }

如果在编译时加上-g选项(在第 10 章 gdb讲过-g选项),那么用objdump反汇编时可以把C代码和汇编代码穿插起来显示,这样C代码和汇编代码的对应关系看得更清楚。反汇编的结果很长,以下只列出我们关心的部分。

  1. $ gcc main.c -g
  2. $ objdump -dS a.out
  3. ...
  4. 08048394 <bar>:
  5. int bar(int c, int d)
  6. {
  7. 8048394: 55 push %ebp
  8. 8048395: 89 e5 mov %esp,%ebp
  9. 8048397: 83 ec 10 sub $0x10,%esp
  10. int e = c + d;
  11. 804839a: 8b 55 0c mov 0xc(%ebp),%edx
  12. 804839d: 8b 45 08 mov 0x8(%ebp),%eax
  13. 80483a0: 01 d0 add %edx,%eax
  14. 80483a2: 89 45 fc mov %eax,-0x4(%ebp)
  15. return e;
  16. 80483a5: 8b 45 fc mov -0x4(%ebp),%eax
  17. }
  18. 80483a8: c9 leave
  19. 80483a9: c3 ret
  20.  
  21. 080483aa <foo>:
  22.  
  23. int foo(int a, int b)
  24. {
  25. 80483aa: 55 push %ebp
  26. 80483ab: 89 e5 mov %esp,%ebp
  27. 80483ad: 83 ec 08 sub $0x8,%esp
  28. return bar(a, b);
  29. 80483b0: 8b 45 0c mov 0xc(%ebp),%eax
  30. 80483b3: 89 44 24 04 mov %eax,0x4(%esp)
  31. 80483b7: 8b 45 08 mov 0x8(%ebp),%eax
  32. 80483ba: 89 04 24 mov %eax,(%esp)
  33. 80483bd: e8 d2 ff ff ff call 8048394 <bar>
  34. }
  35. 80483c2: c9 leave
  36. 80483c3: c3 ret
  37.  
  38. 080483c4 <main>:
  39.  
  40. int main(void)
  41. {
  42. 80483c4: 8d 4c 24 04 lea 0x4(%esp),%ecx
  43. 80483c8: 83 e4 f0 and $0xfffffff0,%esp
  44. 80483cb: ff 71 fc pushl -0x4(%ecx)
  45. 80483ce: 55 push %ebp
  46. 80483cf: 89 e5 mov %esp,%ebp
  47. 80483d1: 51 push %ecx
  48. 80483d2: 83 ec 08 sub $0x8,%esp
  49. foo(2, 3);
  50. 80483d5: c7 44 24 04 03 00 00 movl $0x3,0x4(%esp)
  51. 80483dc: 00
  52. 80483dd: c7 04 24 02 00 00 00 movl $0x2,(%esp)
  53. 80483e4: e8 c1 ff ff ff call 80483aa <foo>
  54. return 0;
  55. 80483e9: b8 00 00 00 00 mov $0x0,%eax
  56. }
  57. 80483ee: 83 c4 08 add $0x8,%esp
  58. 80483f1: 59 pop %ecx
  59. 80483f2: 5d pop %ebp
  60. 80483f3: 8d 61 fc lea -0x4(%ecx),%esp
  61. 80483f6: c3 ret
  62. ...

要查看编译后的汇编代码,其实还有一种办法是gcc -S main.c,这样只生成汇编代码main.s,而不生成二进制的目标文件。

整个程序的执行过程是main调用foofoo调用bar,我们用gdb跟踪程序的执行,直到bar函数中的int e = c + d;语句执行完毕准备返回时,这时在gdb中打印函数栈帧。

  1. (gdb) start
  2. ...
  3. main () at main.c:14
  4. 14 foo(2, 3);
  5. (gdb) s
  6. foo (a=2, b=3) at main.c:9
  7. 9 return bar(a, b);
  8. (gdb) s
  9. bar (c=2, d=3) at main.c:3
  10. 3 int e = c + d;
  11. (gdb) disassemble
  12. Dump of assembler code for function bar:
  13. 0x08048394 <bar+0>: push %ebp
  14. 0x08048395 <bar+1>: mov %esp,%ebp
  15. 0x08048397 <bar+3>: sub $0x10,%esp
  16. 0x0804839a <bar+6>: mov 0xc(%ebp),%edx
  17. 0x0804839d <bar+9>: mov 0x8(%ebp),%eax
  18. 0x080483a0 <bar+12>: add %edx,%eax
  19. 0x080483a2 <bar+14>: mov %eax,-0x4(%ebp)
  20. 0x080483a5 <bar+17>: mov -0x4(%ebp),%eax
  21. 0x080483a8 <bar+20>: leave
  22. 0x080483a9 <bar+21>: ret
  23. End of assembler dump.
  24. (gdb) si
  25. 0x0804839d 3 int e = c + d;
  26. (gdb) si
  27. 0x080483a0 3 int e = c + d;
  28. (gdb) si
  29. 0x080483a2 3 int e = c + d;
  30. (gdb) si
  31. 4 return e;
  32. (gdb) si
  33. 5 }
  34. (gdb) bt
  35. #0 bar (c=2, d=3) at main.c:5
  36. #1 0x080483c2 in foo (a=2, b=3) at main.c:9
  37. #2 0x080483e9 in main () at main.c:14
  38. (gdb) info registers
  39. eax 0x5 5
  40. ecx 0xbff1c440 -1074674624
  41. edx 0x3 3
  42. ebx 0xb7fe6ff4 -1208061964
  43. esp 0xbff1c3f4 0xbff1c3f4
  44. ebp 0xbff1c404 0xbff1c404
  45. esi 0x8048410 134513680
  46. edi 0x80482e0 134513376
  47. eip 0x80483a8 0x80483a8 <bar+20>
  48. eflags 0x200206 [ PF IF ID ]
  49. cs 0x73 115
  50. ss 0x7b 123
  51. ds 0x7b 123
  52. es 0x7b 123
  53. fs 0x0 0
  54. gs 0x33 51
  55. (gdb) x/20 $esp
  56. 0xbff1c3f4: 0x00000000 0xbff1c6f7 0xb7efbdae 0x00000005
  57. 0xbff1c404: 0xbff1c414 0x080483c2 0x00000002 0x00000003
  58. 0xbff1c414: 0xbff1c428 0x080483e9 0x00000002 0x00000003
  59. 0xbff1c424: 0xbff1c440 0xbff1c498 0xb7ea3685 0x08048410
  60. 0xbff1c434: 0x080482e0 0xbff1c498 0xb7ea3685 0x00000001
  61. (gdb)

这里又用到几个新的gdb命令。disassemble可以反汇编当前函数或者指定的函数,单独用disassemble命令是反汇编当前函数,如果disassemble命令后面跟函数名或地址则反汇编指定的函数。以前我们讲过step命令可以一行代码一行代码地单步调试,而这里用到的si命令可以一条指令一条指令地单步调试。info registers可以显示所有寄存器的当前值。在gdb中表示寄存器名时前面要加个$,例如p $esp可以打印esp寄存器的值,在上例中esp寄存器的值是0xbff1c3f4,所以x/20 $esp命令查看内存中从0xbff1c3f4地址开始的20个32位数。在执行程序时,操作系统为进程分配一块栈空间来保存函数栈帧,esp寄存器总是指向栈顶,在x86平台上这个栈是从高地址向低地址增长的,我们知道每次调用一个函数都要分配一个栈帧来保存参数和局部变量,现在我们详细分析这些数据在栈空间的布局,根据gdb的输出结果图示如下[29]:

图 19.1. 函数栈帧

函数栈帧

图中每个小方格表示4个字节的内存单元,例如b: 3这个小方格占的内存地址是0xbf822d20~0xbf822d23,我把地址写在每个小方格的下边界线上,是为了强调该地址是内存单元的起始地址。我们从main函数的这里开始看起:

  1. foo(2, 3);
  2. 80483d5: c7 44 24 04 03 00 00 movl $0x3,0x4(%esp)
  3. 80483dc: 00
  4. 80483dd: c7 04 24 02 00 00 00 movl $0x2,(%esp)
  5. 80483e4: e8 c1 ff ff ff call 80483aa <foo>
  6. return 0;
  7. 80483e9: b8 00 00 00 00 mov $0x0,%eax

要调用函数foo先要把参数准备好,第二个参数保存在esp+4指向的内存位置,第一个参数保存在esp指向的内存位置,可见参数是从右向左依次压栈的。然后执行call指令,这个指令有两个作用:

  1. foo函数调用完之后要返回到call的下一条指令继续执行,所以把call的下一条指令的地址0x80483e9压栈,同时把esp的值减4,esp的值现在是0xbf822d18。

  2. 修改程序计数器eip,跳转到foo函数的开头执行。

现在看foo函数的汇编代码:

  1. int foo(int a, int b)
  2. {
  3. 80483aa: 55 push %ebp
  4. 80483ab: 89 e5 mov %esp,%ebp
  5. 80483ad: 83 ec 08 sub $0x8,%esp

push %ebp指令把ebp寄存器的值压栈,同时把esp的值减4。esp的值现在是0xbf822d14,下一条指令把这个值传送给ebp寄存器。这两条指令合起来是把原来ebp的值保存在栈上,然后又给ebp赋了新值。在每个函数的栈帧中,ebp指向栈底,而esp指向栈顶,在函数执行过程中esp随着压栈和出栈操作随时变化,而ebp是不动的,函数的参数和局部变量都是通过ebp的值加上一个偏移量来访问,例如foo函数的参数ab分别通过ebp+8ebp+12来访问。所以下面的指令把参数ab再次压栈,为调用bar函数做准备,然后把返回地址压栈,调用bar函数:

  1. return bar(a, b);
  2. 80483b0: 8b 45 0c mov 0xc(%ebp),%eax
  3. 80483b3: 89 44 24 04 mov %eax,0x4(%esp)
  4. 80483b7: 8b 45 08 mov 0x8(%ebp),%eax
  5. 80483ba: 89 04 24 mov %eax,(%esp)
  6. 80483bd: e8 d2 ff ff ff call 8048394 <bar>

现在看bar函数的指令:

  1. int bar(int c, int d)
  2. {
  3. 8048394: 55 push %ebp
  4. 8048395: 89 e5 mov %esp,%ebp
  5. 8048397: 83 ec 10 sub $0x10,%esp
  6. int e = c + d;
  7. 804839a: 8b 55 0c mov 0xc(%ebp),%edx
  8. 804839d: 8b 45 08 mov 0x8(%ebp),%eax
  9. 80483a0: 01 d0 add %edx,%eax
  10. 80483a2: 89 45 fc mov %eax,-0x4(%ebp)

这次又把foo函数的ebp压栈保存,然后给ebp赋了新值,指向bar函数栈帧的栈底,通过ebp+8ebp+12分别可以访问参数cdbar函数还有一个局部变量e,可以通过ebp-4来访问。所以后面几条指令的意思是把参数cd取出来存在寄存器中做加法,计算结果保存在eax寄存器中,再把eax寄存器存回局部变量e的内存单元。

gdb中可以用bt命令和frame命令查看每层栈帧上的参数和局部变量,现在可以解释它的工作原理了:如果我当前在bar函数中,我可以通过ebp找到bar函数的参数和局部变量,也可以找到foo函数的ebp保存在栈上的值,有了foo函数的ebp,又可以找到它的参数和局部变量,也可以找到main函数的ebp保存在栈上的值,因此各层函数栈帧通过保存在栈上的ebp的值串起来了。

现在看bar函数的返回指令:

  1. return e;
  2. 80483a5: 8b 45 fc mov -0x4(%ebp),%eax
  3. }
  4. 80483a8: c9 leave
  5. 80483a9: c3 ret

bar函数有一个int型的返回值,这个返回值是通过eax寄存器传递的,所以首先把e的值读到eax寄存器中。然后执行leave指令,这个指令是函数开头的push %ebpmov %esp,%ebp的逆操作:

  1. ebp的值赋给esp,现在esp的值是0xbf822d04。

  2. 现在esp所指向的栈顶保存着foo函数栈帧的ebp,把这个值恢复给ebp,同时esp增加4,esp的值变成0xbf822d08。

最后是ret指令,它是call指令的逆操作:

  1. 现在esp所指向的栈顶保存着返回地址,把这个值恢复给eip,同时esp增加4,esp的值变成0xbf822d0c。

  2. 修改了程序计数器eip,因此跳转到返回地址0x80483c2继续执行。

地址0x80483c2处是foo函数的返回指令:

  1. 80483c2: c9 leave
  2. 80483c3: c3 ret

重复同样的过程,又返回到了main函数。注意函数调用和返回过程中的这些规则:

  1. 参数压栈传递,并且是从右向左依次压栈。

  2. ebp总是指向当前栈帧的栈底。

  3. 返回值通过eax寄存器传递。

这些规则并不是体系结构所强加的,ebp寄存器并不是必须这么用,函数的参数和返回值也不是必须这么传,只是操作系统和编译器选择了以这样的方式实现C代码中的函数调用,这称为Calling Convention,Calling Convention是操作系统二进制接口规范(ABI,Application Binary Interface)的一部分。

习题

1、在第 2 节 “自定义函数”讲过,Old Style C风格的函数声明可以不指定参数个数和类型,这样编译器不会对函数调用做检查,那么如果调用时的参数类型不对或者参数个数不对会怎么样呢?比如把本节的例子改成这样:

  1. int foo();
  2. int bar();
  3.  
  4. int main(void)
  5. {
  6. foo(2, 3, 4);
  7. return 0;
  8. }
  9.  
  10. int foo(int a, int b)
  11. {
  12. return bar(a);
  13. }
  14.  
  15. int bar(int c, int d)
  16. {
  17. int e = c + d;
  18. return e;
  19. }

main函数调用foo时多传了一个参数,那么参数ab分别取什么值?多的参数怎么办?foo调用bar时少传了一个参数,那么参数d的值从哪里取得?请读者利用反汇编和gdb自己分析一下。我们再看一个参数类型不符的例子:

  1. #include <stdio.h>
  2.  
  3. int main(void)
  4. {
  5. void foo();
  6. char c = 60;
  7. foo(c);
  8. return 0;
  9. }
  10.  
  11. void foo(double d)
  12. {
  13. printf("%f\n", d);
  14. }

打印结果是多少?如果把声明void foo();改成void foo(double);,打印结果又是多少?


[29] Linux内核为每个新进程指定的栈空间的起始地址都会有些不同,所以每次运行这个程序得到的地址都不一样,但通常都是0xbf??????这样一个地址。