C与汇编的接口技术
现今,完全用汇编书写的程序是非常少的。编译器能很好地将高级语言转换成有效的机器代码。因为用高级语言书写代码非常容易,所以高级语言变得很流行。此外,高级语言比汇编语言更容易移植!
mov eax, ebp - 8
为什么?因为指令MOV储存到EAX里的值必须能由汇编器计算出来(也就是说,它最后必须是一个常量)。但是,有一条指令能做这种需求的计算。它就是LEA (即Load Effective Address,载入有效地址)。下面的代码就能计算出x的地址并将它储存到EAX中:
现在EAX中存有了x的地址,而且当调用函数foo的时候,就可以将其压入到栈中。不要搞混了,这条指令看起来是从[EBP-8]中读数据;然而,这并不正确。LEA指令永远不会从内存中读数据。它仅仅计算出一个将会被其它指令使用到的地址,然后将这个地址储存到它的第一个操作数里。因为它并没有实际读内存,所以不指定内存大小(例如: dword)是必须的或说是允许的。
GCC编译器允许不同的调用约定。一个函数的调用约定可以通过扩展语法attribute 明确指定。例如,要声明一个返回值为空的函数f,它带有一个int参数,使用标准调用约定,需使用下面的语法来声明它的原型:
Borland和Microsoft使用一样语法来声明调用约定。它们在C代码中加上关键字_cdecl和_stdcall。这些关键字用来修饰函数。在原型声明中,它们出现在函数名的前面例如,上面的函数f用Borland和Microsoft定义如下:
每种调用约定都有各自的优缺点。cdecl调用约定的主要优点是它非常简单而且非常灵活。它可以用于任何类型的C函数和C编译器。使用其它约定会限制子程序的可移植性。它的主要缺点是与其它约定相比它执行较慢而且使用更多的内存(因为函数的每次调用都需要用代码将参数移除出
栈。)。
stdcall调用约定的主要优点是相比于cdecl它使用较少的内存。在CALL指令之后,不需要清理堆栈。它的主要缺点是它不能使用于可变参数的函数。
使用寄存器传递参数的调用约定的优点是速度非常快。主要缺点是这种约定太复杂。有些参数可能在寄存器中,而另一些可能在堆栈中。
在汇编程序中调用C函数
当使用汇编语言时,我们经常将它使用在代码中的一小部分上。有两种使用汇编语言的方法:在C中调用汇编子程序或内嵌汇编。内嵌汇编允许程序员把汇编语句直接放入到C代码中。这样是非常方便的;但是,内嵌汇编同样存在缺点。汇编语言的书写格式必须是编译器使用的格式。目前没有一个编译器支持NASM格式。不同的编译器要求使用不同的格式。Borland和Microsoft要求使用MASM格式。DJGPP和Linux中gcc要求使用GAS格式。在PC机上,调用汇编子程序是更标准的技术。
在C中使用汇编程序通常是因为以下几个原因:
1、需要直接访问计算机的硬件特性,而用C语言很难或不可能做到。
2、程序执行必须尽可能地快,而且相比于编译器,程序员手动优化的代码更好。
绝大部分的C调用约定已经确定了。但是,还需要描述一些额外的特征。
保存寄存器
首先, C假定子程序保存了下面这几个寄存器的值:EBX,ESI,EDI, EBP,CS,DS,SS,ES。这并不意味着不能在子程序内部修改它们。相反,它表示如果子程序改变了它们的值,那么在子程序返回之前必须恢复它们的原始值。EBX,ESI和EDI的值不能被改变,因为C将这些寄存器用
于寄存器变量。通常都是使用堆栈来保存这些寄存器的原始值。
于寄存器变量。通常都是使用堆栈来保存这些寄存器的原始值。
函数名
大多数C编译器都在函数名和全局或静态变量前附加一个下划线字符。例如,函数名f将指定为_f。因此,如果这是一个汇编程序,那么它必须标记为_f,而不是f。Linux gcc编译器并不附加任何字符。在可
执行的Linux ELF下,对于C函数f,你只需要简单使用函数名f即可。但是,DJGPP的gcc却附加了一个下划线。注意,在汇编程序skeleton中(图1.7),主程序函数名是_asm main。
执行的Linux ELF下,对于C函数f,你只需要简单使用函数名f即可。但是,DJGPP的gcc却附加了一个下划线。注意,在汇编程序skeleton中(图1.7),主程序函数名是_asm main。
传递参数
按照C调用约定,一个函数的参数将以一定顺序压入栈中,这个顺序与它们出现在函数调用里的顺序相反。考虑这条C语句:printf("x = %d\n",x); 图4.11展示了如何编译这条语句(用等价的NASM格式)。图4.12展示了执行完printf函数的开始部分后,堆栈的状态。printf函数一个可以携带任意个参数的C语言库函数。C调用约定的规则就是专门为允许这些类型的函数而规定的。 因为format字符串的地址最后压入堆栈,所以不管有多少参数传递到函数,
计算局部变量的地址
找到定义在data或bss段的变量的地址是非常容易的。基本上,连接程序做的就是这件事情。但是,要计算出在堆栈上的一个局部变量(或参数)的地址就不简单了。可是,当调用子程序的时候,这种需求是非常普通的。考虑传递一个变量(让我们称它为x)的地址到一个函数(让我们称它为foo)的情况。如果x处在堆栈的EBP ¡ 8的位置,你不可以这样使用:
mov eax, ebp - 8
为什么?因为指令MOV储存到EAX里的值必须能由汇编器计算出来(也就是说,它最后必须是一个常量)。但是,有一条指令能做这种需求的计算。它就是LEA (即Load Effective Address,载入有效地址)。下面的代码就能计算出x的地址并将它储存到EAX中:
lea eax, [ebp - 8]
现在EAX中存有了x的地址,而且当调用函数foo的时候,就可以将其压入到栈中。不要搞混了,这条指令看起来是从[EBP-8]中读数据;然而,这并不正确。LEA指令永远不会从内存中读数据。它仅仅计算出一个将会被其它指令使用到的地址,然后将这个地址储存到它的第一个操作数里。因为它并没有实际读内存,所以不指定内存大小(例如: dword)是必须的或说是允许的。
返回值
返回值不为空的C函数执行完后会返回一个值。C调用约定规定了这个要如何去做。返回值需通过寄存器传递。所有的整形类型(char,int,enum,等)通过EAX寄存器返回。如果它们小于32位,那么储存到EAX的时候,它们将被扩展成32位。(它们如何扩展取决于是有符号类型还是无符号类型。) 64位的值通过EDX:EAX寄存器对返回。浮点数储存在数学协处理器中的ST0寄存器中。(这个寄存器将在浮点数这一章来讨论。)
其它调用约定
所有的80x86 C编译器中都支持上面描述的标准C调用约定的规则。通常编译器也支持其它调用约定。当与汇编语言进行接口时,知道编译器调用你的函数时使用的是什么调用约定是非常重要的。通常,缺省时,使用的是标准的调用约定;但是,并不总是这一种情况4。使用多种约定的编译器通常都拥有可以用来改变缺省约定的命令行开关。它们同样提供扩展的C语法来为单个函数指定调用约定。但是,各个编译器的这些扩展标准可以是不一样的。
GCC编译器允许不同的调用约定。一个函数的调用约定可以通过扩展语法attribute 明确指定。例如,要声明一个返回值为空的函数f,它带有一个int参数,使用标准调用约定,需使用下面的语法来声明它的原型:
void f ( int ) _attribute_(( cdecl ));
GCC同样支持标准call 调用约定。通过把cdecl替换成stdcall,上面的函数可以指定为使用这种约定。stdcall约定和cdecl约定的不同点是stdcall要求子程序将参数移除出栈(和Pascal调用约定一样)。因此,stdcall调用约定只能使用在带有固定参数的函数上(也就是说,不可以是函数printf和scanf)。
GCC同样支持称为regparm 的约定,这种约定告诉编译器前3个整形参数通过寄存器传递给函数,而不是通过堆栈。这是许多编译器支持的一个共同的优化模式。
Borland和Microsoft使用一样语法来声明调用约定。它们在C代码中加上关键字_cdecl和_stdcall。这些关键字用来修饰函数。在原型声明中,它们出现在函数名的前面例如,上面的函数f用Borland和Microsoft定义如下:
void _cdecl f ( int );
每种调用约定都有各自的优缺点。cdecl调用约定的主要优点是它非常简单而且非常灵活。它可以用于任何类型的C函数和C编译器。使用其它约定会限制子程序的可移植性。它的主要缺点是与其它约定相比它执行较慢而且使用更多的内存(因为函数的每次调用都需要用代码将参数移除出
栈。)。
stdcall调用约定的主要优点是相比于cdecl它使用较少的内存。在CALL指令之后,不需要清理堆栈。它的主要缺点是它不能使用于可变参数的函数。
使用寄存器传递参数的调用约定的优点是速度非常快。主要缺点是这种约定太复杂。有些参数可能在寄存器中,而另一些可能在堆栈中。
在汇编程序中调用C函数
C与汇编接口的一个主要优点是允许汇编代码访问大型C库和用户写的函数。例如,如果你想调用一下scanf函数来从键盘读一个整形,该怎么办?图4.14展示了完成这件事的代码。需要记住的非常重要的一点就是scanf函数遵循字面意义的C调用标准。这就意味着它保存了EBX,ESI和EDI寄存器的值;但是,EAX,ECX和EDX寄存器的值可能会被修改。事实上,EAX肯定会被修改,因为它将保存scanf调用的返回值。至于与C接口的其它例子,可以看用来产生asm io.obj的asm io.asm文件中的代码。