【轉】 可變參數表的用法 stdarg 2010年08月25日 星期三 上午 00:06 轉載自 ___yiren___ 最終編輯 jrckkyy
一、
從函數原型可以看出,其除了接收一個固定的參數format以外,後面的參數用"…"表示。在C/C++語言中,"…"表示可以接受不定數量的參數,理論上來講,可以是0或0以上的n個參數。 本文将對C/C++可變參數表的使用方法及C/C++支援可變參數表的深層機理進行探索。 可變參數表的用法 1、相關宏 标準C/C++包含頭檔案stdarg.h,該頭檔案中定義了如下三個宏:
在這些宏中,va就是variable argument(可變參數)的意思;arg_ptr是指向可變參數表的指針;prev_param則指可變參數表的前一個固定參數;type為可變參數的類型。va_list也是一個宏,其定義為typedef char * va_list,實質上是一char型指針。char型指針的特點是++、--操作對其作用的結果是增1和減1(因為sizeof(char)為1),與之不同的是int等其它類型指針的++、--操作對其作用的結果是增sizeof(type)或減sizeof(type),而且sizeof(type)大于1。 通過va_start宏我們可以取得可變參數表的首指針,這個宏的定義為:
對這個宏的具體含義我們将在後面深入讨論。 而va_end宏被用來結束可變參數的擷取,其定義為:
可以看出,va_end ( list )實際上被定義為空,沒有任何真實對應的代碼,用于代碼對稱,與va_start對應;另外,它還可能發揮代碼的"自注釋"作用。所謂代碼的"自注釋",指的是代碼能自己注釋自己。 下面我們以具體的例子來說明以上三個宏的使用方法。 2、一個簡單的例子
函數max中首先定義了可變參數表指針ap,而後通過va_start ( ap, num )取得了參數表首位址(賦給了ap),其後的for循環則用來周遊可變參數表。這種周遊方式與我們在資料結構教材中經常看到的周遊方式是類似的。 函數max看起來簡潔明了,但是實際上printf的實作卻遠比這複雜。max函數之是以看起來簡單,是因為: (1) max函數可變參數表的長度是已知的,通過num參數傳入; (2) max函數可變參數表中參數的類型是已知的,都為int型。 而printf函數則沒有這麼幸運。首先,printf函數可變參數的個數不能輕易的得到,而可變參數的類型也不是固定的,需由格式字元串進行識别(由%f、%d、%s等确定),是以則涉及到可變參數表的更複雜應用。 二、寫一個簡單的可變參數的C函數 先看例子程式。該函數至少有一個整數參數,其後占位符…,表示後面參數的個數不定. 在這個例子裡,所有的輸入參數必須都是整數,函數的功能隻是列印所有參數的值. 函數代碼如下: //示例代碼1:可變參數函數的使用 #include "stdio.h" #include "stdarg.h" void simple_va_fun(int start, ...) { va_list arg_ptr; int nArgValue =start; int nArgCout=0; //可變參數的數目 va_start(arg_ptr,start); //以固定參數的位址為起點确定變參的記憶體起始位址。 do { ++nArgCout; printf("the %d th arg: %d\n",nArgCout,nArgValue); //輸出各參數的值 nArgValue = va_arg(arg_ptr,int); //得到下一個可變參數的值 } while(nArgValue != -1); return; } int main(int argc, char* argv[]) { simple_va_fun(100,-1); simple_va_fun(100,200,-1); return 0; } 下面解釋一下這些代碼 從這個函數的實作可以看到,我們使用可變參數應該有以下步驟: ⑴由于在程式中将用到以下這些宏: void va_start( va_list arg_ptr, prev_param ); type va_arg( va_list arg_ptr, type ); void va_end( va_list arg_ptr ); va在這裡是variable-argument(可變參數)的意思. 這些宏定義在stdarg.h中,是以用到可變參數的程式應該包含這個頭檔案. ⑵函數裡首先定義一個va_list型的變量,這裡是arg_ptr,這個變量是存儲參數位址的指針.因為得到參數的位址之後,再結合參數的類型,才能得到參數的值。 ⑶然後用va_start宏初始化⑵中定義的變量arg_ptr,這個宏的第二個參數是可變參數清單的前一個參數,即最後一個固定參數. ⑷然後依次用va_arg宏使arg_ptr傳回可變參數的位址,得到這個位址之後,結合參數的類型,就可以得到參數的值。 ⑸設定結束條件,這裡的條件就是判斷參數值是否為-1。注意被調的函數在調用時是不知道可變參數的正确數目的,程式員必須自己在代碼中指明結束條件。至于為什麼它不會知道參數的數目,讀者在看完這幾個宏的内部實作機制後,自然就會明白。 (二)可變參數在編譯器中的處理 我們知道va_start,va_arg,va_end是在stdarg.h中被定義成宏的, 由于1)硬體平台的不同 2)編譯器的不同,是以定義的宏也有所不同,下面看一下VC++6.0中stdarg.h裡的代碼(檔案的路徑為VC安裝目錄下的\vc98\include\stdarg.h) typedef char * va_list; #define _INTSIZEOF(n) ((sizeof(n) + sizeof(int) - 1) & ~(sizeof(int) - 1) ) #define va_start(ap,v) ( ap = (va_list)&v + _INTSIZEOF(v) ) #define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) #define va_end(ap) ( ap = (va_list)0 ) 下面我們解釋這些代碼的含義: 1、首先把va_list被定義成char*,這是因為在我們目前所用的PC機上,字元指針類型可以用來存儲記憶體單元位址。而在有的機器上va_list是被定義成void*的 2、定義_INTSIZEOF(n)主要是為了某些需要記憶體的對齊的系統.這個宏的目的是為了得到最後一個固定參數的實際記憶體大小。在我的機器上直接用sizeof運算符來代替,對程式的運作結構也沒有影響。(後文将看到我自己的實作)。 3、va_start的定義為 &v+_INTSIZEOF(v) ,這裡&v是最後一個固定參數的起始位址,再加上其實際占用大小後,就得到了第一個可變參數的起始記憶體位址。是以我們運作va_start(ap, v)以後,ap指向第一個可變參數在的記憶體位址,有了這個位址,以後的事情就簡單了。 這裡要知道兩個事情: ⑴在intel+windows的機器上,函數棧的方向是向下的,棧頂指針的記憶體位址低于棧底指針,是以先進棧的資料是存放在記憶體的高位址處。 (2)在VC等絕大多數C編譯器中,預設情況下,參數進棧的順序是由右向左的,是以,參數進棧以後的記憶體模型如下圖所示:最後一個固定參數的位址位于第一個可變參數之下,并且是連續存儲的。 |--------------------------| | 最後一個可變參數 | ->高記憶體位址處 |--------------------------| |--------------------------| | 第N個可變參數 | ->va_arg(arg_ptr,int)後arg_ptr所指的地方, | | 即第N個可變參數的位址。 |--------------- | |--------------------------| | 第一個可變參數 | ->va_start(arg_ptr,start)後arg_ptr所指的地方 | | 即第一個可變參數的位址 |--------------- | |------------------------ --| | | | 最後一個固定參數 | -> start的起始位址 |-------------- -| ................. |-------------------------- | | | |--------------- | -> 低記憶體位址處 (4) va_arg():有了va_start的良好基礎,我們取得了第一個可變參數的位址,在va_arg()裡的任務就是根據指定的參數類型取得本參數的值,并且把指針調到下一個參數的起始位址。 是以,現在再來看va_arg()的實作就應該心中有數了: #define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) 這個宏做了兩個事情, ①用使用者輸入的類型名對參數位址進行強制類型轉換,得到使用者所需要的值 ②計算出本參數的實際大小,将指針調到本參數的結尾,也就是下一個參數的首位址,以便後續處理。 (5)va_end宏的解釋:x86平台定義為ap=(char*)0;使ap不再 指向堆棧,而是跟NULL一樣.有些直接定義為((void*)0),這樣編譯器不會為va_end産生代碼,例如gcc在linux的x86平台就是這樣定義的. 在這裡大家要注意一個問題:由于參數的位址用于va_start宏,是以參數不能聲明為寄存器變量或作為函數或數組類型. 關于va_start, va_arg, va_end的描述就是這些了,我們要注意的 是不同的作業系統和硬體平台的定義有些不同,但原理卻是相似的. (三)可變參數在程式設計中要注意的問題 因為va_start, va_arg, va_end等定義成宏,是以它顯得很愚蠢, 可變參數的類型和個數完全在該函數中由程式代碼控制,它并不能智能 地識别不同參數的個數和類型. 有人會問:那麼printf中不是實作了智能識别參數嗎?那是因為函數 printf是從固定參數format字元串來分析出參數的類型,再調用va_arg 的來擷取可變參數的.也就是說,你想實作智能識别可變參數的話是要通過在自己的程式裡作判斷來實作的. 例如,在C的經典教材《the c programming language》的7.3節中就給出了一個printf的可能實作方式,由于篇幅原因這裡不再叙述。 (四)小結: 1、标準C庫的中的三個宏的作用隻是用來确定可變參數清單中每個參數的記憶體位址,編譯器是不知道參數的實際數目的。 2、在實際應用的代碼中,程式員必須自己考慮确定參數數目的辦法,如 ⑴在固定參數中設标志-- printf函數就是用這個辦法。後面也有例子。 ⑵在預先設定一個特殊的結束标記,就是說多輸入一個可變參數,調用時要将最後一個可變參數的值設定成這個特殊的值,在函數體中根據這個值判斷是否達到參數的結尾。本文前面的代碼就是采用這個辦法. 無論采用哪種辦法,程式員都應該在文檔中告訴調用者自己的約定。 3、實作可變參數的要點就是想辦法取得每個參數的位址,取得位址的辦法由以下幾個因素決定: ①函數棧的生長方向 ②參數的入棧順序 ③CPU的對齊方式 ④記憶體位址的表達方式 結合源代碼,我們可以看出va_list的實作是由④決定的,_INTSIZEOF(n)的引入則是由③決定的,他和①②又一起決定了va_start的實作,最後va_end的存在則是良好程式設計風格的展現,将不再使用的指針設為NULL,這樣可以防止以後的誤操作。 4、取得位址後,再結合參數的類型,程式員就可以正确的處理參數了。了解了以上要點,相信稍有經驗的讀者就可以寫出适合于自己機器的實作來。下面就是一個例子 (五)擴充--自己實作簡單的可變參數的函數。 下面是一個簡單的printf函數的實作,參考了<The C Programming Language>中的156頁的例子,讀者可以結合書上的代碼與本文參照。 #include "stdio.h" #include "stdlib.h" void myprintf(char* fmt, ...) //一個簡單的類似于printf的實作,//參數必須都是int 類型 { char* pArg=NULL; //等價于原來的va_list char c; pArg = (char*) &fmt; //注意不要寫成p = fmt !!因為這裡要對//參數取址,而不是取值 pArg += sizeof(fmt); //等價于原來的va_start do { c =*fmt; if (c != ’%’) { putchar(c); //照原樣輸出字元 } else { //按格式字元輸出資料 switch(*++fmt) { case ’d’: printf("%d",*((int*)pArg)); break; case ’x’: printf("%#x",*((int*)pArg)); break; default: break; } pArg += sizeof(int); //等價于原來的va_arg } ++fmt; }while (*fmt != ’\0’); pArg = NULL; //等價于va_end return; } int main(int argc, char* argv[]) { int i = 1234; int j = 5678; myprintf("the first test:i=%d\n",i,j); myprintf("the secend test:i=%d; %x;j=%d;\n",i,0xabcd,j); system("pause"); return 0; } 在intel+win2k+vc6的機器執行結果如下: the first test:i=1234 the secend test:i=1234; 0xabcd;j=5678; |