天天看點

詳細解說STL string

前言: string 的角色 C++ 語言是個十分優秀的語言,但優秀并不表示完美。還是有許多人不願意使用C或者C++,為什麼?原因衆多,其中之一就是C/C++的文本處理功能太麻煩,用起來很不友善。以前沒有接觸過其他語言時,每當别人這麼說,我總是不屑一顧,認為他們根本就沒有領會C++的精華,或者不太懂C++,現在我接觸perl, php, 和Shell腳本以後,開始了解了以前為什麼有人說C++文本處理不友善了。

舉例來說,如果文本格式是:使用者名 電話号碼,檔案名name.txt

Tom 23245332
Jenny 22231231
Heny 22183942
Tom 23245332
...      

現在我們需要對使用者名排序,且隻輸出不同的姓名。

那麼在shell 程式設計中,可以這樣用:

awk'{print $1}' name.txt | sort | uniq      

簡單吧?

如果使用C/C++ 就麻煩了,他需要做以下工作:

  1. 先打開檔案,檢測檔案是否打開,如果失敗,則退出。
  2. 聲明一個足夠大得二維字元數組或者一個字元指針數組
  3. 讀入一行到字元空間
  4. 然後分析一行的結構,找到空格,存入字元數組中。
  5. 關閉檔案
  6. 寫一個排序函數,或者使用寫一個比較函數,使用qsort排序
  7. 周遊數組,比較是否有相同的,如果有,則要删除,copy...
  8. 輸出資訊

你可以用C++或者C語言去實作這個流程。如果一個人的主要工作就是處理這種類似的文本(例如做apache的日志統計和分析),你說他會喜歡C/C++麼?

當然,有了STL,這些處理會得到很大的簡化。我們可以使用 fstream來代替麻煩的fopen fread fclose, 用vector 來代替數組。最重要的是用string來代替char * 數組,使用sort排序算法來排序,用unique 函數來去重。聽起來好像很不錯<img title="smile" alt="smile" src="http://stlchina.org/twiki/pub/TWiki/SmiliesPlugin/smile.gif" "="" border="0" style="margin: 0px auto; padding: 0px; border: none;">。看看下面代碼(例程1):

#include<string>#include<iostream>#include<algorithm>#include<vector>#include<fstream>usingnamespacestd;intmain(){
        ifstream in("name.txt");
        string strtmp;
        vector<string> vect;while(getline(in, strtmp, '\n'))
        vect.push_back(strtmp.substr(0, strtmp.find(' ')));
        sort(vect.begin(), vect.end());
        vector<string>::iterator it=unique(vect.begin(), vect.end());
        copy(vect.begin(), it, ostream_iterator<string>(cout, "\n"));return0;
}      

也還不錯吧,至少會比想象得要簡單得多!(代碼裡面沒有對錯誤進行處理,隻是為了說明問題,不要效仿).

當然,在這個文本格式中,不用vector而使用map會更有擴充性,例如,還可通過人名找電話号碼等等,但是使用了map就不那麼好用sort了。你可以用map試一試。

這裡string的作用不隻是可以存儲字元串,還可以提供字元串的比較,查找等。在sort和unique函數中就預設使用了less和equal_to函數, 上面的一段代碼,其實使用了string的以下功能:

  1. 存儲功能,在getline() 函數中
  2. 查找功能,在find() 函數中
  3. 子串功能,在substr() 函數中
  4. string operator < , 預設在sort() 函數中調用
  5. string operator == , 預設在unique() 函數中調用

總之,有了string 後,C++的字元文本處理功能總算得到了一定補充,加上配合STL其他容器使用,其在文本處理上的功能已經與perl, shell, php的距離縮小很多了。 是以掌握string 會讓你的工作事半功倍。

1 string 使用

其實,string并不是一個單獨的容器,隻是basic_string 模闆類的一個typedef 而已,相對應的還有wstring, 你在string 頭檔案中你會發現下面的代碼:

extern"C++" {typedefbasic_string <char> string;typedefbasic_string <wchar_t> wstring;
}// extern "C++"      

由于隻是解釋string的用法,如果沒有特殊的說明,本文并不區分string 和 basic_string的差別。

string 其實相當于一個儲存字元的序列容器,是以除了有字元串的一些常用操作以外,還有包含了所有的序列容器的操作。字元串的常用操作包括:增加、删除、修改、查找比較、連結、輸入、輸出等。詳細函數清單參看附錄。不要害怕這麼多函數,其實有許多是序列容器帶有的,平時不一定用的上。

如果你要想了解所有函數的詳細用法,你需要檢視basic_string,或者下載下傳STL程式設計手冊。這裡通過執行個體介紹一些常用函數。

1.1 充分使用string 操作符

string 重載了許多操作符,包括 +, +=, <,

=,

, [], <<, >>等,正式這些操作符,對字元串操作非常友善。先看看下面這個例子:tt.cpp(例程2)

#include<string>#include<iostream>usingnamespacestd;intmain(){
        string strinfo="Please input your name:";
        cout << strinfo ;
        cin >> strinfo;if( strinfo == "winter" )
        cout << "you are winter!"<<endl;elseif( strinfo != "wende" )
        cout << "you are not wende!"<<endl;elseif( strinfo < "winter")
        cout << "your name should be ahead of winter"<<endl;elsecout << "your name should be after of winter"<<endl;
        strinfo += ", Welcome to China!";
        cout << strinfo<<endl;
        cout <<"Your name is :"<<endl;
        string strtmp = "How are you?" + strinfo;for(inti = 0 ; i < strtmp.size(); i ++)
        cout<<strtmp[i];return0;
}      

下面是程式的輸出

-bash-2.05b$ make tt
c++  -O -pipe -march=pentiumpro  tt.cpp-ott
-bash-2.05b$ ./tt
Please input your name:Hero
you are not wende!
Hero , Welcome to China!
How are you? Hero , Welcome to China!      

有了這些操作符,在STL中仿函數都可以直接使用string作為參數,例如 less, great, equal_to 等,是以在把string作為參數傳遞的時候,它的使用和int 或者float等已經沒有什麼差別了。例如,你可以使用:

map<string,int> mymap;//以上預設使用了 less<string>      

有了 operator + 以後,你可以直接連加,例如:

string strinfo="Winter";
string strlast="Hello" + strinfo + "!";//你還可以這樣:string strtest="Hello" + strinfo + "Welcome" + "to China" + "!";      

看見其中的特點了嗎?隻要你的等式裡面有一個 string 對象,你就可以一直連續"+",但有一點需要保證的是,在開始的兩項中,必須有一項是 string 對象。其原理很簡單:

  1. 系統遇到"+"号,發現有一項是string 對象。
  2. 系統把另一項轉化為一個臨時 string 對象。
  3. 執行 operator + 操作,傳回新的臨時string 對象。
  4. 如果又發現"+"号,繼續第一步操作。

由于這個等式是由左到右開始檢測執行,如果開始兩項都是const char* ,程式自己并沒有定義兩個const char* 的加法,編譯的時候肯定就有問題了。

有了操作符以後,assign(), append(), compare(), at()等函數,除非有一些特殊的需求時,一般是用不上。當然at()函數還有一個功能,那就是檢查下标是否合法,如果是使用:

string str="winter";//下面一行有可能會引起程式中斷錯誤str[100]='!';//下面會抛出異常:throws: out_of_rangecout<<str.at(100)<<endl;      

了解了嗎?如果你希望效率高,還是使用[]來通路,如果你希望穩定性好,最好使用at()來通路。

1.2 眼花缭亂的string find 函數

由于查找是使用最為頻繁的功能之一,string 提供了非常豐富的查找函數。其清單如下:

函數名 描述
find 查找
rfind 反向查找
find_first_of 查找包含子串中的任何字元,傳回第一個位置
find_first_not_of 查找不包含子串中的任何字元,傳回第一個位置
find_last_of 查找包含子串中的任何字元,傳回最後一個位置
find_last_not_of 查找不包含子串中的任何字元,傳回最後一個位置

以上函數都是被重載了4次,以下是以find_first_of 函數為例說明他們的參數,其他函數和其參數一樣,也就是說總共有24個函數<img title="smile" alt="smile" src="http://stlchina.org/twiki/pub/TWiki/SmiliesPlugin/smile.gif" "="" border="0" style="margin: 0px auto; padding: 0px; border: none; color: rgb(51, 51, 51); font-family: Verdana, Helvetica, Arial, sans-serif; font-size: 14px; line-height: 25.265625px; white-space: normal; background-color: rgb(255, 255, 255);">:

size_type find_first_of(constbasic_string& s, size_type pos = 0)
size_type find_first_of(constcharT* s, size_type pos, size_type n)
size_type find_first_of(constcharT* s, size_type pos = 0)
size_type find_first_of(charT c, size_type pos = 0)      

所有的查找函數都傳回一個size_type類型,這個傳回值一般都是所找到字元串的位置,如果沒有找到,則傳回string::npos。有一點需要特别注意,所有和string::npos的比較一定要用string::size_type來使用,不要直接使用int 或者unsigned int等類型。其實string::npos表示的是-1, 看看頭檔案:

template<class_CharT,class_Traits,class_Alloc>constbasic_string<_CharT,_Traits,_Alloc>::size_type 
basic_string<_CharT,_Traits,_Alloc>::npos 
= basic_string<_CharT,_Traits,_Alloc>::size_type) -1;      

find 和 rfind 都還比較容易了解,一個是正向比對,一個是逆向比對,後面的參數pos都是用來指定起始查找位置。對于find_first_of 和find_last_of 就不是那麼好了解。

find_first_of 是給定一個要查找的字元集,找到這個字元集中任何一個字元所在字元串中第一個位置。或許看一個例子更容易明白。

有這樣一個需求:過濾一行開頭和結尾的所有非英文字元。看看用string 如何實作:

#include<string>#include<iostream>usingnamespacestd;intmain(){
        string strinfo="//*---Hello Word!......------";
        string strset="ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz";intfirst = strinfo.find_first_of(strset);if(first == string::npos) { 
                cout<<"not find any characters"<<endl;return-1;
        }intlast = strinfo.find_last_of(strset);if(last == string::npos) { 
                cout<<"not find any characters"<<endl;return-1;
        } 
        cout << strinfo.substr(first, last - first + 1)<<endl;return0;
}      

這裡把所有的英文字母大小寫作為了需要查找的字元集,先查找第一個英文字母的位置,然後查找最後一個英文字母的位置,然後用substr 來的到中間的一部分,用于輸出結果。下面就是其結果:

Hello Word      

前面的符号和後面的符号都沒有了。像這種用法可以用來查找分隔符,進而把一個連續的字元串分割成為幾部分,達到 shell 指令中的 awk 的用法。特别是當分隔符有多個的時候,可以一次指定。例如有這樣的需求:

張三|3456123, 湖南
李四,4564234| 湖北
王小二, 4433253|北京
...      

我們需要以 "|" ","為分隔符,同時又要過濾空格,把每行分成相應的字段。可以作為你的一個家庭作業來試試,要求代碼簡潔。

1.3 string insert, replace, erase

了解了string 的操作符,查找函數和substr,其實就已經了解了string的80%的操作了。insert函數, replace函數和erase函數在使用起來相對簡單。下面以一個例子來說明其應用。

string隻是提供了按照位置和區間的replace函數,而不能用一個string字串來替換指定string中的另一個字串。這裡寫一個函數來實作這個功能:

voidstring_replace(string & strBig,conststring & strsrc,conststring &strdst) {
        string::size_type pos=0;
        string::size_type srclen=strsrc.size();
        string::size_type dstlen=strdst.size();while( (pos=strBig.find(strsrc, pos)) != string::npos){
                strBig.replace(pos, srclen, strdst);
                pos += dstlen;
        }
}      

看看如何調用:

#include<string>#include<iostream>usingnamespacestd;intmain() {
        string strinfo="This is Winter, Winter is a programmer. Do you know Winter?";
        cout<<"Orign string is :\n"<<strinfo<<endl;
        string_replace(strinfo, "Winter", "wende");
        cout<<"After replace Winter with wende, the string is :\n"<<strinfo<<endl;return0;
}      

其輸出結果:

Orign string is :
This is Winter, Winter is a programmer. Do you know Winter?
After replace Winter with wende, the string is :
This is wende, wende is a programmer. Do you know wende?      

如果不用replace函數,則可以使用erase和insert來替換,也能實作string_replace函數的功能:

voidstring_replace(string & strBig,conststring & strsrc,conststring &strdst) {
        string::size_type pos=0;
        string::size_type srclen=strsrc.size();
        string::size_type dstlen=strdst.size();while( (pos=strBig.find(strsrc, pos)) != string::npos){
                strBig.erase(pos, srclen);
                strBig.insert(pos, strdst);
                pos += dstlen;
        }
}      

當然,這種方法沒有使用replace來得直接。

2 string 和 C風格字元串

現在看了這麼多例子,發現const char* 可以和string 直接轉換,例如我們在上面的例子中,使用

string_replace(strinfo, "Winter", "wende");      

來代用

voidstring_replace(string & strBig,conststring & strsrc,conststring &strdst)      

在C語言中隻有char* 和 const char*,為了使用起來友善,string提供了三個函數滿足其要求:

constcharT* c_str()constconstcharT* data()constsize_type copy(charT* buf, size_type n, size_type pos = 0)const      

其中:

  1. c_str 直接傳回一個以\0結尾的字元串。
  2. data 直接以數組方式傳回string的内容,其大小為size()的傳回值,結尾并沒有\0字元。
  3. copy 把string的内容拷貝到buf空間中。

你或許會問,c_str()的功能包含data(),那還需要data()函數幹什麼?看看源碼:

constcharT* c_str ()const{if(length () == 0)return""; terminate ();returndata (); }      

原來c_str()的流程是:先調用terminate(),然後在傳回data()。是以如果你對效率要求比較高,而且你的處理又不一定需要以\0的方式結束,你最好選擇data()。但是對于一般的C函數中,需要以const char*為輸入參數,你就要使用c_str()函數。

對于c_str() data()函數,傳回的數組都是由string本身擁有,千萬不可修改其内容。其原因是許多string實作的時候采用了引用機制,也就是說,有可能幾個string使用同一個字元存儲空間。而且你不能使用sizeof(string)來檢視其大小。詳細的解釋和實作檢視Effective STL的條款15:小心string實作的多樣性。

另外在你的程式中,隻在需要時才使用c_str()或者data()得到字元串,每調用一次,下次再使用就會失效,如:

string strinfo("this is Winter");
...//最好的方式是:foo(strinfo.c_str());//也可以這麼用:constchar* pstr=strinfo.c_str();
foo(pstr);//不要再使用了pstr了, 下面的操作已經使pstr無效了。strinfo += "Hello!";
foo(pstr);//錯誤!      

會遇到什麼錯誤?當你幸運的時候pstr可能隻是指向"this is Winter Hello!"的字元串,如果不幸運,就會導緻程式出現其他問題,總會有一些不可遇見的錯誤。總之不會是你預期的那個結果。

3 string 和 Charactor Traits

了解了string的用法,該詳細看看string的真相了。前面提到string 隻是basic_string的一個typedef。看看basic_string 的參數:

template<classcharT,classtraits = char_traits<charT>,classAllocator = allocator<charT> >classbasic_string
{//...}      

char_traits不僅是在basic_string 中有用,在basic_istream 和 basic_ostream中也需要用到。

就像Steve Donovan在過度使用C++模闆中提到的,這些确實有些過頭了,要不是系統自己定義了相關的一些屬性,而且用了個typedef,否則還真不知道如何使用。

但複雜總有複雜道理。有了char_traits,你可以定義自己的字元串類型。當然,有了char_traits < char > 和char_traits < wchar_t > 你的需求使用已經足夠了,為了更好的了解string ,咱們來看看char_traits都有哪些要求。

如果你希望使用你自己定義的字元,你必須定義包含下列成員的結構:

表達式
char_type 字元類型
int_type int 類型
pos_type 位置類型
off_type 表示位置之間距離的類型
state_type 表示狀态的類型
assign(c1,c2) 把字元c2指派給c1
eq(c1,c2) 判斷c1,c2 是否相等
lt(c1,c2) 判斷c1是否小于c2
length(str) 判斷str的長度
compare(s1,s2,n) 比較s1和s2的前n個字元
copy(s1,s2, n) 把s2的前n個字元拷貝到s1中
move(s1,s2, n) 把s2中的前n個字元移動到s1中
assign(s,n,c) 把s中的前n個字元指派為c
find(s,n,c) 在s的前n個字元内查找c
eof() 傳回end-of-file
to_int_type(c) 将c轉換成int_type
to_char_type(i) 将i轉換成char_type
not_eof(i) 判斷i是否為EOF
eq_int_type(i1,i2) 判斷i1和i2是否相等

想看看實際的例子,你可以看看sgi STL的char_traits結構源碼.

現在預設的string版本中,并不支援忽略大小寫的比較函數和查找函數,如果你想練練手,你可以試試改寫一個char_traits , 然後生成一個case_string類, 也可以在string 上做繼承,然後派生一個新的類,例如:ext_string,提供一些常用的功能,例如:

  1. 定義分隔符。給定分隔符,把string分為幾個字段。
  2. 提供替換功能。例如,用winter, 替換字元串中的wende
  3. 大小寫處理。例如,忽略大小寫比較,轉換等
  4. ×××轉換。例如把"123"字元串轉換為123數字。

這些都是常用的功能,如果你有興趣可以試試。其實有人已經實作了,看看Extended STL string。如果你想偷懶,下載下傳一個頭檔案就可以用,有了它确實友善了很多。要是有人能提供一個支援正規表達式的string,我會非常樂意用。

4 string 建議

使用string 的友善性就不用再說了,這裡要重點強調的是string的安全性。

  1. string并不是萬能的,如果你在一個大工程中需要頻繁處理字元串,而且有可能是多線程,那麼你一定要慎重(當然,在多線程下你使用任何STL容器都要慎重)。
  2. string的實作和效率并不一定是你想象的那樣,如果你對大量的字元串操作,而且特别關心其效率,那麼你有兩個選擇,首先,你可以看看你使用的STL版本中string實作的源碼;另一選擇是你自己寫一個隻提供你需要的功能的類。
  3. string的c_str()函數是用來得到C語言風格的字元串,其傳回的指針不能修改其空間。而且在下一次使用時重新調用獲得新的指針。
  4. string的data()函數傳回的字元串指針不會以'\0'結束,千萬不可忽視。

5 小結

難怪有人說:

string 使用友善功能強,我們一直用它!

6 附錄

string 函數清單

begin 得到指向字元串開頭的Iterator
end 得到指向字元串結尾的Iterator
rbegin 得到指向反向字元串開頭的Iterator
rend 得到指向反向字元串結尾的Iterator
size 得到字元串的大小
length 和size函數功能相同
max_size 字元串可能的最大大小
capacity 在不重新配置設定記憶體的情況下,字元串可能的大小
empty 判斷是否為空
operator[] 取第幾個元素,相當于數組
c_str 取得C風格的const char* 字元串
data 取得字元串内容位址
operator= 指派操作符
reserve 預留白間
swap 交換函數
insert 插入字元
append 追加字元
push_back
operator+= += 操作符
erase 删除字元串
clear 清空字元容器中所有内容
resize 重新配置設定空間
assign 和指派操作符一樣
replace 替代
copy 字元串到空間
substr 得到字串
compare 比較字元串
operator+ 字元串連結
operator== 判斷是否相等
operator!= 判斷是否不等于
operator< 判斷是否小于
operator>> 從輸入流中讀入字元串
operator<< 字元串寫入輸出流
getline 從輸入流中讀入一行