高性能IO模型淺析

伺服器端程式設計經常需要構造高性能的IO模型，常見的IO模型有四種：

（1）同步阻塞IO（Blocking IO）：即傳統的IO模型。

（2）同步非阻塞IO（Non-blocking IO）：預設建立的socket都是阻塞的，非阻塞IO要求socket被設定為NONBLOCK。注意這裡所說的NIO并非Java的NIO（New IO）庫。

（3）IO多路複用（IO Multiplexing）：即經典的Reactor設計模式，有時也稱為異步阻塞IO，Java中的Selector和Linux中的epoll都是這種模型。

（4）異步IO（Asynchronous IO）：即經典的Proactor設計模式，也稱為異步非阻塞IO。

同步和異步的概念描述的是使用者線程與核心的互動方式：同步是指使用者線程發起IO請求後需要等待或者輪詢核心IO操作完成後才能繼續執行；而異步是指使用者線程發起IO請求後仍繼續執行，當核心IO操作完成後會通知使用者線程，或者調用使用者線程注冊的回調函數。

阻塞和非阻塞的概念描述的是使用者線程調用核心IO操作的方式：阻塞是指IO操作需要徹底完成後才傳回到使用者空間；而非阻塞是指IO操作被調用後立即傳回給使用者一個狀态值，無需等到IO操作徹底完成。

另外，Richard Stevens 在《Unix 網絡程式設計》卷1中提到的基于信号驅動的IO（Signal Driven IO）模型，由于該模型并不常用，本文不作涉及。接下來，我們詳細分析四種常見的IO模型的實作原理。為了友善描述，我們統一使用IO的讀操作作為示例。

一、同步阻塞IO

同步阻塞IO模型是最簡單的IO模型，使用者線程在核心進行IO操作時被阻塞。

圖1 同步阻塞IO

如圖1所示，使用者線程通過系統調用read發起IO讀操作，由使用者空間轉到核心空間。核心等到資料包到達後，然後将接收的資料拷貝到使用者空間，完成read操作。

使用者線程使用同步阻塞IO模型的僞代碼描述為：

{

read(socket, buffer);

process(buffer);

}

即使用者需要等待read将socket中的資料讀取到buffer後，才繼續處理接收的資料。整個IO請求的過程中，使用者線程是被阻塞的，這導緻使用者在發起IO請求時，不能做任何事情，對CPU的資源使用率不夠。

二、同步非阻塞IO

同步非阻塞IO是在同步阻塞IO的基礎上，将socket設定為NONBLOCK。這樣做使用者線程可以在發起IO請求後可以立即傳回。

圖2 同步非阻塞IO

如圖2所示，由于socket是非阻塞的方式，是以使用者線程發起IO請求時立即傳回。但并未讀取到任何資料，使用者線程需要不斷地發起IO請求，直到資料到達後，才真正讀取到資料，繼續執行。

使用者線程使用同步非阻塞IO模型的僞代碼描述為：

while(read(socket, buffer) != SUCCESS)

;

即使用者需要不斷地調用read，嘗試讀取socket中的資料，直到讀取成功後，才繼續處理接收的資料。整個IO請求的過程中，雖然使用者線程每次發起IO請求後可以立即傳回，但是為了等到資料，仍需要不斷地輪詢、重複請求，消耗了大量的CPU的資源。一般很少直接使用這種模型，而是在其他IO模型中使用非阻塞IO這一特性。

三、IO多路複用

IO多路複用模型是建立在核心提供的多路分離函數select基礎之上的，使用select函數可以避免同步非阻塞IO模型中輪詢等待的問題。

圖3 多路分離函數select

如圖3所示，使用者首先将需要進行IO操作的socket添加到select中，然後阻塞等待select系統調用傳回。當資料到達時，socket被激活，select函數傳回。使用者線程正式發起read請求，讀取資料并繼續執行。

從流程上來看，使用select函數進行IO請求和同步阻塞模型沒有太大的差別，甚至還多了添加監視socket，以及調用select函數的額外操作，效率更差。但是，使用select以後最大的優勢是使用者可以在一個線程内同時處理多個socket的IO請求。使用者可以注冊多個socket，然後不斷地調用select讀取被激活的socket，即可達到在同一個線程内同時處理多個IO請求的目的。而在同步阻塞模型中，必須通過多線程的方式才能達到這個目的。

使用者線程使用select函數的僞代碼描述為：

select(socket);

while(1) {

sockets = select();

for(socket in sockets) {

if(can_read(socket)) {

其中while循環前将socket添加到select監視中，然後在while内一直調用select擷取被激活的socket，一旦socket可讀，便調用read函數将socket中的資料讀取出來。

然而，使用select函數的優點并不僅限于此。雖然上述方式允許單線程内處理多個IO請求，但是每個IO請求的過程還是阻塞的（在select函數上阻塞），平均時間甚至比同步阻塞IO模型還要長。如果使用者線程隻注冊自己感興趣的socket或者IO請求，然後去做自己的事情，等到資料到來時再進行處理，則可以提高CPU的使用率。

IO多路複用模型使用了Reactor設計模式實作了這一機制。

圖4 Reactor設計模式

如圖4所示，EventHandler抽象類表示IO事件處理器，它擁有IO檔案句柄Handle（通過get_handle擷取），以及對Handle的操作handle_event（讀/寫等）。繼承于EventHandler的子類可以對事件處理器的行為進行定制。Reactor類用于管理EventHandler（注冊、删除等），并使用handle_events實作事件循環，不斷調用同步事件多路分離器（一般是核心）的多路分離函數select，隻要某個檔案句柄被激活（可讀/寫等），select就傳回（阻塞），handle_events就會調用與檔案句柄關聯的事件處理器的handle_event進行相關操作。

圖5 IO多路複用

如圖5所示，通過Reactor的方式，可以将使用者線程輪詢IO操作狀态的工作統一交給handle_events事件循環進行處理。使用者線程注冊事件處理器之後可以繼續執行做其他的工作（異步），而Reactor線程負責調用核心的select函數檢查socket狀态。當有socket被激活時，則通知相應的使用者線程（或執行使用者線程的回調函數），執行handle_event進行資料讀取、處理的工作。由于select函數是阻塞的，是以多路IO複用模型也被稱為異步阻塞IO模型。注意，這裡的所說的阻塞是指select函數執行時線程被阻塞，而不是指socket。一般在使用IO多路複用模型時，socket都是設定為NONBLOCK的，不過這并不會産生影響，因為使用者發起IO請求時，資料已經到達了，使用者線程一定不會被阻塞。

使用者線程使用IO多路複用模型的僞代碼描述為：

void UserEventHandler::handle_event() {

Reactor.register(new UserEventHandler(socket));

使用者需要重寫EventHandler的handle_event函數進行讀取資料、處理資料的工作，使用者線程隻需要将自己的EventHandler注冊到Reactor即可。Reactor中handle_events事件循環的僞代碼大緻如下。

Reactor::handle_events() {

get_event_handler(socket).handle_event();

事件循環不斷地調用select擷取被激活的socket，然後根據擷取socket對應的EventHandler，執行器handle_event函數即可。

IO多路複用是最常使用的IO模型，但是其異步程度還不夠“徹底”，因為它使用了會阻塞線程的select系統調用。是以IO多路複用隻能稱為異步阻塞IO，而非真正的異步IO。

四、異步IO

“真正”的異步IO需要作業系統更強的支援。在IO多路複用模型中，事件循環将檔案句柄的狀态事件通知給使用者線程，由使用者線程自行讀取資料、處理資料。而在異步IO模型中，當使用者線程收到通知時，資料已經被核心讀取完畢，并放在了使用者線程指定的緩沖區内，核心在IO完成後通知使用者線程直接使用即可。

異步IO模型使用了Proactor設計模式實作了這一機制。

圖6 Proactor設計模式

如圖6，Proactor模式和Reactor模式在結構上比較相似，不過在使用者（Client）使用方式上差别較大。Reactor模式中，使用者線程通過向Reactor對象注冊感興趣的事件監聽，然後事件觸發時調用事件處理函數。而Proactor模式中，使用者線程将AsynchronousOperation（讀/寫等）、Proactor以及操作完成時的CompletionHandler注冊到AsynchronousOperationProcessor。AsynchronousOperationProcessor使用Facade模式提供了一組異步操作API（讀/寫等）供使用者使用，當使用者線程調用異步API後，便繼續執行自己的任務。AsynchronousOperationProcessor 會開啟獨立的核心線程執行異步操作，實作真正的異步。當異步IO操作完成時，AsynchronousOperationProcessor将使用者線程與AsynchronousOperation一起注冊的Proactor和CompletionHandler取出，然後将CompletionHandler與IO操作的結果資料一起轉發給Proactor，Proactor負責回調每一個異步操作的事件完成處理函數handle_event。雖然Proactor模式中每個異步操作都可以綁定一個Proactor對象，但是一般在作業系統中，Proactor被實作為Singleton模式，以便于集中化分發操作完成事件。

圖7 異步IO

如圖7所示，異步IO模型中，使用者線程直接使用核心提供的異步IO API發起read請求，且發起後立即傳回，繼續執行使用者線程代碼。不過此時使用者線程已經将調用的AsynchronousOperation和CompletionHandler注冊到核心，然後作業系統開啟獨立的核心線程去處理IO操作。當read請求的資料到達時，由核心負責讀取socket中的資料，并寫入使用者指定的緩沖區中。最後核心将read的資料和使用者線程注冊的CompletionHandler分發給内部Proactor，Proactor将IO完成的資訊通知給使用者線程（一般通過調用使用者線程注冊的完成事件處理函數），完成異步IO。

使用者線程使用異步IO模型的僞代碼描述為：

void UserCompletionHandler::handle_event(buffer) {

aio_read(socket, new UserCompletionHandler);

使用者需要重寫CompletionHandler的handle_event函數進行處理資料的工作，參數buffer表示Proactor已經準備好的資料，使用者線程直接調用核心提供的異步IO API，并将重寫的CompletionHandler注冊即可。

相比于IO多路複用模型，異步IO并不十分常用，不少高性能并發服務程式使用IO多路複用模型+多線程任務處理的架構基本可以滿足需求。況且目前作業系統對異步IO的支援并非特别完善，更多的是采用IO多路複用模型模拟異步IO的方式（IO事件觸發時不直接通知使用者線程，而是将資料讀寫完畢後放到使用者指定的緩沖區中）。Java7之後已經支援了異步IO，感興趣的讀者可以嘗試使用。

高性能IO模型淺析

繼續閱讀

在Windows Mobile 6上通過CEMAPI POOM發送短信

.NET CF C# 位圖的任意角度旋轉

在核心模式驅動程式中調用 DLL

ASSERT與VERIFY宏的差別

WebBrowser獨立IE使用代理

java基礎知識問答集

Havok Physics 翻譯資料（1）Chapter 1.介紹

Facebook官方文檔學習 - 調用接口篇

用Windows Live Writer寫CSDN博

[轉] 擷取實時股票資料與股票資料接口API

RFC SDK 指南用戶端程式的編寫

Java8新的時間API擷取時間內插補點Java8新的時間API擷取時間內插補點與以前的java.util.Date擷取時間內插補點對比

手機軟體抓包工具及其使用方法

推薦一些VB的學習交流網站

GNU科學函數庫[參考手冊][v0.1 Build 090129 Beta][GNU Scientific Library]

與專家面對面：Android開發入門問與答