天天看點

剛才看到一篇文章,感覺不錯,轉載過來和大家分享:

一. read/write的語義:為什麼會阻塞?

先從write說起:

#include <unistd.h>

ssize_t write(int fd, const void *buf, size_t count);

首先,write成功傳回,隻是buf中的資料被複制到了kernel中的TCP發送緩沖區。至于資料什麼時候被發往網絡,什麼時候被對方主機接收,什麼時候被對方程序讀取,系統調用層面不會給予任何保證和通知。

write在什麼情況下會阻塞?當kernel的該socket的發送緩沖區已滿時。對于每個socket,擁有自己的send buffer和receive buffer。從Linux 2.6開始,兩個緩沖區大小都由系統來自動調節(autotuning),但一般在default和max之間浮動。

# 擷取socket的發送/接受緩沖區的大小:(後面的值是在我在Linux 2.6.38 x86_64上測試的結果)

sysctl net.core.wmem_default #126976

sysctl net.core.wmem_max     #131071

sysctl net.core.wmem_max #131071

已經發送到網絡的資料依然需要暫存在send buffer中,隻有收到對方的ack後,kernel才從buffer中清除這一部分資料,為後續發送資料騰出空間。接收端将收到的資料暫存在receive buffer中,自動進行确認。但如果socket所在的程序不及時将資料從receive buffer中取出,最終導緻receive buffer填滿,由于TCP的滑動視窗和擁塞控制,接收端會阻止發送端向其發送資料。這些控制皆發生在TCP/IP棧中,對應用程式是透明的,應用程式繼續發送資料,最終導緻send buffer填滿,write調用阻塞。

一般來說,由于接收端程序從socket讀資料的速度跟不上發送端程序向socket寫資料的速度,最終導緻發送端write調用阻塞。

而read調用的行為相對容易了解,從socket的receive buffer中拷貝資料到應用程式的buffer中。read調用阻塞,通常是發送端的資料沒有到達。

二. blocking(預設)和nonblock模式下read/write行為的差別:

将socket fd設定為nonblock(非阻塞)是在伺服器程式設計中常見的做法,采用blocking IO并為每一個client建立一個線程的模式開銷巨大且可擴充性不佳(帶來大量的切換開銷),更為通用的做法是采用線程池+Nonblock I/O+Multiplexing(select/poll,以及Linux上特有的epoll)。

?

1

2

3

4

5

6

7

8

// 設定一個檔案描述符為nonblock

int set_nonblocking(int fd)

{

int flags;

if ((flags = fcntl(fd, F_GETFL, 0)) == -1)

flags = 0;

return fcntl(fd, F_SETFL, flags | O_NONBLOCK);

}

幾個重要的結論:

1. read總是在接收緩沖區有資料時立即傳回,而不是等到給定的read buffer填滿時傳回。

隻有當receive buffer為空時,blocking模式才會等待,而nonblock模式下會立即傳回-1(errno = EAGAIN或EWOULDBLOCK)

2. blocking的write隻有在緩沖區足以放下整個buffer時才傳回(與blocking read并不相同)

nonblock write則是傳回能夠放下的位元組數,之後調用則傳回-1(errno = EAGAIN或EWOULDBLOCK)

對于blocking的write有個特例:當write正阻塞等待時對面關閉了socket,則write則會立即将剩餘緩沖區填滿并傳回所寫的位元組數,再次調用則write失敗(connection reset by peer),這正是下個小節要提到的:

三. read/write對連接配接異常的回報行為:

對應用程式來說,與另一程序的TCP通信其實是完全異步的過程:

1. 我并不知道對面什麼時候、能否收到我的資料

2. 我不知道什麼時候能夠收到對面的資料

3. 我不知道什麼時候通信結束(主動退出或是異常退出、機器故障、網絡故障等等)

對于1和2,采用write() -> read() -> write() -> read() ->...的序列,通過blocking read或者nonblock read+輪詢的方式,應用程式基于可以保證正确的處理流程。

對于3,kernel将這些事件的“通知”通過read/write的結果傳回給應用層。

假設A機器上的一個程序a正在和B機器上的程序b通信:某一時刻a正阻塞在socket的read調用上(或者在nonblock下輪詢socket)

當b程序終止時,無論應用程式是否顯式關閉了socket(OS會負責在程序結束時關閉所有的檔案描述符,對于socket,則會發送一個FIN包到對面)。

”同步通知“:程序a對已經收到FIN的socket調用read,如果已經讀完了receive buffer的剩餘位元組,則會傳回EOF:0

”異步通知“:如果程序a正阻塞在read調用上(前面已經提到,此時receive buffer一定為空,因為read在receive buffer有内容時就會傳回),則read調用立即傳回EOF,程序a被喚醒。

socket在收到FIN後,雖然調用read會傳回EOF,但程序a依然可以其調用write,因為根據TCP協定,收到對方的FIN包隻意味着對方不會再發送任何消息。 在一個雙方正常關閉的流程中,收到FIN包的一端将剩餘資料發送給對面(通過一次或多次write),然後關閉socket。

但是事情遠遠沒有想象中簡單。優雅地(gracefully)關閉一個TCP連接配接,不僅僅需要雙方的應用程式遵守約定,中間還不能出任何差錯。

假如b程序是異常終止的,發送FIN包是OS代勞的,b程序已經不複存在,當機器再次收到該socket的消息時,會回應RST(因為擁有該socket的程序已經終止)。a程序對收到RST的socket調用write時,作業系統會給a程序發送SIGPIPE,預設處理動作是終止程序,知道你的程序為什麼毫無征兆地死亡了吧:)

from 《Unix Network programming, vol1》 3rd Edition:

"It is okay to write to a socket that has received a FIN, but it is an error to write to a socket that has received an RST."

通過以上的叙述,核心通過socket的read/write将雙方的連接配接異常通知到應用層,雖然很不直覺,似乎也夠用。

這裡說一句題外話:

不知道有沒有同學會和我有一樣的感慨:在寫TCP/IP通信時,似乎沒怎麼考慮連接配接的終止或錯誤,隻是在read/write錯誤傳回時關閉socket,程式似乎也能正常運作,但某些情況下總是會出奇怪的問題。想完美處理各種錯誤,卻發現怎麼也做不對。

原因之一是:socket(或者說TCP/IP棧本身)對錯誤的回報能力是有限的。

考慮這樣的錯誤情況:

不同于b程序退出(此時OS會負責為所有打開的socket發送FIN包),當B機器的OS崩潰(注意不同于人為關機,因為關機時所有程序的退出動作依然能夠得到保證)/主機斷電/網絡不可達時,a程序根本不會收到FIN包作為連接配接終止的提示。

如果a程序阻塞在read上,那麼結果隻能是永遠的等待。

如果a程序先write然後阻塞在read,由于收不到B機器TCP/IP棧的ack,TCP會持續重傳12次(時間跨度大約為9分鐘),然後在阻塞的read調用上傳回錯誤:ETIMEDOUT/EHOSTUNREACH/ENETUNREACH

假如B機器恰好在某個時候恢複和A機器的通路,并收到a某個重傳的pack,因為不能識别是以會傳回一個RST,此時a程序上阻塞的read調用會傳回錯誤ECONNREST

恩,socket對這些錯誤還是有一定的回報能力的,前提是在對面不可達時你依然做了一次write調用,而不是輪詢或是阻塞在read上,那麼總是會在重傳的周期内檢測出錯誤。如果沒有那次write調用,應用層永遠不會收到連接配接錯誤的通知。

write的錯誤最終通過read來通知應用層,有點陰差陽錯?

四. 還需要做什麼?

至此,我們知道了僅僅通過read/write來檢測異常情況是不靠譜的,還需要一些額外的工作:

1. 使用TCP的KEEPALIVE功能?

複制代碼

cat /proc/sys/net/ipv4/tcp_keepalive_time

7200

cat /proc/sys/net/ipv4/tcp_keepalive_intvl

75

cat /proc/sys/net/ipv4/tcp_keepalive_probes

9

以上參數的大緻意思是:keepalive routine每2小時(7200秒)啟動一次,發送第一個probe(探測包),如果在75秒内沒有收到對方應答則重發probe,當連續9個probe沒有被應答時,認為連接配接已斷。(此時read調用應該能夠傳回錯誤,待測試)

但在我印象中keepalive不太好用,預設的時間間隔太長,又是整個TCP/IP棧的全局參數:修改會影響其他程序,Linux的下似乎可以修改per socket的keepalive參數?(希望有使用經驗的人能夠指點一下),但是這些方法不是portable的。

/*peakflys 增加

int keepalive = 1; // 開啟keepalive屬性

int keepidle = 60; // 如該連接配接在60秒内沒有任何資料往來,則進行探測

int keepinterval = 5; // 探測時發包的時間間隔為5 秒

int keepcount = 3; // 探測嘗試的次數.如果第1次探測包就收到響應了,則後2次的不再發.

setsockopt(rs, SOL_SOCKET, SO_KEEPALIVE, (void *)&keepalive , sizeof(keepalive ));

setsockopt(rs, SOL_TCP, TCP_KEEPIDLE, (void*)&keepidle , sizeof(keepidle ));

setsockopt(rs, SOL_TCP, TCP_KEEPINTVL, (void *)&keepinterval , sizeof(keepinterval ));

setsockopt(rs, SOL_TCP, TCP_KEEPCNT, (void *)&keepcount , sizeof(keepcount )); sizeof(keepidle ));

setsockopt(rs, SOL_TCP, TCP_KEEPCNT, (void *)&keepcount , sizeof(keepcount )); *///peakflys 增加(PS:好像這種方法也并不是所有情況都奏效)

2. 進行應用層的心跳

嚴格的網絡程式中,應用層的心跳協定是必不可少的。雖然比TCP自帶的keep alive要麻煩不少(怎樣正确地實作應用層的心跳,我或許會用一篇專門的文章來談一談),但有其最大的優點:可控。

當然,也可以簡單一點,針對連接配接做timeout,關閉一段時間沒有通信的”空閑“連接配接。

原文連結:http://www.cnblogs.com/promise6522/archive/2012/03/03/2377935.html

繼續閱讀