本文把TCP/IP講絕了！

一、TCP/IP模型

TCP/IP協定模型（Transmission Control Protocol/Internet Protocol），包含了一系列構成網際網路基礎的網絡協定，是Internet的核心協定。

基于TCP/IP的參考模型将協定分成四個層次，它們分别是鍊路層、網絡層、傳輸層和應用層。下圖表示TCP/IP模型與OSI模型各層的對照關系。

TCP/IP協定族按照層次由上到下，層層包裝。最上面的是應用層，這裡面有http，ftp 等等我們熟悉的協定。而第二層則是傳輸層，著名的TCP和UDP協定就在這個層次。第三層是網絡層，IP協定就在這裡，它負責對資料加上IP位址和其他的資料以确定傳輸的目标。第四層是資料鍊路層，這個層次為待傳送的資料加入一個以太網協定頭，并進行CRC編碼，為最後的資料傳輸做準備。

上圖清楚地表示了TCP/IP協定中每個層的作用，而TCP/IP協定通信的過程其實就對應着資料入棧與出棧的過程。入棧的過程，資料發送方每層不斷地封裝首部與尾部，添加一些傳輸的資訊，確定能傳輸到目的地。出棧的過程，資料接收方每層不斷地拆除首部與尾部，得到最終傳輸的資料。

上圖以HTTP協定為例，具體說明。

二、資料鍊路層

實體層負責0、1比特流與實體裝置電壓高低、光的閃滅之間的互換。資料鍊路層負責将0、1序列劃分為資料幀從一個節點傳輸到臨近的另一個節點,這些節點是通過MAC來唯一辨別的(MAC,實體位址，一個主機會有一個MAC位址)。

封裝成幀: 把網絡層資料報加頭和尾，封裝成幀,幀頭中包括源MAC位址和目的MAC位址。
透明傳輸:零比特填充、轉義字元。
可靠傳輸: 在出錯率很低的鍊路上很少用，但是無線鍊路WLAN會保證可靠傳輸。
差錯檢測(CRC):接收者檢測錯誤,如果發現差錯，丢棄該幀。

三、網絡層

1、IP協定

IP協定是TCP/IP協定的核心，所有的TCP，UDP，IMCP，IGMP的資料都以IP資料格式傳輸。要注意的是，IP不是可靠的協定，這是說，IP協定沒有提供一種資料未傳達以後的處理機制，這被認為是上層協定：TCP或UDP要做的事情。

1.1 IP位址

在資料鍊路層中我們一般通過MAC位址來識别不同的節點，而在IP層我們也要有一個類似的位址辨別，這就是IP位址。

32位IP位址分為網絡位和位址位，這樣做可以減少路由器中路由表記錄的數目，有了網絡位址，就可以限定擁有相同網絡位址的終端都在同一個範圍内，那麼路由表隻需要維護一條這個網絡位址的方向，就可以找到相應的這些終端了。

A類IP位址: 0.0.0.0~127.0.0.0

B類IP位址:128.0.0.1~191.255.0.0

C類IP位址:192.168.0.0~239.255.255.0

1.2 IP協定頭

這裡隻介紹:八位的TTL字段。這個字段規定該資料包在穿過多少個路由之後才會被抛棄。某個IP資料包每穿過一個路由器，該資料包的TTL數值就會減少1，當該資料包的TTL成為零，它就會被自動抛棄。

這個字段的最大值也就是255，也就是說一個協定包也就在路由器裡面穿行255次就會被抛棄了，根據系統的不同，這個數字也不一樣，一般是32或者是64。

2、ARP及RARP協定

ARP 是根據IP位址擷取MAC位址的一種協定。

ARP（位址解析）協定是一種解析協定，本來主機是完全不知道這個IP對應的是哪個主機的哪個接口，當主機要發送一個IP包的時候，會首先查一下自己的ARP高速緩存（就是一個IP-MAC位址對應表緩存）。

如果查詢的IP－MAC值對不存在，那麼主機就向網絡發送一個ARP協定廣播包，這個廣播包裡面就有待查詢的IP位址，而直接收到這份廣播的包的所有主機都會查詢自己的IP位址，如果收到廣播包的某一個主機發現自己符合條件，那麼就準備好一個包含自己的MAC位址的ARP包傳送給發送ARP廣播的主機。

而廣播主機拿到ARP包後會更新自己的ARP緩存（就是存放IP-MAC對應表的地方）。發送廣播的主機就會用新的ARP緩存資料準備好資料鍊路層的的資料包發送工作。

RARP協定的工作與此相反，不做贅述。

3、ICMP協定

IP協定并不是一個可靠的協定，它不保證資料被送達，那麼，自然的，保證資料送達的工作應該由其他的子產品來完成。其中一個重要的子產品就是ICMP(網絡控制封包)協定。ICMP不是高層協定，而是IP層的協定。

當傳送IP資料包發生錯誤。比如主機不可達，路由不可達等等，ICMP協定将會把錯誤資訊封包，然後傳送回給主機。給主機一個處理錯誤的機會，這也就是為什麼說建立在IP層以上的協定是可能做到安全的原因。

四、ping

ping可以說是ICMP的最著名的應用，是TCP/IP協定的一部分。利用“ping”指令可以檢查網絡是否連通，可以很好地幫助我們分析和判定網絡故障。

例如：當我們某一個網站上不去的時候。通常會ping一下這個網站。ping會回顯出一些有用的資訊。一般的資訊如下:

ping這個單詞源自聲納定位，而這個程式的作用也确實如此，它利用ICMP協定包來偵測另一個主機是否可達。原理是用類型碼為0的ICMP發請求，受到請求的主機則用類型碼為8的ICMP回應。

五、Traceroute

Traceroute是用來偵測主機到目的主機之間所經路由情況的重要工具，也是最便利的工具。

Traceroute的原理是非常非常的有意思，它收到到目的主機的IP後，首先給目的主機發送一個TTL=1的UDP資料包，而經過的第一個路由器收到這個資料包以後，就自動把TTL減1，而TTL變為0以後，路由器就把這個包給抛棄了，并同時産生一個主機不可達的ICMP資料報給主機。主機收到這個資料報以後再發一個TTL=2的UDP資料報給目的主機，然後刺激第二個路由器給主機發ICMP資料報。如此往複直到到達目的主機。這樣，traceroute就拿到了所有的路由器IP。

六、TCP/UDP

TCP/UDP都是是傳輸層協定，但是兩者具有不同的特性，同時也具有不同的應用場景，下面以圖表的形式對比分析。

面向封包

面向封包的傳輸方式是應用層交給UDP多長的封包，UDP就照樣發送，即一次發送一個封包。是以，應用程式必須選擇合适大小的封包。若封包太長，則IP層需要分片，降低效率。若太短，會是IP太小。

面向位元組流

面向位元組流的話，雖然應用程式和TCP的互動是一次一個資料塊（大小不等），但TCP把應用程式看成是一連串的無結構的位元組流。TCP有一個緩沖，當應用程式傳送的資料塊太長，TCP就可以把它劃分短一些再傳送。

關于擁塞控制，流量控制，是TCP的重點，後面講解。

TCP和UDP協定的一些應用

什麼時候應該使用TCP？

當對網絡通訊品質有要求的時候，比如：整個資料要準确無誤的傳遞給對方，這往往用于一些要求可靠的應用，比如HTTP、HTTPS、FTP等傳輸檔案的協定，POP、SMTP等郵件傳輸的協定。

什麼時候應該使用UDP？

當對網絡通訊品質要求不高的時候，要求網絡通訊速度能盡量的快，這時就可以使用UDP。

七、DNS

DNS（Domain Name System，域名系統），網際網路上作為域名和IP位址互相映射的一個分布式資料庫，能夠使使用者更友善的通路網際網路，而不用去記住能夠被機器直接讀取的IP數串。通過主機名，最終得到該主機名對應的IP位址的過程叫做域名解析（或主機名解析）。DNS協定運作在UDP協定之上，使用端口号53。

八、TCP連接配接的建立與終止

1、三次握手

TCP是面向連接配接的，無論哪一方向另一方發送資料之前，都必須先在雙方之間建立一條連接配接。在TCP/IP協定中，TCP協定提供可靠的連接配接服務，連接配接是通過三次握手進行初始化的。三次握手的目的是同步連接配接雙方的序列号和确認号并交換 TCP視窗大小資訊。

第一次握手：建立連接配接。用戶端發送連接配接請求封包段，将SYN位置為1，Sequence Number為x；然後，用戶端進入SYN_SEND狀态，等待伺服器的确認；

第二次握手：伺服器收到SYN封包段。伺服器收到用戶端的SYN封包段，需要對這個SYN封包段進行确認，設定Acknowledgment Number為x+1(Sequence Number+1)；同時，自己自己還要發送SYN請求資訊，将SYN位置為1，Sequence Number為y；伺服器端将上述所有資訊放到一個封包段（即SYN+ACK封包段）中，一并發送給用戶端，此時伺服器進入SYN_RECV狀态；

第三次握手：用戶端收到伺服器的SYN+ACK封包段。然後将Acknowledgment Number設定為y+1，向伺服器發送ACK封包段，這個封包段發送完畢以後，用戶端和伺服器端都進入ESTABLISHED狀态，完成TCP三向交握。

為什麼要三次握手？

為了防止已失效的連接配接請求封包段突然又傳送到了服務端，因而産生錯誤。

具體例子：“已失效的連接配接請求封包段”的産生在這樣一種情況下：client發出的第一個連接配接請求封包段并沒有丢失，而是在某個網絡結點長時間的滞留了，以緻延誤到連接配接釋放以後的某個時間才到達server。本來這是一個早已失效的封包段。但server收到此失效的連接配接請求封包段後，就誤認為是client再次發出的一個新的連接配接請求。

于是就向client發出确認封包段，同意建立連接配接。假設不采用“三次握手”，那麼隻要server發出确認，新的連接配接就建立了。由于現在client并沒有發出建立連接配接的請求，是以不會理睬server的确認，也不會向server發送資料。但server卻以為新的運輸連接配接已經建立，并一直等待client發來資料。這樣，server的很多資源就白白浪費掉了。采用“三次握手”的辦法可以防止上述現象發生。例如剛才那種情況，client不會向server的确認發出确認。server由于收不到确認，就知道client并沒有要求建立連接配接。”

2、四次揮手

當用戶端和伺服器通過三次握手建立了TCP連接配接以後，當資料傳送完畢，肯定是要斷開TCP連接配接的啊。那對于TCP的斷開連接配接，這裡就有了神秘的“四次分手”。

第一次分手：主機1（可以使用戶端，也可以是伺服器端），設定Sequence Number，向主機2發送一個FIN封包段；此時，主機1進入FIN_WAIT_1狀态；這表示主機1沒有資料要發送給主機2了；

第二次分手：主機2收到了主機1發送的FIN封包段，向主機1回一個ACK封包段，Acknowledgment Number為Sequence Number加1；主機1進入FIN_WAIT_2狀态；主機2告訴主機1，我“同意”你的關閉請求；

第三次分手：主機2向主機1發送FIN封包段，請求關閉連接配接，同時主機2進入LAST_ACK狀态；

第四次分手：主機1收到主機2發送的FIN封包段，向主機2發送ACK封包段，然後主機1進入TIME_WAIT狀态；主機2收到主機1的ACK封包段以後，就關閉連接配接；此時，主機1等待2MSL後依然沒有收到回複，則證明Server端已正常關閉，那好，主機1也可以關閉連接配接了。

為什麼要四次分手？

TCP協定是一種面向連接配接的、可靠的、基于位元組流的運輸層通信協定。TCP是全雙工模式，這就意味着，當主機1發出FIN封包段時，隻是表示主機1已經沒有資料要發送了，主機1告訴主機2，它的資料已經全部發送完畢了；但是，這個時候主機1還是可以接受來自主機2的資料；當主機2傳回ACK封包段時，表示它已經知道主機1沒有資料發送了，但是主機2還是可以發送資料到主機1的；當主機2也發送了FIN封包段時，這個時候就表示主機2也沒有資料要發送了，就會告訴主機1，我也沒有資料要發送了，之後彼此就會愉快的中斷這次TCP連接配接。

為什麼要等待2MSL？

MSL：封包段最大生存時間，它是任何封包段被丢棄前在網絡内的最長時間。原因有二：

保證TCP協定的全雙工連接配接能夠可靠關閉
保證這次連接配接的重複資料段從網絡中消失

第一點：如果主機1直接CLOSED了，那麼由于IP協定的不可靠性或者是其它網絡原因，導緻主機2沒有收到主機1最後回複的ACK。那麼主機2就會在逾時之後繼續發送FIN，此時由于主機1已經CLOSED了，就找不到與重發的FIN對應的連接配接。是以，主機1不是直接進入CLOSED，而是要保持TIME_WAIT，當再次收到FIN的時候，能夠保證對方收到ACK，最後正确的關閉連接配接。

第二點：如果主機1直接CLOSED，然後又再向主機2發起一個新連接配接，我們不能保證這個新連接配接與剛關閉的連接配接的端口号是不同的。也就是說有可能新連接配接和老連接配接的端口号是相同的。一般來說不會發生什麼問題，但是還是有特殊情況出現：假設新連接配接和已經關閉的老連接配接端口号是一樣的，如果前一次連接配接的某些資料仍然滞留在網絡中，這些延遲資料在建立新連接配接之後才到達主機2，由于新連接配接和老連接配接的端口号是一樣的，TCP協定就認為那個延遲的資料是屬于新連接配接的，這樣就和真正的新連接配接的資料包發生混淆了。是以TCP連接配接還要在TIME_WAIT狀态等待2倍MSL，這樣可以保證本次連接配接的所有資料都從網絡中消失。

九、TCP流量控制

如果發送方把資料發送得過快，接收方可能會來不及接收，這就會造成資料的丢失。所謂流量控制就是讓發送方的發送速率不要太快，要讓接收方來得及接收。

利用滑動視窗機制可以很友善地在TCP連接配接上實作對發送方的流量控制。

設A向B發送資料。在連接配接建立時，B告訴了A：“我的接收視窗是 rwnd = 400 ”(這裡的 rwnd 表示 receiver window) 。是以，發送方的發送視窗不能超過接收方給出的接收視窗的數值。請注意，TCP的視窗機關是位元組，不是封包段。假設每一個封包段為100位元組長，而資料封包段序号的初始值設為1。大寫ACK表示首部中的确認位ACK，小寫ack表示确認字段的值ack。

從圖中可以看出，B進行了三次流量控制。第一次把視窗減少到 rwnd = 300 ，第二次又減到了 rwnd = 100 ，最後減到 rwnd = 0 ，即不允許發送方再發送資料了。這種使發送方暫停發送的狀态将持續到主機B重新發出一個新的視窗值為止。B向A發送的三個封包段都設定了 ACK = 1 ，隻有在ACK=1時确認号字段才有意義。

TCP為每一個連接配接設有一個持續計時器(persistence timer)。隻要TCP連接配接的一方收到對方的零視窗通知，就啟動持續計時器。若持續計時器設定的時間到期，就發送一個零視窗控測封包段（攜1位元組的資料），那麼收到這個封包段的一方就重新設定持續計時器。

十、TCP擁塞控制

發送方維持一個擁塞視窗 cwnd ( congestion window )的狀态變量。擁塞視窗的大小取決于網絡的擁塞程度，并且動态地在變化。發送方讓自己的發送視窗等于擁塞視窗。

發送方控制擁塞視窗的原則是：隻要網絡沒有出現擁塞，擁塞視窗就再增大一些，以便把更多的分組發送出去。但隻要網絡出現擁塞，擁塞視窗就減小一些，以減少注入到網絡中的分組數。

慢開始算法：

當主機開始發送資料時，如果立即所大量資料位元組注入到網絡，那麼就有可能引起網絡擁塞，因為現在并不清楚網絡的負荷情況。是以，較好的方法是先探測一下，即由小到大逐漸增大發送視窗，也就是說，由小到大逐漸增大擁塞視窗數值。

通常在剛剛開始發送封包段時，先把擁塞視窗 cwnd 設定為一個最大封包段MSS的數值。而在每收到一個對新的封包段的确認後，把擁塞視窗增加至多一個MSS的數值。用這樣的方法逐漸增大發送方的擁塞視窗 cwnd ，可以使分組注入到網絡的速率更加合理。

每經過一個傳輸輪次，擁塞視窗 cwnd 就加倍。一個傳輸輪次所經曆的時間其實就是往返時間RTT。不過“傳輸輪次”更加強調：把擁塞視窗cwnd所允許發送的封包段都連續發送出去，并收到了對已發送的最後一個位元組的确認。

另，慢開始的“慢”并不是指cwnd的增長速率慢，而是指在TCP開始發送封包段時先設定cwnd=1，使得發送方在開始時隻發送一個封包段（目的是試探一下網絡的擁塞情況），然後再逐漸增大cwnd。

為了防止擁塞視窗cwnd增長過大引起網絡擁塞，還需要設定一個慢開始門限ssthresh狀态變量。慢開始門限ssthresh的用法如下：

當 cwnd < ssthresh 時，使用上述的慢開始算法。
當 cwnd > ssthresh 時，停止使用慢開始算法而改用擁塞避免算法。
當 cwnd = ssthresh 時，既可使用慢開始算法，也可使用擁塞控制避免算法。擁塞避免

擁塞避免

讓擁塞視窗cwnd緩慢地增大，即每經過一個往返時間RTT就把發送方的擁塞視窗cwnd加1，而不是加倍。這樣擁塞視窗cwnd按線性規律緩慢增長，比慢開始算法的擁塞視窗增長速率緩慢得多。

無論在慢開始階段還是在擁塞避免階段，隻要發送方判斷網絡出現擁塞（其根據就是沒有收到确認），就要把慢開始門限ssthresh設定為出現擁塞時的發送方視窗值的一半（但不能小于2）。然後把擁塞視窗cwnd重新設定為1，執行慢開始算法。

這樣做的目的就是要迅速減少主機發送到網絡中的分組數，使得發生擁塞的路由器有足夠時間把隊列中積壓的分組處理完畢。

如下圖，用具體數值說明了上述擁塞控制的過程。現在發送視窗的大小和擁塞視窗一樣大。

2、快重傳和快恢複

快重傳

快重傳算法首先要求接收方每收到一個失序的封包段後就立即發出重複确認（為的是使發送方及早知道有封包段沒有到達對方）而不要等到自己發送資料時才進行捎帶确認。

接收方收到了M1和M2後都分别發出了确認。現在假定接收方沒有收到M3但接着收到了M4。

顯然，接收方不能确認M4，因為M4是收到的失序封包段。根據可靠傳輸原理，接收方可以什麼都不做，也可以在适當時機發送一次對M2的确認。

但按照快重傳算法的規定，接收方應及時發送對M2的重複确認，這樣做可以讓發送方及早知道封包段M3沒有到達接收方。發送方接着發送了M5和M6。接收方收到這兩個封包後，也還要再次發出對M2的重複确認。這樣，發送方共收到了接收方的四個對M2的确認，其中後三個都是重複确認。

快重傳算法還規定，發送方隻要一連收到三個重複确認就應當立即重傳對方尚未收到的封包段M3，而不必繼續等待M3設定的重傳計時器到期。

由于發送方盡早重傳未被确認的封包段，是以采用快重傳後可以使整個網絡吞吐量提高約20%。

快恢複

當發送方連續收到三個重複确認，就執行“乘法減小”算法，把慢開始門限ssthresh減半。
與慢開始不同之處是現在不執行慢開始算法（即擁塞視窗cwnd現在不設定為1），而是把cwnd值設定為慢開始門限ssthresh減半後的數值，然後開始執行擁塞避免算法（“加法增大”），使擁塞視窗緩慢地線性增大。