HTTP協定簡介

一、套接字

1、Socket簡介

應用層通過傳輸層進行資料通信時，TCP和UDP會遇到同時為多個應用程式程序提供并發服務的問題。多個TCP連接配接或多個應用程式程序可能需要通過同一個TCP協定端口傳輸資料。為了差別不同的應用程式程序和連接配接，許多計算機作業系統為應用程式與TCP／IP協定互動提供了稱為套接字 (Socket)的接口，區分不同應用程式程序間的網絡通信和連接配接。

生成套接字，主要有3個參數：通信的目的IP位址、使用的傳輸層協定(TCP或UDP)和使用的端口号。Socket原意是“插座”。通過将這3個參數結合起來，與一個“插座”Socket綁定，應用層就可以和傳輸層通過套接字接口，區分來自不同應用程式程序或網絡連接配接的通信，實作資料傳輸的并發服務。

要通過網際網路進行通信，至少需要一對套接字，一個運作于客戶機端，稱之為ClientSocket，另一個運作于伺服器端，稱之為serverSocket。

根據連接配接啟動的方式以及本地套接字要連接配接的目标，套接字之間的連接配接過程可以分為三個步驟：伺服器監聽，用戶端請求，連接配接确認。

伺服器監聽：是伺服器端套接字并不定位具體的用戶端套接字，而是處于等待連接配接的狀态，實時監控網絡狀态。
用戶端請求：是指由用戶端的套接字提出連接配接請求，要連接配接的目标是伺服器端的套接字。為此，用戶端的套接字必須首先描述它要連接配接的伺服器的套接字，指出伺服器端套接字的位址和端口号，然後就向伺服器端套接字提出連接配接請求。
連接配接确認：是指當伺服器端套接字監聽到或者說接收到用戶端套接字的連接配接請求，它就響應用戶端套接字的請求，建立一個新的線程，把伺服器端套接字的描述發給客戶端，一旦用戶端确認了此描述，連接配接就建立好了。而伺服器端套接字繼續處于監聽狀态，繼續接收其他用戶端套接字的連接配接請求。

2、UNIX Domain Socket IPC

socket API原本是為網絡通訊設計的，但後來在socket的架構上發展出一種IPC機制，就是UNIX Domain Socket。雖然網絡socket也可用于同一台主機的程序間通訊（通過loopback位址127.0.0.1），但是UNIX Domain Socket用于IPC更有效率：不需要經過網絡協定棧，不需要打包拆包、計算校驗和、維護序号和應答等，隻是将應用層資料從一個程序拷貝到另一個程序。UNIX域套接字與TCP套接字相比較，在同一台主機的傳輸速度前者是後者的兩倍。這是因為，IPC機制本質上是可靠的通訊，而網絡協定是為不可靠的通訊設計的。UNIX Domain Socket也提供面向流和面向資料包兩種API接口，類似于TCP和UDP，但是面向消息的UNIX Domain Socket也是可靠的，消息既不會丢失也不會順序錯亂。

3、套接字的分類

常用的TCP/IP協定的3種套接字類型如下所示。

流套接字（SOCK_STREAM）：流套接字用于提供面向連接配接、可靠的資料傳輸服務。該服務将保證資料能夠實作無差錯、無重複發送，并按順序接收。流套接字之是以能夠實作可靠的資料服務，原因在于其使用了傳輸控制協定，即TCP（The Transmission Control Protocol）協定。

資料報套接字（SOCK_DGRAM）：資料報套接字提供了一種無連接配接的服務。該服務并不能保證資料傳輸的可靠性，資料有可能在傳輸過程中丢失或出現資料重複，且無法保證順序地接收到資料。資料報套接字使用UDP（User Datagram Protocol）協定進行資料的傳輸。由于資料報套接字不能保證資料傳輸的可靠性，對于有可能出現的資料丢失情況，需要在程式中做相應的處理。

原始套接字（SOCK_RAW）：原始套接字(SOCKET_RAW)允許對較低層次的協定直接通路，比如IP、 ICMP協定，它常用于檢驗新的協定實作，或者通路現有服務中配置的新裝置，因為RAW SOCKET可以自如地控制Windows下的多種協定，能夠對網絡底層的傳輸機制進行控制，是以可以應用原始套接字來操縱網絡層和傳輸層應用。比如，我們可以通過RAW SOCKET來接收發向本機的ICMP、IGMP協定包，或者接收TCP/IP棧不能夠處理的IP包，也可以用來發送一些自定標頭或自定協定的IP包。網絡監聽技術很大程度上依賴于SOCKET_RAW。

原始套接字與标準套接字（标準套接字指的是前面介紹的流套接字和資料報套接字）的差別在于：原始套接字可以讀寫核心沒有處理的IP資料包，而流套接字隻能讀取TCP協定的資料，資料報套接字隻能讀取UDP協定的資料。是以，如果要通路其他協定發送資料必須使用原始套接字。

二、HTTP協定

1、OSI 與TCP/IP 協定

2、什麼是HTTP協定

HTTP是一個屬于應用層的面向對象的協定，由于其簡捷、快速的方式，适用于分布式超媒體資訊系統。它于1990年提出，經過幾年的使用與發展，得到不斷地完善和擴充。目前在WWW中使用的是HTTP/1.0的第六版，HTTP/1.1的規範化工作正在進行之中，而且HTTP-NG(Next Generation of HTTP)的建議已經提出。

3、HTTP協定特點

支援客戶/伺服器模式。
簡單快速：客戶向伺服器請求服務時，隻需傳送請求方法和路徑。請求方法常用的有GET、HEAD、POST。每種方法規定了客戶與伺服器聯系的類型不同。由于HTTP協定簡單，使得HTTP伺服器的程式規模小，因而通信速度很快。
靈活：HTTP允許傳輸任意類型的資料對象。正在傳輸的類型由Content-Type加以标記。
無連接配接：無連接配接的含義是限制每次連接配接隻處理一個請求。伺服器處理完客戶的請求，并收到客戶的應答後，即斷開連接配接。采用這種方式可以節省傳輸時間。
無狀态：HTTP協定是無狀态協定。無狀态是指協定對于事務處理沒有記憶能力。缺少狀态意味着如果後續處理需要前面的資訊，則它必須重傳，這樣可能導緻每次連接配接傳送的資料量增大。另一方面，在伺服器不需要先前資訊時它的應答就較快。

4、HTTP協定之URL

http（超文本傳輸協定）是一個基于請求與響應模式的、無狀态的、應用層的協定，常基于TCP的連接配接方式，HTTP1.1版本中給出一種持續連接配接的機制，絕大多數的Web開發，都是建構在HTTP協定之上的Web應用。

HTTP URL (URL是一種特殊類型的URI，包含了用于查找某個資源的足夠的資訊)的格式如下：

http://host[":"port][something_path]

說明：http表示要通過HTTP協定來定位網絡資源；host表示合法的Internet主機域名或者IP位址；port指定一個端口号，為空則使用預設端口80；something_path指定請求資源的URI；如果URL中沒有給出something_path，那麼當它作為請求URI時，必須以“/”的形式給出，通常這個工作浏覽器自動幫我們完成。

舉例：

輸入：www.example.edu.cn

浏覽器自動轉換成：http://www.example.edu.cn/

http:192.168.0.116:8080/index.jsp

5、HTTP協定之請求篇

http請求由三部分組成，分别是：請求行、請求頭部、請求資料。

5.1、請求行

請求行以一個方法符号開頭，以空格分開，後面跟着請求的URI和協定的版本，格式如下：

  <Method>  <Request-URI>  <HTTP-Version> CRLF

其中 Method表示請求方法；Request-URI是一個統一資源辨別符；HTTP-Version表示請求的HTTP協定版本；CRLF表示回車和換行（除了作為結尾的CRLF外，不允許出現單獨的CR或LF字元）。

請求方法（所有方法全為大寫）有多種，各個方法的解釋如下：

GET 請求擷取Request-URI所辨別的資源。

POST 在Request-URI所辨別的資源後附加新的資料。

HEAD 請求擷取由Request-URI所辨別的資源的響應消息報頭。

PUT 請求伺服器存儲一個資源，并用Request-URI作為其辨別。

DELETE 請求伺服器删除Request-URI所辨別的資源。

TRACE 請求伺服器回送收到的請求資訊，主要用于測試或診斷。

CONNECT 保留将來使用。

OPTIONS 請求查詢伺服器的性能，或者查詢與資源相關的選項和需求。

資源名稱：URI （Uniform Resource Idnentifier）

URL ：描述一個特定伺服器上某資源的特定位置，可以是相對路徑，也可以絕對路徑

例如：http://www.example.com/download/index.html 可分為三部分：

scheme(方案)：http://

伺服器：www.example.com

特定伺服器上的資源：/download/index.html

5.2、請求頭部

Client-IP：用戶端IP 。
Referer: 指明了請求目前資源原始資源的URL。
Host（發送請求時，該報頭域是必需的）：請求報頭域主要用于指定被請求資源的Internet主機和端口号，它通常從HTTP URL中提取出來的。
User-Agent：我們上網登陸論壇的時候，往往會看到一些歡迎資訊，其中列出了你的作業系統的名稱和版本，你所使用的浏覽器的名稱和版本，這往往讓很多人感到很神奇，實際上，伺服器應用程式就是從User-Agent這個請求報頭域中擷取到這些資訊。User-Agent請求報頭域允許用戶端将它的作業系統、浏覽器和其它屬性告訴伺服器。不過，這個報頭域不是必需的，如果我們自己編寫一個浏覽器，不使用User-Agent請求報頭域，那麼伺服器端就無法得知我們的資訊了。
Accept式首部：
Accept：請求報頭域用于指定用戶端接受哪些類型的資訊。
Accept-Charset：請求報頭域用于指定用戶端接受的字元集。
Accept-Encoding：請求報頭域類似于Accept，但是它是用于指定可接受的内容編碼。
Accept-Language：請求報頭域類似于Accept，但是它是用于指定一種自然語言。
條件式請求：
Expect:：告訴伺服器能夠發送哪些媒體類型 。
If-Modified-Since： 是否在指定時間内修改過此資源 。
If-None-Match：如果提供的實體标記與目前文檔的實體标記不符，就擷取此文檔 。
跟安全相關請求：
Authorization：請求報頭域主要用于證明用戶端有權檢視某個資源。當浏覽器通路一個頁面時，如果收到伺服器的響應代碼為401（未授權），可以發送一個包含Authorization請求報頭域的請求，要求伺服器對其進行驗證。
Cookie: 用戶端發送給伺服器身份辨別。

5.3、實體

實體内包含用戶端請求伺服器的資料。

6、HTTP協定之響應篇

在接收和解釋請求消息後，伺服器傳回一個HTTP響應消息。 HTTP響應也是由三個部分組成，分别是：狀态行、消息頭部、響應資料。

6.1、狀态行格式如下：

<HTTP-Version> <Status-Code> <Reason-Phrase> CRLF

其中，HTTP-Version表示伺服器HTTP協定的版本；Status-Code表示伺服器發回的響應狀态代碼；Reason-Phrase表示狀态代碼的文本描述。

6.2、狀态碼

狀态代碼有三位數字組成，第一個數字定義了響應的類别，且有五種可能取值：

1xx：訓示資訊--表示請求已接收，繼續處理。      
2xx：成功--表示請求已被成功接收、了解、接受。
        200：OK，用戶端請求成功 。
        201：CREATED，請求已被實作。
3xx：重定向--要完成請求必須進行更進一步的操作。
         301: Moved Permanently, 永久重定向 。
         302: Found, 臨時重定向，會在響應封包中使用“Location: 新位置” 。
         304: Not Modified，條件式請求中使用。
4xx：用戶端錯誤--請求有文法錯誤或請求無法實作。
        403：Forbidden，請求被伺服器拒絕 。
        404: Not Found，伺服器無法找到請求的URL 。
        405: Method Not Allowed，不允許使用此方法請求相應的URL。
5xx：伺服器端錯誤--伺服器未能實作合法的請求。
        500：Internal Server Error, 伺服器内部錯誤 。
        502：Bad Gateway, 代理伺服器從上遊伺服器收到一條僞響應 。
        503：Service Unavailable, 服務暫時不可用 。
        505：HTTP Version Not Supported，伺服器不支援。

6.3、響應頭部

Age：響應持續時間 。
Server： 響應報頭域包含了伺服器用來處理請求的軟體資訊。與User-Agent請求報頭域是相對應的。
協商首部：
Vary： 首部清單，伺服器會根據清單中的内容挑一個最适用的版本發送給用戶端 。
Accept-Ranges: 對目前資源來講，伺服器所能夠接受的範圍類型 。
跟安全相關：
WWW-Authentication：響應報頭域必須被包含在401（未授權的）響應消息中，用戶端收到401響應消息時候，并發送Authorization報頭域請求伺服器對其進行驗證時，服務端響應報頭就包含該報頭域。
Set-Cookie：伺服器端在某用戶端第一次請求時發送令牌。

6.4、響應正文就是伺服器傳回的資源的内容。

7、HTTP協定之HTTP首部

HTTP消息由用戶端到伺服器的請求和伺服器到用戶端的響應組成。請求消息和響應消息都是由開始行（對于請求消息，開始行就是請求行，對于響應消息，開始行就是狀态行），消息報頭（可選），空行（隻有CRLF的行），消息正文（可選）組成。

HTTP消息報頭包括普通報頭、請求報頭、響應報頭、實體報頭、擴充首部。每一個報頭域都是由名字+“：”+空格+值組成，消息報頭域的名字是大小寫無關的。

通用首部：在普通報頭中，有少數報頭域用于所有的請求和響應消息，但并不用于被傳輸的實體，隻用于傳輸的消息。

請求首部：請求報頭允許用戶端向伺服器端傳遞請求的附加資訊以及用戶端自身的資訊。

響應首部：允許伺服器傳遞不能放在狀态行中的附加響應資訊，以及關于伺服器的資訊和對Request-URI所辨別的資源進行下一步通路的資訊。

實體首部：請求和響應消息都可以傳送一個實體。一個實體由實體報頭域和實體正文組成，但并不是說實體報頭域和實體正文要在一起發送，可以隻發送實體報頭域。實體報頭定義了關于實體正文（eg：有無實體正文）和請求所辨別的資源的元資訊。

擴充首部：非标準首部，可由程式開發者建立的。

7.1、通用首部：

Connection: 定義C/S之間關于請求、響應的有關選項 。
Connection: keep-alive
Cache-Control: 緩存控制
Via: 顯示了封包經過的中間節點
Date：普通報頭域表示消息産生的日期和時間
Cache-Control ：用于指定緩存指令，緩存指令是單向的（響應中出現的緩存指令在請求中未必會出現），且是獨立的（一個消息的緩存指令不會影響另一個消息處理的緩存機制），HTTP1.0使用的類似的報頭域為Pragma。
請求時的緩存指令包括：no-cache（用于訓示請求或響應消息不能緩存）、no-store、max-age、max-stale、min-fresh、only-if-cached;
響應時的緩存指令包括：public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age、s-maxage.

7.2、實體首部：

Location： 資源的新位置
Allow：允許對此資源使用的請求方法
内容相關的首部：
Content-Encoding: 實體報頭域被用作媒體類型的修飾符，它的值訓示了已經被應用到實體正文的附加内容的編碼，因而要獲得Content-Type報頭域中所引用的媒體類型，必須采用相應的解碼機制。
Content-Language：實體報頭域描述了資源所用的自然語言。沒有設定該域則認為實體内容将提供給所有的語言閱讀者。
Content-Length：實體報頭域用于指明實體正文的長度，以位元組方式存儲的十進制數字來表示。
Content-Location：資源所在位置
Content-Type：實體報頭域用語指明發送給接收者的實體正文的媒體類型。
Content-Range：在整個資源中此實體表示的位元組範圍
緩存相關：
ETag：實體标簽
Expires：實體報頭域給出響應過期的日期和時間。為了讓代理伺服器或浏覽器在一段時間以後更新緩存中(再次通路曾通路過的頁面時，直接從緩存中加載，縮短響應時間和降低伺服器負載)的頁面，我們可以使用Expires實體報頭域指定頁面過期的時間。
Last-Modified： 實體報頭域用于訓示資源的最後修改日期和時間。

8、曆史版本

0.9　已過時。隻接受 GET 一種請求方法，沒有在通訊中指定版本号，且不支援請求頭。由于該版本不支援 POST 方法，是以用戶端無法向伺服器傳遞太多資訊。

HTTP/1.0　這是第一個在通訊中指定版本号的HTTP 協定版本，至今仍被廣泛采用，特别是在代理伺服器中。

HTTP/1.1　目前版本。持久連接配接被預設采用，并能很好地配合代理伺服器工作。還支援以管道方式同時發送多個請求，以便降低線路負載，提高傳輸速度。

HTTP/1.1相較于 HTTP/1.0 協定的差別主要展現在：

緩存處理
帶寬優化及網絡連接配接的使用
錯誤通知的管理
消息在網絡中的發送
網際網路位址的維護
安全性及完整性

9、使用telnet進行http請求

[[email protected] ~]# telnet 192.168.1.8 80
Trying 192.168.1.8...
Connected to 192.168.1.8.
Escape character is '^]'.
GET /index.html http/1.1
Host: 192.168.1.8

HTTP/1.1 200 OK
Date: Sun, 02 Aug 2015 08:40:05 GMT
Server: Apache/2.2.15 (CentOS)
Last-Modified: Sun, 02 Aug 2015 08:37:05 GMT
ETag: "22ec0-19-51c4ff52fa1f8"
Accept-Ranges: bytes
Content-Length: 25
Connection: close
Content-Type: text/html; charset=UTF-8

<h1>www.example.com</h1>
Connection closed by foreign host.

三、資源請求過程

一次Web資源請求的具體過程（伺服器的角度）：

建立連接配接
接收請求
處理請求
通路資源
建構響應
發送響應
記錄日志

由于HTTP協定的請求是無狀态的連接配接，故為了提升性能可以使用下面兩種方法：并行連接配接、持久連接配接。然而兩種提升性能的方法都有其優缺點，下面關于兩種方法進行比較。

并行連接配接缺點：

每個連接配接，TCP得在用戶端和服務端配置設定TCP緩沖區，并維持TCP變量。對于同時為來自數百個不同客戶的請求提供服務的web伺服器來說，這會嚴重增加其負擔。
每個對象都有2個RTT的延遲。
每個對象都遭受TCP緩啟動，因為每個TCP連接配接都起始于緩啟動階段。

持久連接配接缺點：

不帶流水線(with pipelining)：客戶隻在收到前一個請求的響應後，才發出新的請求。

與非持久連接配接2個RTT的延遲相比，不帶流水線的持久連接配接已有所改善。

帶流水線(with pipelining)：HTTP客戶沒碰到一個引用就立即發送一個請求，即HTTP客戶可以一個接一個挨着發送各個引用對象的請求。伺服器收到這些請求後，也可以一個接一個的發送各個對象的響應。

帶流水線，所有引用到的對象一共隻經曆1個RTT的延時，而不帶流水線，每個引用到的對象各有1個RTT的延遲。

帶流水線的持久連接配接中伺服器空等請求的時間較少。

四、HTTP協定相關技術補充

1、基礎：

高層協定有：檔案傳輸協定FTP、電子郵件傳輸協定SMTP、域名系統服務DNS、網絡新聞傳輸協定NNTP和HTTP協定等

中介由三種：代理(Proxy)、網關(Gateway)和通道(Tunnel)，一個代理根據URI的絕對格式來接受請求，重寫全部或部分消息，通過 URI的辨別把已格式化過的請求發送到伺服器。網關是一個接收代理，作為一些其它伺服器的上層，并且如果必須的話，可以把請求翻譯給下層的伺服器協定。一個通道作為不改變消息的兩個連接配接之間的中繼點。當通訊需要通過一個中介(例如：防火牆等)或者是中介不能識别消息的内容時，通道經常被使用。

代理(Proxy)：一個中間程式，它可以充當一個伺服器，也可以充當一個客戶機，為其它客戶機建立請求。請求是通過可能的翻譯在内部或經過傳遞到其它的伺服器中。一個代理在發送請求資訊之前，必須解釋并且如果可能重寫它。代理經常作為通過防火牆的客戶機端的門戶，代理還可以作為一個幫助應用來通過協定處理沒有被使用者代理完成的請求。

網關(Gateway)：一個作為其它伺服器中間媒介的伺服器。與代理不同的是，網關接受請求就好象對被請求的資源來說它就是源伺服器；送出請求的客戶機并沒有意識到它在同網關打交道。

網關經常作為通過防火牆的伺服器端的門戶，網關還可以作為一個協定翻譯器以便存取那些存儲在非HTTP系統中的資源。

通道(Tunnel)：是作為兩個連接配接中繼的中介程式。一旦激活，通道便被認為不屬于HTTP通訊，盡管通道可能是被一個HTTP請求初始化的。當被中繼的連接配接兩端關閉時，通道便消失。當一個門戶(Portal)必須存在或中介(Intermediary)不能解釋中繼的通訊時通道被經常使用。

2、協定分析的優勢—HTTP分析器檢測網絡攻擊

以子產品化的方式對高層協定進行分析處理，将是未來入侵檢測的方向。

HTTP及其代理的常用端口80、3128和8080在network部分用port标簽進行了規定

3、HTTP協定Content Lenth限制漏洞導緻拒絕服務攻擊

使用POST方法時，可以設定ContentLenth來定義需要傳送的資料長度，例如ContentLenth:999999999，在傳送完成前，内存不會釋放，攻擊者可以利用這個缺陷，連續向WEB伺服器發送垃圾資料直至WEB伺服器記憶體耗盡。這種攻擊方法基本不會留下痕迹。

http://www.cnpaf.net/Class/HTTP/0532918532667330.html

4、利用HTTP協定的特性進行拒絕服務攻擊的一些構思

伺服器端忙于處理攻擊者僞造的TCP連接配接請求而無暇理睬客戶的正常請求（畢竟用戶端的正常請求比率非常之小），此時從正常客戶的角度看來，伺服器失去響應，這種情況我們稱作：伺服器端受到了SYNFlood攻擊（SYN洪水攻擊）。

而Smurf、TearDrop等是利用ICMP封包來Flood和IP碎片攻擊的。本文用“正常連接配接”的方法來産生拒絕服務攻擊。

19端口在早期已經有人用來做Chargen攻擊了，即Chargen_Denial_of_Service，但是！他們用的方法是在兩台Chargen 伺服器之間産生UDP連接配接，讓伺服器處理過多資訊而DOWN掉，那麼，幹掉一台WEB伺服器的條件就必須有2個：1.有Chargen服務2.有HTTP 服務

方法：攻擊者僞造源IP給N台Chargen發送連接配接請求（Connect），Chargen接收到連接配接後就會傳回每秒72位元組的字元流（實際上根據網絡實際情況，這個速度更快）給伺服器。

5、Http指紋識别技術

Http指紋識别的原理大緻上也是相同的：記錄不同伺服器對Http協定執行中的微小差别進行識别.Http指紋識别比TCP/IP堆棧指紋識别複雜許多,理由是定制Http伺服器的配置檔案、增加插件或元件使得更改Http的響應資訊變的很容易,這樣使得識别變的困難；然而定制TCP/IP堆棧的行為需要對核心層進行修改,是以就容易識别.

要讓伺服器傳回不同的Banner資訊的設定是很簡單的,象Apache這樣的開放源代碼的Http伺服器,使用者可以在源代碼裡修改Banner資訊,然後重起Http服務就生效了；對于沒有公開源代碼的Http伺服器比如微軟的IIS或者是Netscape,可以在存放Banner資訊的Dll檔案中修改,相關的文章有讨論的,這裡不再贅述,當然這樣的修改的效果還是不錯的.另外一種模糊Banner資訊的方法是使用插件。

常用測試請求：

1：HEAD/Http/1.0發送基本的Http請求

2：DELETE/Http/1.0發送那些不被允許的請求,比如Delete請求

3：GET/Http/3.0發送一個非法版本的Http協定請求

4：GET/JUNK/1.0發送一個不正确規格的Http協定請求

Http指紋識别工具Httprint,它通過運用統計學原理,組合模糊的邏輯學技術,能很有效的确定Http伺服器的類型.它可以被用來收集和分析不同Http伺服器産生的簽名。