HTTP請求
1.首先需要了解一下http請求,當使用者在位址欄中輸入網址,發送網絡請求的過程是什麼?
可以參考我之前學習的時候轉載的一篇文章一次完整的HTTP事務過程–超詳細
2.還需要了解一下http的請求方式
有興趣的同學可以去查一下http的八種請求方法,這裡呢主要說下get請求和post請求,這兩種在以後學習中會用到的比較多。
get請求:GET方法用于使用給定的URI從給定伺服器中檢索資訊,即從指定資源中請求資料。我們輸入網址通路網站一般就是get請求。[做運維的小年輕]使用GET方法的請求應該隻是檢索資料,并且不應對資料産生其他影響。
優點:比較便捷
缺點:由于是明文傳輸,是以安全性比較低,另外參數長度有限制。
post請求:POST請求通常是使用來送出HTML的表單,表單中的資料傳輸到伺服器,由伺服器對這些資料處理。我們平常執行登入操作的那一下基本上都是post請求。
關于get請求和post請求差別優缺點這裡推薦一篇博文:http GET 和 POST 請求的優缺點、差別以及誤區
下面說一下Headers中的Request Headers(請求頭資訊),
Accept:指定用戶端能夠接收的内容類型,圖中text/html表示要請求傳回文本格式的資料
Accept-Encoding:指定浏覽器可以支援的web伺服器傳回内容壓縮編碼類型,圖中gzip表示支援gzip格式的壓縮檔案
Accept-Language:浏覽器可接受的語言 圖中 zh-CN表示接受中文
Connection:表示是否需要持久連接配接。(HTTP 1.1預設進行持久連接配接)圖中keep-alive意為保持長連結
Cookie:是伺服器發送到浏覽器并儲存在本地的一小塊資料,存儲在header中,它會在浏覽器下次向同一伺服器再發起請求時被攜帶并發送到伺服器上,通常,它用于告知服務端兩個請求是否來自同一浏覽器,如保持使用者的登入狀态。
Host:指定請求的伺服器的域名和端口号,圖中是www.baidu.com也就是我在位址欄中請求的網址
User-Agent:包含的是送出請求的使用者資訊,客戶機的軟體環境浏覽器類型等
Response Header 和Request Headers對應,如下圖
了解完這些呢,就來看下爬蟲吧
關于爬蟲
爬蟲通俗來說,就是使用代碼模拟使用者,批量發送網絡請求,批量的擷取資料
爬蟲的的分類
1.通用爬蟲:搜尋引擎的爬蟲
優勢:開放性很好,速度比較快
劣勢:目标不明确,舉個例子哈,例如我在百度搜尋圖檔,搜尋結果如下圖,我想要的是圖檔,但是看下圖紅色方框所圈的内容并不是我們所要找的圖檔資源,這就是我所說[做運維的小年輕]的目标不明确,導緻的結果呢就是傳回的很多内容并不是使用者所需要的。
2.聚焦爬蟲:全稱聚焦網絡爬蟲,又稱為主題網絡爬蟲
優點:目标明确,對使用者的需求非常精準,傳回内容很固定,比如我就請求一張圖檔,那麼就傳回一張圖檔。
關于爬蟲的分類其實在以後越來越深入的學習中,會自然而然的了解,現在隻需有個大概了解就行了關于網絡爬蟲分類日百度百科中講的比較詳細,點選傳送門去了解。