天天看點

#Python新征程4# 網頁開發者工具2—代碼404的意義

作者:梁園燕栖

一個網頁就是一篇代碼、各種超連結、圖檔和文字的組合。而載入網頁的過程,就是運作代碼和超連結,顯示圖檔和文字的過程。根據代碼的先後順序,不同的元素群組件依次顯示出來,并耗費一定的時間。隻不過在網絡速度很好的情況下,這種毫秒級别度量的加載過程我們是無法分辨先後順序的。但是在開發者工具的監控記錄之下,network子產品中詳細的記錄了打開一個網頁的每一個加載步驟、加載檔案的大小和所耗費的時間,并且根據回報結果我們可以根據狀态碼确定網頁狀态。這個狀态碼,以前經常在打開網頁的時候出現,不知道什麼意思,沒想到今天在學習的過程中,竟然以一種如此流暢的方式讓我茅塞頓開:

#Python新征程4# 網頁開發者工具2—代碼404的意義

代碼200:請求執行成功,同時傳回資料;

代碼404:請求失敗,網頁不存在;

代碼503:請求失敗,連接配接伺服器逾時;

代碼204:請求執行成功,但不傳回資料;

代碼304:請求成功,用戶端有緩存。

以往,見到404的機會會很多,503偶爾會看到,200、204、304就非常不常見,亦或許是經常出現,但是我從未打開過開發者模式,也不知道在狀态欄中可以看到這些狀态的回報。當然在這5個代碼中,“用戶端有緩存”這幾個字,依靠我目前掌握的知識,我還是無法了解。

#Python新征程4# 網頁開發者工具2—代碼404的意義

在network菜單裡面加載網頁,網絡比較慢的情況下,我看到了整個網頁的加載過程。當然可能由于我所處的網絡環境問題,我加載今日頭條的首頁竟然需要花費13.6秒的時間,而同樣的網頁,在教材中講解的時候幾乎是瞬間添加完畢。

在preview預覽 和response 響應結果兩個闆塊中,整個網絡頁面被分解成了不同的元素。建立網頁是個正向的過程,但是通過這兩個闆塊,實作了逆向的分解。一個完整的網絡被分解為代碼、圖檔、文檔,整個網站在我的面前和之前完全不同了:之前是一個有機的整體,覺得資訊是我更加關注的内容;現在除了資訊之外,我還可以關注他們是怎麼樣被組合在一起的。這就是知其然,知其是以然吧。

#Python新征程4# 網頁開發者工具2—代碼404的意義

在這裡,我學到了第一個爬蟲挖掘資料的方法,追蹤XHR資源類型的資源響應。XHR資源檔案HTTP請求傳回的為JSON資料對象,這個可能成為爬蟲的目标,在Headers請求頭視窗中找到檔案所在的URL後,資料可以直接爬取到本地。

當我針對今日頭條中的XHR資源檔案的傳回資料進行爬蟲的時候,今日頭條很強硬的回報給我了一個404 page not found,看來今日頭條已經将這個爬蟲路線給封堵或者就是我的爬蟲方法不對。

不過還是很開心,終于開始進入了python挖掘資料的第一步。

#加油,girl.

#一點一滴的努力,未來都會有回報。

#歲月靜好,不去羨慕旁人,隻做好自己,花朵總會綻放。

#以上學習感悟來自于《網絡爬蟲進化論:從Excel爬蟲到Python爬蟲》(中國水利水電出版社2021年出版)第二章。