天天看點

以算法為基礎的排名系統:爬行、索引和排名

作者:文硯有點紅

書中講到:

以算法為基礎的排名系統:爬行、索引和排名

了解爬行、索引和排名原理,對SEO人員很有用處,可以幫助決定該采取什麼行動達到目标。本節主要論及Google、雅虎和微軟搜尋引擎的運作方式,不一定适用于其他搜尋引擎,比如百度(中國)和Naver(南韓)。

以算法為基礎的排名系統:爬行、索引和排名

搜尋引擎有幾個主要目标和功能,包括:

爬行和索引網上可以通路的億萬檔案(網頁和檔案)。

對使用者查詢做出反應, 提供相關結果清單。

本節從非技術角度簡單介紹這些功能,先從搜尋引擎怎樣尋找和發現内容開始。

以算法為基礎的排名系統:爬行、索引和排名

爬行和索引

可以把網際網路想象成一個有很多站的大型城市地鐵系統。每一站相當于一個獨特的檔案(通常是網頁,有時候可以是PDF、JPEG或其他檔案)。搜尋引擎需要采用某種方式來爬過整個城市,找到所有地鐵站,是以他們就使用現成的最佳途徑:網頁之間的連結。

網際網路的連結結構将所有頁面連接配接起來。通過連結,搜尋引擎的自動機器人,又稱為爬行器或蜘蛛,可以接觸到互相連接配接的億萬個檔案。

搜尋引擎找到這些頁面後,下一個工作是分析其中的代碼,然後把頁面上選出來的消息存入大最硬碟陣列以便查詢時調用這些資訊。要存儲能在瞬息間被通路的億萬網頁是個相當龐大的任務,搜尋引擎建造了大量的資料中心來處理這些資料。

雖然從理論上說可以從網上很多不同地方開始,但理想情況是從一些被信任的網站開始爬行。你可以根據網站與最被信任的網站之間的點選距離來評估該網站的信任度。

以算法為基礎的排名系統:爬行、索引和排名