搜尋引擎原理

剛剛學了一部分的seo，大概對搜尋引擎有了一部分的概念。想起我們從無到有，真的是很不容易。反之如果連搜尋引擎到底是什麼樣子我們都不知道的話，日後怎麼能夠作為我們的工作呢?那麼就由我來為大家大概介紹一下搜尋引擎的原理是什麼。首先需要知道的是搜尋引擎有三大系統:1.資訊收集系統 2.預處理系統 3.查詢服務系統。

第一、資訊收集系統

爬蟲（蜘蛛）老師上課的時候給我們舉得很生動的例子，把資訊抓取系統想象成一隻大蜘蛛，它從各個站點提取網頁内容，然後将内容傳回搜尋引擎資料中心便于我們以後分析。網際網路上就是有無數隻這樣的蜘蛛，網線就是蛛網，網站就是樹枝，它們爬來爬去尋找着想要的美味--網頁内容。蜘蛛擔當了網頁站點内容收集的任務，對于站長來說是非常重要的。蜘蛛是你與搜尋引擎之間的一個使者。蜘蛛經常光顧你的網站，你把你想讓搜尋引擎獲得的東西放在網站上等待蜘蛛來捕捉。一般正常網站蜘蛛的爬行在1-2周左右一次，但是每次爬完之後不會立刻就顯示在搜尋引擎之上，會經過一個加工和處理的等待時間才會展現在搜尋引擎之上。

蜘蛛從網站上帶走了什麼呢?蜘蛛帶走的資訊包括:1.标題 2.網址連結 3.摘要。是以這三個資訊是我們要關注的重點。蜘蛛的喜好就如人一樣，我們都會知道大概什麼地方會有豐盛的晚餐，我們才會先抄那裡去。蜘蛛也是一樣的，一些大型的網站對于蜘蛛有着很強的吸引力，引起蜘蛛對于它們總是樂于奔波的爬來爬去。而對于小站的光臨相對來說就少一些了。是以如果你想得到蜘蛛的重視就需要在大站上發一些通向自己站點的連接配接來“誘惑”蜘蛛上鈎。當蜘蛛知道你這裡有美味的大餐可以吃，就會經常光顧，但是當你總是給它吃那幾個頁面的時候他也會煩。以後光臨的時間将間隔越來越長，是以經常給蜘蛛們換換口味。這就是網站的更新。還有一個很關鍵的重點是：死連結和錯誤連結。也許有人會問:什麼是死連結？什麼是錯誤連結? 為什麼死連結和錯誤連結是一個重點呢? 最近偶爾會看一些比較火的論壇上看到一些文章，其中有一個文章是這麼說的:“從使用者的角度來看，死連結和錯誤連結的表現是一樣的，是以我們并不需要差別死連結和錯誤連結。”之後咨詢過老師，這完全是不負責任的言論。死連結：所謂死就是套住的意思，沒有出路的連結就叫死連結。包括兩點 1.沒有連接配接或連接配接錯誤 2.循環死連結也就是說你的連接配接讓蜘蛛來回爬幾個頁面而不能安全到達全局。錯誤連結:就是死連結的第一種說法。那為什麼還要在這裡強調介紹呢? 蜘蛛爬的順序是從上到下從左到右，如果它剛剛爬到上面最左端至第二頁而你第二頁又連向第一頁，這樣蜘蛛就會反複在這兩個頁面之間爬來爬去浪費時間而别的頁面卻抓取不到。是以網站連結布局非常重要。

第二、預處理系統

蜘蛛把内容帶回“家”以後對這些網頁，搜尋引擎系統還要做很多的複雜處理。第一步：預處理。首先要提取關鍵詞，在取詞的過程中實際細分為三部分 1.伺服器自身根據中文，做一個詞語的資料庫該資料庫包含了近乎所有的詞語。2.根據資料庫的内容将網頁上的文字分成一個個詞語 3.去掉諸如“的”“是”之類的沒有意義的字。第二步:消滅重複頁面和轉載頁面網上重複的内容非常多而且會有大量的抄襲和引用，搜尋引擎不希望讀者看到一樣的東西出現，鼓勵“創新”“新穎”“原創”。是以需要删除重複的内容。第三步：連結分析連結的文字、字型代銷都展現了網站建設這對這個頁面的評價和重視程度，是以相應的搜尋引擎也會予以一定的重視。第四步：網頁重要程度計算就是我們所知道的的權重（是由百度定義，可以在幫助工具中查詢）

第三、查詢服務系統

搜尋引擎将網頁内容做好後需要等待使用者搜尋。經曆了以上幾個過程，一個原始網頁就變成了五步：1.原始網頁文檔 2.url和标題（描述）3.編号 4.所含的重要關鍵詞的集合以及在文檔中的位置 5.其他的名額：重要程度、分類代碼等。一旦有人搜尋關鍵詞就能迅速調用相關文檔并集合輸出。

這就是現階段學習的seo的一些知識，搜尋引擎無時無刻都在變化着，但是它的基本原理還是不變的，我們隻要抓住最基本的原理，能夠靈活的運用到實際中就會總結出一套自己的seo方法。總結來說就是:理論+實踐+堅持=成功。

搜尋引擎原理

繼續閱讀

關鍵詞權重的量化方法TF/IDF

seo技巧篇

最新資料：微信及WeChat月活12.5億多，2021年第二季遊戲收入430億元

ubuntu設定全攻略

selenium登入網頁

超詳細robots.txt寫法大全和禁止目錄收錄及指定頁面

正确了解和判斷PR劫持的方法（站長必看）

建構面向全世界的網站——gettext支援多種語言

傳說中比google和百度牛的十佳搜尋類網站

做好英文網站優化很簡單

百度、新浪、Mixi、Apache社群贊助的開源key-value分布式存儲系統[轉載]

一個小小的爬蟲技巧

門戶通專訪月光部落格：第一部落格是如何打造成的

門戶通專訪草根站長九天狼：做站貴在堅持

專家訪談：搜尋開源力量：Lucene技術前景

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch