在 網站seo優化的過程中常常需要通過一個名為robots.txt的檔案與搜尋引擎蜘蛛對話。通常來講,搜尋引擎蜘蛛爬行到某一個網站就會首先讀取該檔案,并按照檔案中的規則執行接下來的行為。
當一個網站中有一些網站不需要被搜尋引擎收錄時,往往就會通過robots.txt來限制搜尋引擎蜘蛛對這個網頁的抓取。比如說,當網站出現 ?replytocom重複收錄,或者某些不需要被收錄并分享權重的頁面等等。從這個方面來講,robots.txt限制了搜尋引擎的行為。
而實際情況是,網站在robots.txt禁止了蜘蛛對某個類型url網頁的收錄,但在用 搜尋引擎進階指令site查詢收錄情況是發現,搜尋引擎并沒有遵從robots.txt中的規則。大部分時候,搜尋引擎确實能按照網站robots.txt中所寫的規則對這些網頁不進行收錄。但搜尋引擎視robots.txt中的規則為無物的情況也是确實存在的。
當然,也有可能存在網站robots.txt寫法出現錯誤的可能,但此文建立在正确撰寫robots.txt的前提下。
有一個很官方的說法是這樣的:網站robots.txt中對某個網頁屏蔽了蜘蛛的收錄,但搜尋引擎還是會對該網頁進行抓取,隻不過在相關搜尋結果中不會展現這些網頁内容。
這句話咋一看有些令人費解,但據筆者的看法,還是很有可能的。
首先,搜尋引擎的發展根本是向搜尋使用者展現使用者所需要的、健康的、優質的内容。在收錄并傳回相關搜尋結果之前,搜尋引擎必然要對這些網站進行相應的了解,然後在權衡是否将其收錄并給予如何的排名。
打個比方,如果要做一個非法的網站,先假設網站内容沒有被監管部門查到,也不考慮以下這個方法的好壞與否。當然,如果直接采用相關的關鍵詞做網站seo優化,在得到更高曝光率的同時也大大增加了被查封的可能性。更何況這些非法内容也不一定不會被搜尋引擎屏蔽。
這時,通過大量的健康的内容做網站的seo排名。通過健康的關鍵詞使網站獲得大量流量,然後在這些健康的内容上帶上非法資訊的連結入口。當然,這樣的連結必然要使用網站的robots.txt對搜尋引擎蜘蛛進行屏蔽,同時将所有的非法内容頁面也同樣的禁止收錄。
難道這樣就能既通過搜尋引擎謀利,又避開了搜尋引擎的監管嗎?其實不然,上文中說到搜尋引擎為了良好的使用者體驗,必然會對已收錄或者将要收錄的網站進行全面的了解(不管現在搜尋引擎做的是否完善)。
那好,既然搜尋引擎要了解網站,又怎麼能對robots.txt中屏蔽的頁面視而不見呢?明着對着搜尋引擎裝純潔,背地裡暗暗的搞一些非法勾當。我想,這種情況搜尋引擎不會不考慮到。是以了,即使你的網站robots.txt中明确的對某些頁面禁止蜘蛛的爬行,但搜尋引擎總還是要“檢查”一下的。不然又怎麼全面的了解網站的優劣呢?
好吧,要檢視網頁的情況當然先要抓取進入搜尋引擎的伺服器,再進行判斷了。既然搜尋引擎對網站robots.txt中屏蔽的頁面還是進行了抓取并檢視,那麼,又要如何展現robots.txt的作用呢?
那隻有将這些頁面進行隐藏,至少不能在普通搜尋結果中展現出來。不然,網站robots.txt豈不隻成擺設?
是以,當發現搜尋引擎依舊對網站robots.txt屏蔽的網頁進行收錄時不用過于緊張。搜尋引擎隻是想要充分的了解網站情況。但必須要確定robots.txt規則正确書寫。一般情況,搜尋引擎都會對禁止抓取的網頁進行删除,或者說是“隐藏”的。
由于網站robots.txt屏蔽網頁依舊收錄的情況存在着較大的不确定因素,是以很遺憾筆者無法進行實際的實驗對該情況進行檢測。同時筆者自認為隻是剛剛開始學習seo的菜鳥,是以筆者的觀點并不一定正确無誤。筆者衷心希望各位seo優化前輩、達人能給予指點和交流,謝謝。
除非特殊注明,本部落格文章均為于申原創,版權歸于申blog©所有。
轉載請務必注明出處,謝謝。
本文連結位址: http://www.yushenblog.com/talk/509.html