關于robots.txt無法禁止收錄的小看法

在網站seo優化的過程中常常需要通過一個名為robots.txt的檔案與搜尋引擎蜘蛛對話。通常來講，搜尋引擎蜘蛛爬行到某一個網站就會首先讀取該檔案，并按照檔案中的規則執行接下來的行為。

當一個網站中有一些網站不需要被搜尋引擎收錄時，往往就會通過robots.txt來限制搜尋引擎蜘蛛對這個網頁的抓取。比如說，當網站出現 ?replytocom重複收錄，或者某些不需要被收錄并分享權重的頁面等等。從這個方面來講，robots.txt限制了搜尋引擎的行為。

而實際情況是，網站在robots.txt禁止了蜘蛛對某個類型url網頁的收錄，但在用搜尋引擎進階指令site查詢收錄情況是發現，搜尋引擎并沒有遵從robots.txt中的規則。大部分時候，搜尋引擎确實能按照網站robots.txt中所寫的規則對這些網頁不進行收錄。但搜尋引擎視robots.txt中的規則為無物的情況也是确實存在的。

當然，也有可能存在網站robots.txt寫法出現錯誤的可能，但此文建立在正确撰寫robots.txt的前提下。

有一個很官方的說法是這樣的：網站robots.txt中對某個網頁屏蔽了蜘蛛的收錄，但搜尋引擎還是會對該網頁進行抓取，隻不過在相關搜尋結果中不會展現這些網頁内容。

這句話咋一看有些令人費解，但據筆者的看法，還是很有可能的。

首先，搜尋引擎的發展根本是向搜尋使用者展現使用者所需要的、健康的、優質的内容。在收錄并傳回相關搜尋結果之前，搜尋引擎必然要對這些網站進行相應的了解，然後在權衡是否将其收錄并給予如何的排名。

打個比方，如果要做一個非法的網站，先假設網站内容沒有被監管部門查到，也不考慮以下這個方法的好壞與否。當然，如果直接采用相關的關鍵詞做網站seo優化，在得到更高曝光率的同時也大大增加了被查封的可能性。更何況這些非法内容也不一定不會被搜尋引擎屏蔽。

這時，通過大量的健康的内容做網站的seo排名。通過健康的關鍵詞使網站獲得大量流量，然後在這些健康的内容上帶上非法資訊的連結入口。當然，這樣的連結必然要使用網站的robots.txt對搜尋引擎蜘蛛進行屏蔽，同時将所有的非法内容頁面也同樣的禁止收錄。

難道這樣就能既通過搜尋引擎謀利，又避開了搜尋引擎的監管嗎？其實不然，上文中說到搜尋引擎為了良好的使用者體驗，必然會對已收錄或者将要收錄的網站進行全面的了解（不管現在搜尋引擎做的是否完善）。

那好，既然搜尋引擎要了解網站，又怎麼能對robots.txt中屏蔽的頁面視而不見呢？明着對着搜尋引擎裝純潔，背地裡暗暗的搞一些非法勾當。我想，這種情況搜尋引擎不會不考慮到。是以了，即使你的網站robots.txt中明确的對某些頁面禁止蜘蛛的爬行，但搜尋引擎總還是要“檢查”一下的。不然又怎麼全面的了解網站的優劣呢？

好吧，要檢視網頁的情況當然先要抓取進入搜尋引擎的伺服器，再進行判斷了。既然搜尋引擎對網站robots.txt中屏蔽的頁面還是進行了抓取并檢視，那麼，又要如何展現robots.txt的作用呢？

那隻有将這些頁面進行隐藏，至少不能在普通搜尋結果中展現出來。不然，網站robots.txt豈不隻成擺設？

是以，當發現搜尋引擎依舊對網站robots.txt屏蔽的網頁進行收錄時不用過于緊張。搜尋引擎隻是想要充分的了解網站情況。但必須要確定robots.txt規則正确書寫。一般情況，搜尋引擎都會對禁止抓取的網頁進行删除，或者說是“隐藏”的。

由于網站robots.txt屏蔽網頁依舊收錄的情況存在着較大的不确定因素，是以很遺憾筆者無法進行實際的實驗對該情況進行檢測。同時筆者自認為隻是剛剛開始學習seo的菜鳥，是以筆者的觀點并不一定正确無誤。筆者衷心希望各位seo優化前輩、達人能給予指點和交流，謝謝。

轉載請務必注明出處，謝謝。

本文連結位址: http://www.yushenblog.com/talk/509.html

關于robots.txt無法禁止收錄的小看法

繼續閱讀

解讀2008年網絡技術熱詞之雲計算

磁盤結構及在Linux中的命名

對于0-1分數規劃的Dinkelbach算法的分析

不用iconv函數實作UTF-8編碼轉換GB2312的PHP函數

Sql優化一：sql語句優化

寶塔java項目部署日志路徑

Centos 7 Apache配置虛拟主機

Ubunto 安裝Apache2以後 httpd.conf檔案找不到問題

Apache httpd 安裝啟動demo（Window版）

Apache配置檔案中的deny和allow的使用

配置網頁内容通路

艱難安裝LDAP,SSL認證

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

Git學習筆記5 merge沖突時二選一

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch