robots.txt概念和10條注意事項

2021-09-19 23:50:00

robots.txt概念

如果我們網站内有某些特殊的檔案不讓搜尋引擎收錄，那怎麼辦？

答案是：使用一個叫做robots.txt的檔案。

robots.txt檔案告訴搜尋引擎本網站哪些檔案是允許搜尋引擎蜘蛛抓取，哪些不允許抓取。

搜尋引擎蜘蛛通路網站任何檔案之前，需先通路robots.txt檔案，然後抓取robots.txt檔案允許的路徑，跳過其禁止的路徑。

總結：robots.txt是一個簡單的.txt檔案，用以告訴搜尋引擎哪些網頁可以收錄，哪些不允許收錄。

關于robots.txt檔案的10條注意事項：

1、如果未建立robots.txt檔案，則代表預設網站所有檔案向所有搜尋引擎開放爬取。

2、必須命名為：robots.txt，都是小寫，robot後面加"s"。

3、robots.txt必須放置在一個站點的根目錄下。通過如

，可以成功通路到，則說明本站的放置正确。

4、一般情況下，robots.txt裡隻寫着兩個函數：User-agent和 Disallow。

5、空格換行等不能弄錯，可複制這個頁面并修改為自己的。點選

6、有幾個禁止，就得有幾個Disallow函數，并分行描述。

7、至少要有一個Disallow函數，如果都允許收錄，則寫: Disallow: 如果都不允許收錄，則寫:Disallow: / （注：隻是差一個斜杆）。

8、允許有多個User-agent，如果對所有爬取蜘蛛生效，則用“*”星号表示。

9、robtos.txt檔案内可以放上Sitemap檔案位址，友善告訴搜尋引擎Sitemap檔案位址。

10、網站營運過程中，可以根據情況對robots.txt檔案進行更新，屏蔽一些不要搜尋引擎抓取的檔案位址。

舉例兩個常見屏蔽規則：

User-agent: * 星号說明允許所有搜尋引擎收錄

Disallow: /search.php 說明

這個頁面禁止搜尋引擎抓取。

Disallow: /index.php? 說明類似這樣的頁面

禁止搜尋引擎抓取。

繼續閱讀