robots.txt概念
如果我們網站内有某些特殊的檔案不讓搜尋引擎收錄,那怎麼辦?
答案是:使用一個叫做robots.txt的檔案。
robots.txt檔案告訴搜尋引擎本網站哪些檔案是允許搜尋引擎蜘蛛抓取,哪些不允許抓取。
搜尋引擎蜘蛛通路網站任何檔案之前,需先通路robots.txt檔案,然後抓取robots.txt檔案允許的路徑,跳過其禁止的路徑。
總結:robots.txt是一個簡單的.txt檔案,用以告訴搜尋引擎哪些網頁可以收錄,哪些不允許收錄。
關于robots.txt檔案的10條注意事項:
1、如果未建立robots.txt檔案,則代表預設網站所有檔案向所有搜尋引擎開放爬取。
2、必須命名為:robots.txt,都是小寫,robot後面加"s"。
3、robots.txt必須放置在一個站點的根目錄下。通過如
https://www.fgba.net/robots.txt,可以成功通路到,則說明本站的放置正确。
4、一般情況下,robots.txt裡隻寫着兩個函數:User-agent和 Disallow。
5、空格換行等不能弄錯,可複制這個頁面并修改為自己的。點選
6、有幾個禁止,就得有幾個Disallow函數,并分行描述。
7、至少要有一個Disallow函數,如果都允許收錄,則寫: Disallow: 如果都不允許收錄,則寫:Disallow: / (注:隻是差一個斜杆)。
8、允許有多個User-agent,如果對所有爬取蜘蛛生效,則用“*”星号表示。
9、robtos.txt檔案内可以放上Sitemap檔案位址,友善告訴搜尋引擎Sitemap檔案位址。
10、網站營運過程中,可以根據情況對robots.txt檔案進行更新,屏蔽一些不要搜尋引擎抓取的檔案位址。
舉例兩個常見屏蔽規則:
User-agent: * 星号說明允許所有搜尋引擎收錄
Disallow: /search.php 說明
https://www.fgba.net/search.php這個頁面禁止搜尋引擎抓取。
Disallow: /index.php? 說明類似這樣的頁面
https://www.fgba.net/index.php?search=%E5%A5%BD&action=search&searchcategory=%25禁止搜尋引擎抓取。