天天看點

robots什麼是robots.txt?Robots.txt的官方标準寫法

其實它隻是一個放在網站根目錄内,并且記錄了一些些文字的文本檔案罷了。 但它是如何在網站的優化中起到作用的呢? 簡單的說就是搜尋引擎會根據你的robots.txt的内容去[ 按表操作]。 哪些内容應該要被搜尋引擎所搜尋到,哪些内容你覺得不應該被搜尋,你可以設定好你的robots.txt檔案全部都由robots.txt來做指揮。

那我們應該如何設定robots.txt的内容呢? 以下說明請您參考

所有的記錄檔的文法都是以 “:” 來做為一行, Field表示欄位的名稱,而冒号後面接着對這欄位的值

robots.txt檔名必須是小寫的,并且注意必須是文字檔而非html格式,并且如果你是放在Linux/Unix的主機上的,檔案的格式必須是遵循其格式撰寫,你可以使用一些文字編譯器編寫,要注意格式就對了,主要的文法大概如下:

User-Agent:後面的值表示是針對哪一個bot的抓取行為,例如:

User-Agent: *

表示針對所有的Robot抓取行為

User-Agent: Slurp

表示針對Yahoo Robot的抓取行為,Slurp是Yahoo! crawler的名稱

Disallow:表示在這個後面所寫的值的網址字串所得到的所有網址都不接受bot抓取,例如:

Disallow: /

表示根目錄下所有的網頁和目錄都不接受抓取

Disallow: /news

表示根目錄下news延伸出來的所有目錄和網頁都不接受抓取,注意這個值的意義包括該字串所接得起來的所有可讀取的網頁和目錄,是以Disallow: /news代表底下的連結都是不接受抓取的!!

http://yourdomain.com/news/index

http://yourdomain.com/newshistory/

http://yourname.com/newstoday.html

http://yourname.com/news.php

也就是說,Disallow後面開始接的就是你的網域名稱最後的那條反斜線為開始就對了 ,其他的撰寫規格需要注意的,大概隻有每一個描述請獨立一行,其他沒什麼注意的了

接下來舉幾個比較讓人明了的例子:

User-Agent: Googlebot

Disallow: /mysite/test/

Disallow: /mysite/cgi-bin/post.cgi?action=reply

Disallow: /a

在這個例子中底下的内容都會禁止被Google的bot抓取:

http://adomain.com/mysite/test/index.html

http://adomain.com/mysite/cgi-bin/post.cgi?action=reply&id=1

http://adomain.com/mysite/cgi-bin/post.cgi?action=replytome

http://adomain.com/abc.html

而底下的内容依然會被Google的bot抓取:

http://adomain.com/mysite/test.html

http://adomain.com/mysite/cgi-bin/post.cgi?action=edit

http://adomain.com/mysite/cgi-bin/post.cgi

http://adomain.com/bbc.html

最後你可以用allow做一個disallow的反向處理例如

Disallow: /cgi-bin/

Allow: /cgi-bin/Ultimate.cgi

Allow: /cgi-bin/forumdisplay.cgi

在http://adomain.com/cgi-bin/ 下的所有目錄和檔案都會禁止被Google的bot抓取,除了http://adomain.com/cgi-bin/Ultimate.cgi 和http://adomain .com/cgi-bin/forumdisplay.cgi 這兩個檔案之外

再例如:

User-Agent: FreeFind

Disallow:

所有的搜尋引擎bot都不可以抓取http://adomain.com/cgi-bin/ 下的所有檔案和目錄,但是名叫FreeFind的bot例外,FreeFind robot可以抓取所有的檔案和目錄

請注意幾點差異

表示全部禁止

表示沒有禁止

到這裡要多注意的是

1.建議兩段的user-agent:之間請空一行

2.後面寫的URL是有分大小寫的

最後介紹[ * ] 代表所謂的萬用字元表示,[ $ ] 代表所謂的結尾符号稱為媒合符号, Googlebot 可解譯一些模式媒合。 這是标準模式的延伸,但注意并不是全部的bot (漫遊器) 都能适用

若要攔截所包含問号(?)之URL的存取,您可以使用下列項目:

User-agent:* Disallow:/*?*

若要攔截以.asp結尾的URL,您可以使用下列項目:

User-Agent:Googlebot Disallow:/*.asp$

關于這個[ * ]和[ $ ]的問題,Google上有不錯的解說,你可以參考這裡Google如何檢索我的網站

OK,到這裡為止,如果你的wordpress網站是放在根目錄下面的,那麼底下是我放在cocolike.com根目錄下的建議适合WordPress使用的設定:

# disallow all files in these directories

Disallow: /dh_

Disallow: /files/

Disallow: /forum/

Disallow: /pictures/

Disallow: /usersguide/

Disallow: /utilities/

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /ela

Disallow: /contact

Disallow: /feed/

Disallow: /trackback/

Disallow: */feed$

Disallow: */trackback$

Disallow: *.htmlemail/

Disallow: *.htmlprint/

# disallow all files ending with these extensions

Disallow: /*.php$

Disallow: /*.js$

Disallow: /*.inc$

Disallow: /*.css$

Disallow: /*.gz$

Disallow: /*.wmv$

Disallow: /*.cgi$

Disallow: /*.xhtml$