影音先锋在线资源中文字幕,韩国av在线播放,久久久97精品

默認(rèn) - 所有:

爬蟲-延遲時間:

網(wǎng)站地圖: (可以不填寫)

主流搜索引擎:

Google(谷歌)

googlebot

Baidu(百度)

baiduspider

Sogou(搜狗)

sogou spider

YouDao(有道)

YodaoBot

MSN Search

msnbot

Yahoo

yahoo-slurp

Ask/Teoma

teoma

Cuil

twiceler

GigaBlast

gigabot

Scrub The Web

scrubby

DMOZ Checker

robozilla

Nutch

nutch

Alexa/Wayback

ia_archiver

Naver

naverbot, yeti

其他搜索引擎:

Google Image

googlebot-image

Google Mobile

googlebot-mobile

Yahoo MM

yahoo-mmcrawler

MSN PicSearch

psbot

SingingFish

asterias

Yahoo Blogs

yahoo-blogs/v3.9

限制目錄

該路徑是相對于根目錄以 "/"結(jié)尾

現(xiàn)在，在桌面新建一個記事本，將上面代碼復(fù)制進(jìn)去并保存為“robots.txt”，然后上傳你網(wǎng)站的根目錄。請注意文件的權(quán)限設(shè)置，確保可以訪問，一般默認(rèn)設(shè)置就可以了。

robots.txt文件是有什么作用?
robots.txt 是存放在站點(diǎn)根目錄下的一個純文本文件。雖然它的設(shè)置很簡單，但是作用卻很強(qiáng)大。

它可以指定搜索引擎蜘蛛只抓取指定的內(nèi)容，或者是禁止搜索引擎蜘蛛抓取網(wǎng)站的部分或全部內(nèi)容。

robots.txt文件訪問與提交方法

例如：如果您的網(wǎng)站地址是 http://www.www-2900555.com/那么，該文件必須能夠通過 http://www.www-2900555.com/robots.txt 打開并看到里面的內(nèi)容,然后登陸百度站長平臺，在后臺可以提交該地址。

robots.txt文件的格式

User-agent:

表示用來描述搜索引擎蜘蛛的名字，在" robots.txt "文件中，如果有多條User-agent記錄說明有多個搜索引擎蜘蛛會受到該協(xié)議的限制，對該文件來說，至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*，則該協(xié)議對任何搜索引擎蜘蛛均有效，在" robots.txt "文件中，"User-agent:*"這樣的記錄只能有一條。

Disallow:

用于描述不希望被訪問到的一個URL，這個URL可以是一條完整的路徑，也可以是部分的，任何以Disallow開頭的URL均不會被Robot訪問到。

舉例:

例一："Disallow:/help"是指/help.html 和/help/index.html都不允許搜索引擎蜘蛛抓取。

例二："Disallow:/help/"是指允許搜索引擎蜘蛛抓取/help.html，而不能抓取/help/index.html。

例三：Disallow記錄為空說明該網(wǎng)站的所有頁面都允許被搜索引擎抓取，在"/robots.txt"文件中，至少要有一條Disallow記錄。如果"/robots.txt"是一個空文件，則對于所有的搜索引擎蜘蛛，該網(wǎng)站都是開放的可以被抓取的。

#:robots.txt 協(xié)議中的注釋符。

綜合例子:

例一：通過"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目錄，以及 "/tmp/"目錄和 /foo.html 文件，設(shè)置方法如下：

User-agent: *

Disallow: /bin/cgi/

Disallow: /tmp/

Disallow: /foo.html

例二：通過"/robots.txt"只允許某個搜索引擎抓取，而禁止其他的搜索引擎抓取。如：只允許名為"slurp"的搜索引擎蜘蛛抓取，而拒絕其他的搜索引擎蜘蛛抓取 "/cgi/" 目錄下的內(nèi)容，設(shè)置方法如下：

User-agent: *

Disallow: /cgi/

User-agent: slurp

Disallow:

例三：禁止任何搜索引擎抓取我的網(wǎng)站，設(shè)置方法如下：

User-agent: *

Disallow: /

例四：只禁止某個搜索引擎抓取我的網(wǎng)站如：只禁止名為"slurp"的搜索引擎蜘蛛抓取，設(shè)置方法如下：

User-agent: slurp

Disallow: /

Robots.txt文件在線生成