STAKE中国官方网站

STAKE中国官方网站看法

Robots协议

宣布时间:2009-03-30

Robots协议是Web站点和搜索引擎爬虫交互的一种方法, ,,, ,,,,Robots.txt是存放在站点根目录下的一个纯文本文件。。。 。。。。。

Robots协议是Web站点和搜索引擎爬虫交互的一种方法, ,,, ,,,,Robots.txt是存放在站点根目录下的一个纯文本文件。。。 。。。。。该文件可以指定搜索引擎爬虫只抓取指定的内容, ,,, ,,,,或者是榨取搜索引擎爬虫抓取网站的部分或所有内容。。。 。。。。。当一个搜索引擎爬虫会见一个站点时, ,,, ,,,,它会首先检查该站点根目录下是否保存robots.txt, ,,, ,,,,若是保存, ,,, ,,,,搜索引擎爬虫就会凭证该文件中的内容来确定会见的规模; ;;;;若是该文件不保存, ,,, ,,,,那么搜索引擎爬虫就沿着链接抓取。。。 。。。。。

另外, ,,, ,,,,robots.txt必需安排在一个站点的根目录下, ,,, ,,,,并且文件名必需所有小写。。。 。。。。。

若是搜索引擎爬虫要会见的网站地点是http://www.w3.org/,那么robots.txt文件必需能够通过http://www.w3.org/robots.txt翻开并看到内里的内容。。。 。。。。。

详细使用名堂如下:

(1)User-agent:

用于形貌搜索引擎爬虫的名字。。。 。。。。。在Robots.txt文件中, ,,, ,,,,若是有多条User-agent纪录, ,,, ,,,,说明有多个搜索引擎爬虫会受到该协议的限制, ,,, ,,,,对该文件来说, ,,, ,,,,至少要有一条User-agent纪录。。。 。。。。。若是该项的值设为*, ,,, ,,,,则该协议对任何搜索引擎爬虫均有用, ,,, ,,,,在Robots.txt文件中, ,,, ,,,,“User-agent:*”这样的纪录只能有一条。。。 。。。。。

(2)Disallow:

用于形貌不希望被会见到的一个URL。。。 。。。。。这个URL可以是一条完整的路径, ,,, ,,,,也可以是部蹊径径, ,,, ,,,,任何以Disallow开头的URL均不会被Robot会见到。。。 。。。。。

下面举例来说明robots.txt的详细用法:

【例1】通过/robots.txt榨取所有搜索引擎爬虫抓取/bin/cgi/目录, ,,, ,,,,以及/tmp/目录和/foo.html文件, ,,, ,,,,设置要领如下:

User-agent:*
Disallow:/bin/cgi/
Disallow:/tmp/
Disallow:/foo.html

【例2】通过/robots.txt只允许某个搜索引擎抓。。。 。。。。。 ,,, ,,,,而榨取其他的搜索引擎抓取。。。 。。。。。如:只允许名为slurp的搜索引擎爬虫抓。。。 。。。。。 ,,, ,,,,而拒绝其他的搜索引擎爬虫抓取/cgi/目录下的内容, ,,, ,,,,设置要领如下:

User-agent:*
Disallow:/cgi/
User-agent:slurp
Disallow:

【例3】榨取任何搜索引擎抓取我的网站, ,,, ,,,,设置要领如下:

User-agent:*
Disallow:/

【例4】只榨取某个搜索引擎抓取我的网站。。。 。。。。。如:只榨取名为slurp的搜索引擎蜘蛛抓。。。 。。。。。 ,,, ,,,,设置要领如下:

User-agent:slurp
Disallow:/

搜索引擎爬虫必需要遵守Robots协议并执行Web站点的要求。。。 。。。。。因此搜索引擎爬虫需要有一个剖析Robots协议的模?????椋 ,,, ,,,,并严酷凭证Robots协议的划定抓取Web主机允许会见的目录和网页。。。 。。。。。

虽然, ,,, ,,,,Robots.txt只是一个协议, ,,, ,,,,若是搜索引擎爬虫的设计者不遵照这个协议, ,,, ,,,,网站治理员也无法阻止搜索引擎爬虫关于某些页面的会见, ,,, ,,,,但一样平常的搜索引擎爬虫都会遵照这些协议, ,,, ,,,,并且网站治理员还可以通过其他方法来拒绝网络蜘蛛对某些网页的抓取。。。 。。。。。

搜索引擎爬虫在下载网页的时间, ,,, ,,,,会去识别网页的HTML代码, ,,, ,,,,在其代码部分会有META标识。。。 。。。。。通过这些标识, ,,, ,,,,可以告诉搜索引擎爬虫本网页是否需要被抓。。。 。。。。。 ,,, ,,,,还可以告诉搜索引擎爬虫本网页中的链接是否需要被继续跟踪。。。 。。。。。例如:体现本网页不需要被抓。。。 。。。。。 ,,, ,,,,可是网页内的链接需要被跟踪。。。 。。。。。

现在一样平常的网站都希望搜索引擎能更周全地抓取自己网站的网页, ,,, ,,,,由于这样可以让更多的会见者能通过搜索引擎找到此网站。。。 。。。。。为了让本网站的网页更周全地被抓取到, ,,, ,,,,网站治理员可以建设一个网站地图, ,,, ,,,,即Site Map。。。 。。。。。许多搜索引擎爬虫会把sitemap.html文件作为一个网站网页爬取的入口, ,,, ,,,,网站治理员可以把网站内部所有网页的链接放在这个文件内里, ,,, ,,,,那么搜索引擎爬虫可以很利便地把整个网站抓取下来, ,,, ,,,,阻止遗漏某些网页, ,,, ,,,,也会减小对网站服务器的肩负。。。 。。。。。

tel 24小时免费服务咨询热线:400-080-3010

连忙咨询连忙咨询 联系STAKE中国官方网站联系STAKE中国官方网站
【网站地图】【sitemap】