robots.txt和Robots META标签

作者:佚名       来源于:中国营销策划网

常见搜索引擎机器人Robots名字

名称                     搜索引擎

Baiduspider            http://www.baidu.com

Scooter              http://www.altavista.com

ia_archiver             http://www.alexa.com

Googlebot           http://www.google.com

FAST-WebCrawler http://www.alltheweb.com

Slurp                  http://www.inktomi.com

MSNBOT            http://search.msn.com

4、 robots.txt举例

下面是一些著名站点的robots.txt

http://www.cnn.com/robots.txt

http://www.google.com/robots.txt

http://www.ibm.com/robots.txt

http://www.sun.com/robots.txt

http://www.eachnet.com/robots.txt

5、 常见robots.txt错误

l         颠倒了顺序:
错误写成
User-agent: *
Disallow: GoogleBot

正确的应该是:
User-agent: GoogleBot
Disallow: *

l         把多个禁止命令放在一行中:
例如,错误地写成
Disallow: /css/ /cgi-bin/ /images/

正确的应该是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

l         行前有大量空格
例如写成
        Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。

l         404重定向到另外一个页面:
Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。

l         采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:

l         语法中只有Disallow,没有Allow
错误的写法是:
User-agent: Baiduspider      
Disallow: /john/
allow: /jane/

l         忘记了斜杠/
错误的写做:
User-agent: Baiduspider      
Disallow: css

正确的应该是
User-agent: Baiduspider      
Disallow: /css/

下面一个小工具专门检查robots.txt文件的有效性:

http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

二、          Robots META标签

1、什么是Robots META标签

Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似(见黑体部分):

|<< << < 1 2 3 > >> >>|


 2/3   首页 上一页 1 2 3 下一页 尾页

上一篇针对Yahoo做搜索引擎优化SEO

下一篇Yahoo!推出全新搜索引擎

 【相关文章




版权声明:文章观点仅代表作者观点,作为参考,不代表本站观点。部分文章来源于网络,如果网站中图片和文字侵犯了您的版权,请联系我们及时删除处理!转载本站内容,请注明转载网址、作者和出处,避免无谓的侵权纠纷。