robots

也说说robots.txt

Thursday, September 11th, 2008 | SEO技术 | Comments Off

robots.txt是一个最简单的.txt文件,用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。

我们的站点上,不是每个文件都需要让搜索引擎知道的,于是我们就需要一个搜索引擎间的通用协议:robots.txt,搜索引擎到达你的网站后会首先去读取robots.txt,然后根据你的许可对你的网站进行抓取。

关于robots.txt一般站长需要注意以下几点:

  1. 如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
  2. 必须命名为:robots.txt,都是小写,robot后面加”s”。
  3. robots.txt必须放置在一个站点的根目录下。如:通过http://www.neusem.com/robots.txt 可以成功访问到,则说明本站的放置正确。
  4. 一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。
  5. 有几个禁止,就得有几个Disallow函数,并分行描述。
  6. 至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: /  (注:只是差一个斜杆)。
  7. User-agent: *  星号说明允许所有搜索引擎收录。
  8. 禁止某个搜索引擎的蜘蛛可以用下面的方法:
    User-agent: Baiduspider
    Disallow: /
    
    User-agent: baiduspider
    Disallow: /

Disallow: /search.html   说明 http://www.neusem.com/search.html 这个页面禁止搜索引擎抓取。

Disallow: /index.php?   说明类似这样的页面http://www.neusem.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。

robots.txt文件用法举例

例1. 禁止所有搜索引擎访问网站的任何部分

   

User-agent: *
Disallow: /
例2. 允许所有的robot访问

(或者也可以建一个空文件 “/robots.txt” file)

 

User-agent: *
Disallow:

 

例3. 禁止某个搜索引擎的访问 User-agent: BadBot
Disallow: /
例4. 允许某个搜索引擎的访问 User-agent: baiduspider
Disallow:

User-agent: *
Disallow: /

例5. 一个简单例子

  在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
  需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。
  User-agent:后的* 具有特殊的含义,代表”any robot”,所以在该文件中不能有”Disallow: /tmp/*” or “Disallow: *.gif”这样的记录出现.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

Tags: ,

加入收藏 本地收藏 百度搜藏 QQ书签 美味书签 Google书签 Mister Wong

Search

友情链接