robots
也说说robots.txt
Thursday, September 11th, 2008 | SEO技术 | Comments Off
robots.txt是一个最简单的.txt文件,用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。
我们的站点上,不是每个文件都需要让搜索引擎知道的,于是我们就需要一个搜索引擎间的通用协议:robots.txt,搜索引擎到达你的网站后会首先去读取robots.txt,然后根据你的许可对你的网站进行抓取。
关于robots.txt一般站长需要注意以下几点:
- 如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
-
必须命名为:robots.txt,都是小写,robot后面加”s”。
-
robots.txt必须放置在一个站点的根目录下。如:通过http://www.neusem.com/robots.txt 可以成功访问到,则说明本站的放置正确。
-
一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。
-
有几个禁止,就得有几个Disallow函数,并分行描述。
-
至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。
-
User-agent: * 星号说明允许所有搜索引擎收录。
-
禁止某个搜索引擎的蜘蛛可以用下面的方法: User-agent: Baiduspider Disallow: / User-agent: baiduspider Disallow: /
Disallow: /search.html 说明 http://www.neusem.com/search.html 这个页面禁止搜索引擎抓取。
Disallow: /index.php? 说明类似这样的页面http://www.neusem.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。
robots.txt文件用法举例
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
Disallow:
例3. 禁止某个搜索引擎的访问 User-agent: BadBot
Disallow: /例4. 允许某个搜索引擎的访问 User-agent: baiduspider
Disallow:User-agent: *
Disallow: /例5. 一个简单例子 在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。
User-agent:后的* 具有特殊的含义,代表”any robot”,所以在该文件中不能有”Disallow: /tmp/*” or “Disallow: *.gif”这样的记录出现.User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/