robots.txt 文件详解

Robots.txt 是存放在站点根目录下的一个纯文本文件。它可以指定搜索引擎机器人只抓取指定的内容,或者是禁止搜索引擎机器人抓取网站的部分或全部内容。

它的工作方式如下:

如果搜索引擎机器人想要抓取一个网址,例如 http://www.tianlunvip.com/welcome.html。在此之前,它首先检查 http://www.tianlunvip.com/robots.txt,然后发现:

User-agent: *
Disallow: /

“ User-agent: * ”表示该协议适用于任何搜索引擎
“ Disallow:/ ”告诉搜索引擎机器人不应访问该站点上的任何页面

使用/robots.txt时,有两个重要注意事项:

  • 搜索引擎机可以忽略您的/robots.txt。尤其是扫描网络中的安全漏洞的恶意软件机器人
  • /robots.txt 文件是公开可用的文件。任何人都可以看到您不希望机器人使用服务器的哪些部分,所以慎用

如何创建 /robots.txt 文件

在网站的顶级根目录下创建文件名为小写字母的 “ robots.txt ” 文件,而不是 Robots.TXT”

注意:User-agent 或 Disallow 行均不支持通配符和正则表达式 。User-agent 值 “ *” 是一个特殊值

 

禁止 Google 搜索引擎抓取:

User-agent: Google
Disallow: /

User-agent: *
Disallow: /

禁止搜索引擎抓取 tmp 目录下所有:

User-agent: *
Disallow: /tmp/

禁止抓取某个文件:

User-agent: *
Disallow: /tmp/home.html

注意:robots 并没有 Allow 这样的字段,只能设置 Disallow 禁止项

评论

还没有任何评论,你来说两句吧!