今天晓波为大家更新第21篇SEO“robots”,在做网站优化的过程中我们会经常使用到robots,使用好robots会对网站的优化起到一定的辅助作用,有很多小白可能还不知道robots是什么,下面为大家详细说明一下。
robots是什么
robots实际上是一个txt文件,命名为robots.txt,且必须使用这个名称,使用其他名称搜索引擎就不会认了。
robots我们可以说是网站跟搜索引擎爬虫间的协议,爬虫在爬取网站前会先爬取robots.txt文件,通过这个文件告诉搜索引擎这个这个网站中那些文件可以爬取,那些目录可以爬取,从而有效的利用蜘蛛爬取最有效的页面。
如果网站没有设置该文件,那么互联网上的所有搜索引擎的搜索蜘蛛都能够访问网站上所有没有被口令保护的页面。
robots不一定按规则
我们在网站根目录中置放robots.txt,在这个文件中声明网站中的哪些文件可以被爬取,这样就可以让有限的蜘蛛资源爬取更有效的内容。
然而我们不能太过依赖这个文件,这只是一个约定俗成的东西,没有有标准规范,所以并不能保证网站的隐私,而且并不能保证搜索引擎一定会遵守这个文件规则。因而我们在写书的时候,一点点的不一样可能代表的意思都不一样。
robots的书写形式
使用robots元数据在网页顶部写上标签:<meta name="robots" content="noindex,nofollow" />(表示不要索引该页面,并且不传递权重)。
书写形式:
User-agent: *
Disallow: /admin/ 后台管理文件
Disallow: /php/ 程序文件
Disallow: /install/ 安装文件
Disallow: /images/ 图片文件
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /js/ 脚本文件
Disallow表示不允许抓取,allow表示允许抓取,没写allow的就是默认允许抓取的。
在末尾有没有斜杠代表的意思也不相同,有斜杠表示让蜘蛛抓取或不抓取某个目录以及目录下的文件,比如:Disallow: /admin/,表示不抓取admin目录以及目录下的所有文件;没有斜杠表示不抓取或抓取以该名字命名的所有文件包括目录,比如Disallow: /install ,表示不要抓取install命名的所有文件以及目录。
关于robots通配符的使用
在robots中是可以使用通配符的,可以用来通指一类的文件,比如Disallow: /*.php$,表示不要抓取网站的所有php文件。
好了以上就是对于“robots”的介绍,希望对大家有所帮助。我是晓波,干货持续更新中,原创发布,禁止抄袭转载。