robots.txt使用规则
robots.txt文件是放在网站根目录的文件,一般我们也叫它robots协议,是用来与搜索引擎蜘蛛进行沟通的重要文件,蜘蛛爬取网站时,第一时间基本上都是先抓取的robots.txt文件。
robots.txt通过编写一些规则来告诉搜索引擎蜘蛛这个网站中哪些内容是它可以爬取的,哪些文件是它不能爬取的。通过robots协议,我们就能控制和引导蜘蛛进行爬取,避免一些蜘蛛爬取程序文件,泄露秘密,也能解决蜘蛛资源使其爬取更有价值的页面,从而间接的提高我们的收录几率。
前面的文章我们也有写到过robots.txt写法,不过不是很详细,今天晓波和大家详细的来学习一下吧。
robots.txt写法
robots.txt如果没有,通常为默认允许蜘蛛抓取所有文件,在robots.txt规则中如果没有强调禁止抓取的文件,通常都是默认允许抓取,一般只写禁止抓取的规则。
1、禁止所有搜索引擎的蜘蛛抓取
User-agent: *
Disallow: /
这里星号表示泛指所有搜索引擎蜘蛛/爬虫,“/”表示网站的根目录,也就是说禁止所有蜘蛛爬取网站。
2、禁止蜘蛛爬取指定目录
User-agent: *
Disallow: /123/
这里表示禁止所有蜘蛛爬取123目录及目录下的所有文件,123可以换成任何目录。
3、禁止指定蜘蛛爬取网站
User-agent: Baiduspider
Disallow: /
4、只允许指定蜘蛛访问抓取
User-agent: Baiduspider
allow: /
User-agent: Baiduspider
Disallow: /
表示允许百度蜘蛛爬取网站,但其他所有蜘蛛不允许爬取网站。
5、禁止蜘蛛爬取动态网页
User-agent: *
Disallow: /*?*
Disallow: /?*
通常动态页面带有“?”参数,以上表示禁止所有蜘蛛爬取url带有问号的网页。
6、禁止蜘蛛爬取指定页面
User-agent: *
Disallow: /123/123.html
表示禁止所有蜘蛛爬取123目录下的123文件,其它文件则默认可以爬取。
7、开放已禁止蜘蛛爬取目录下的某个文件或目录
User-agent: *
Disallow: /123/
Allow:/123/img/
表示禁止所有蜘蛛爬取123目录下的所有文件,但img目录除外,可以进行抓取访问。
8、禁止蜘蛛抓取特定格式文件
User-agent: *
Disallow: /.css$
这里由于指定的是特定格式文件需要有“$”进行结尾,表示禁止所有蜘蛛爬取网站的所有css文件,如果想要禁止抓取图片,则把所有图片格式都禁止即可,如/.png$,/.jpg$,/.gif$等。
9、禁止蜘蛛抓取特定后缀文件
User-agent: *
Disallow: .php$
表示禁止所有蜘蛛访问网站下的所有php结尾的文件。
10、加入网站蜘蛛地图
User-agent: *
Sitemap: http://yc.seo-6.com/sitemap.xml
以上差不多就是这10点了,大家将这十点融会贯通,可以解决99%的robots规则问题,我们将不重要的不参与排名的页面都屏蔽掉,让蜘蛛去抓取更重要的页面,如此一来我们的蜘蛛利用率就提高了,收录机会自然也提高了。
通常来说网站的模板文件、程序文件、蜘蛛日志、程序日志、js文件、php文件、缓存文件、备份文件、用户数据等都可以进行屏蔽,避免蜘蛛抓些无用网页,于seo不利,大家平时需要多多注意。
关于“robots.txt的写法规则”就写到这里,希望对大家有所帮助。我是熊熊seo,干货持续更新中,敬请关注。