网站排名上升是每一位站长的心愿,现在百度有了掌纹,原来的高质量文章几乎可以在几秒钟内收录,但官方声明是在一小时内收录的。除了百度熊掌之外,还有几点可以吸引百度蜘蛛每天抢占我们的网站。
怎么让百度蜘蛛每天抓取
1)页面更新频率
网站更新文章频率越高越好,前提是保证文章质量与原创比例的前提下。
2)导入链接
网站导入链接越多越好,前提是优质的导入链接,友链和单向外链均可。
3)URL结构
URL结构要扁平化,浅一些可能收录效果会更好。
4)网站权重
网站权重越高,蜘蛛来访越频繁,都是相辅相成的。
5)与首页的距离
文章页面最好与首页不要太远,如三级即可。
6)页面质量
文章质量一定要保证,原创优质文章也好,转载的文章也好,总之一定要优秀。
搜索引擎蜘蛛还需要解决三个主要问题:
(1)对抓取目标的描述或定义;
(2)对网页或数据的分析与过滤;
(3)对URL的搜索策略
搜索引擎蜘蛛面临的问题
截止到2007年底,Internet上网页数量超出160亿个,研究表明接近30%的页面是重复的;动态页面的存在:客户端、服务器端脚本语言的应用使得指向相同Web信息的URL数量呈指数级增长。上述特征使得网络爬虫面临一定的困难,主要体现在Web信息的巨大容量使得爬虫在给定时间内只能下载少量网页。Lawrence和Giles的研究表明没有哪个搜索引擎能够索引超出16%的Internet上Web页面,即使能够提取全部页面,也没有足够的空间来存储。
为提高爬行效率,爬虫需要在单位时间内尽可能多的获取高质量页面,是它面临的难题之一。当前有五种表示页面质量高低的方式:Similarity(页面与爬行主题之间的相似度)、Backlink(页面在Web图中的入度大小)、PageRank(指向它的所有页面平均权值之和)、Forwardlink(页面在Web图中的出度大小)、Location(页面的信息位置);Parallel(并行性问题)[3]。为了提高爬行速度,网络通常会采取并行爬行的工作方式,随之引入了新的问题:重复性(并行运行的爬虫或爬行线程同时运行时增加了重复页面)、质量问题(并行运行时,每个爬虫或爬行线程只能获取部分页面,导致页面质量下降)、通信带宽代价(并行运行时,各个爬虫或爬行线程之间不可避免要进行一些通信)。并行运行时,网络爬虫通常采用三种方式:独立方式(各个爬虫独立爬行页面,互不通信)、动态分配方式(由一个中央协调器动态协调分配URL给各个爬虫)、静态分配方式(URL事先划分给各个爬虫)。