sem一家之言
在所有的SEO工具中,能够被称为利器的工具不多,但Google GSA虚拟机版本绝对算是一个。去年我介绍了《利用Google Search APPliance 服务器做SEO 》,不过这个正式版实在太昂贵而且根据美国的某条法律不销售给中国,所以很多人都没办法用来做SEO应用。 而Google GSA虚拟机版本就很好的解决了这个问题。
GSA
先讲讲这个Google GSA虚拟机版本怎么应用到SEO上面吧。
如我以前所说:
你可以把这个GSA看做是google 的微缩版,它有爬虫,有索引库,有排序算法。它的的硬件和软件都是现在google.com这个网站正在用的东西。所以两者之间相似程度非常的高。我在过去操作google Mini的时候已经证实:至少它的抓取机制和现在的google.com几乎是一摸一样的。
其实何止爬虫抓取机制,连绝大部分排序的算法都是一样的。虽然这个GSA内置了更多给离线文档(如 pdfword)排序的算法,但是在给网页排序这块的算法和google.com如今正在用的算法是非常接近的。因为这个GSA的本意是给某些需要搜索的企业用户来索引他们自己的信息,是希望用google的技术能力来帮他们索引最相关的信息,不然就没有必要非得用google的产品了。 开发过小规模搜索引擎的人都知道,对于小型搜索引擎,其他东西大家都能基本做到,GSA值钱的地方就是这个排序算法,这是大家选择GSA的首要原因。
另外,这个方法是一个有着11年SEO经验并且在美国google做过2年产品经理的人强烈推荐使用的方法,他自己就买了2台正式版。
不过排序算法总还是有差别的,根据我使用了2年多GSA的经验,对于网页的排序算法90%以上是一样。
GSA在SEO方面至少有以下几个应用。
第一个应用就是检查搜索引擎爬虫在你网站上可能遇到的问题。
因为这是一个真正的搜索引擎,而且对于google来说,GSA和google.com的爬虫是一模一样的,所以检查到的问题都是真正的搜索引擎爬虫会遇到的问题。
操作方法为:
点击“抓取并编制索引” —> “抓取网址”,按如下格式输入你要检查的网址,按后点击“保存要抓取的网址”。
设置待抓取URL
在“状态和报告”—> “ 抓取状态”里,点击“恢复抓取”。
等一段时间以后,如果一切正常,在GSA的前台就可以开始搜索到网站的内容。
在“状态和报告”—> “抓取状态”里,就可以看到爬虫遇到的一些问题。如:
检索错误
点击出错的部分,会列出哪些URL因为什么原因出错。
出错的URL
这个虚拟机版本已经内置了一些数据。每次测试前,都需要把数据清空。 在 “管理”—>“重置索引”里, 点击“立即重置索引”可以清空所有已经抓取的数据。
看着这些似曾相识的界面,应该能明白我以前写那篇《google 的良苦用心:网站管理员工具》的依据了。
第二个应用就是可以探测到google大部分基本的排序规则。
以前很多人在做SEO过程中对很多排名因素都是不能确定的。 如:到底 h1 放多少个好、有没有必要加导出链接等等。
有了GSA,就可以做大量的 A/B测试,就能把很多因素都测试出来。 如:测试<h2>和<strong>这两个标签哪个对排名的影响更大一点。
那就可以设计A和B两个网页,其他部分都一模一样,只是某个特定的关键词,A网页是用<h2> 加粗的,B网页是用<strong>加粗的。 用GSA只收录这两个网页,并且只对这两个网页进行排名。在前台搜索这个关键词,看哪个网页排在前面,这样就可以知道哪个因素对排名的影响大一些了。
有点需要注意一下的是,那些被测试的网页,如果上面有链接而你又没做限制的话,爬虫会顺着这些链接把很多网页都收录进来,那会对测试结果造成干扰。
A/B测试
类似的测试方法还有很多,只要你想得到都可以去测试。 这样能把google宣称的200多项排序规则中的一大半规则都可以测试出来。 不过要明白一点的是:即使能把所有的规则测试出来,也不一定能做好SEO,在《怎样形成一套非常科学系统的SEO方法》中我说过:做搜索引擎是一回事,在搜索引擎上拉流量又是另一回事。 等大家把很多排序规则都测试出来了再来做SEO就明白了。