深入细致对百度抓取进行剖析
更新时间:2014/5/19 点击:1120次
互联网的资源之庞大,是让人不能小觑的。身为这众多资源中的一员,如何能够从多如沙粒的资源中脱颖而出,是我们需要一直钻研的问题。当然,尽可能的熟悉百度的抓取习惯,是最重要的一个方面。 首先,我们需要在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。一般来说,对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。 其次,百度蜘蛛对于定时更新的、原创的网站会形成习惯性的爬取,所以,我们应该养成定时更新并且保证原创的习惯,这样才能保证百度总是对你的网站保持新鲜感。 最后,对于网站的架构,一定要清晰简单,不能过于迂回曲折。这样,蜘蛛爬取才更容易。