当前位置:主页 > 刷百度指数 > /正文

搜索引擎收录网页的四个阶段

作者:风力刷百度指数    时间:2018-07-21 11:31

第一阶段:大小通吃

搜索引擎网页的抓取主要采取的是大小通吃的策略,简单的说就是把网页中所能发现的链接逐一添加到待抓取的URL中,然后机械性的将新抓取的URL从网页中提取出来,虽然这种方式较为古老,但是其效果还是很好的,而这也是蜘蛛访问后,没有收录的原因。

第二阶段:网页评级

Pagerank是目前比较著名的一种链接分析算法,可以用来衡量网页的重要性,并且非常自然,而站长们都用pagerank的思路来对URL进行排序,这也就是大家所热衷的发外链,据了解,中国的发外链市场每年大概有上亿元的规模。爬虫的目的是下载网页,但是pagerank却是个全局性的算法,只有当所有网页下载完成,那么所计算的结果才会是最可靠的。对于中小网站来说,如果服务器的质量不好,在进行抓取时,就只能看到部分内容,那么在抓取阶段是无法获得可靠的pagerank得分。

第三阶段:OCIP策略

OCIP策略可以说是更像pagerank算法的改进,在算法开始前,每个网页都会给予相同的“现金”,每当我们对某个页面A进行下载后,A就会将自己的“现金”平均分给页面中所包含的链接页面,从而清空自己的“现今”,而这也是导出链接越来越少,权重越来越高的原因之一。

对于待抓取的页面,它会根据自己手头拥有的“现金”多少来进行排序,优先下载“现金”充足的页面,OCIP的思路还是大致和pagerank是一样的,都适合于实时计算,而很多网页出现秒收的情况也很有可能就是因为这个。

第四阶段:大站优先策略

大站都是走的优先策略,多以网站为单位来衡量一个网页的重要性,对于待抓取的URL队列中的网页,会根据所述来进行网站分类,例如:哪个网站等待下载的页面最多,就对其优先下载。由于大型网站一般包含的页面更多,也大多都是名站,其网页质量相对也比较高,所以它的本质思想还是倾向于优先下载大型网站URL。

总结:虽然这个算法相对比较简单粗暴,但是其收录高质量网页的效果却很好,而这也是为什么很多网站内容被转载后,大站却能把你挤下来的原因之一。

本文地址:http://www.flpex.com/bdzs/617.html

上一篇:刷西瓜视频播放量
下一篇:如何刷新浪博客访问量

相关推荐
Tags:
刷指数

最新文章



刷百度指数 联系我们
  • 咨询电话:18927460947
  • 客服QQ:208777028

  • 扫一扫关注我们的微信号

    刷百度指数二维码