大地seo:排序计算

来源: 搜索引擎爱好者 - Xlxh.Com 时间:2007-12-19

搜索引擎的计算第一课:收录


我把搜索引擎的整个排序计算过程,分为5个阶段,『收录-白条鸡-排序计算-作弊计算-综合排名』这样比较便于研究和学习,以下逐一介绍,但是这些构思虽然不是凭空杜撰的,只是通过搜索引擎所表达的检索结果和一些相关的课题研究等等,最后得出的推断,没有得到搜索的任何认可,所以不一定是准确的,希望大家在阅读时候是带着参考的心态,同时希望能得到你的一些共识和高见。

收录:
(1)实际对于收录这个第一步的工作,搜索引擎的程序也是复杂的很,必须设想各种情况的发生。首先的控制对一个根url并发搜集线程的数目。要不就成了类似dos攻击的效果了。
(2)原始页面数据库。有了该数据库同样就是有个网页快照的资源库。
(3)搜索引擎收集来的url还必须处理重复网页的处理,以便减轻以后的计算负担。这个我的想法是这样,所谓的重复网页,多数指的是内容的镜像页面和重复的url。
(4)避免网页的重复收集:这个计算也是同样的重要,可以有效的减轻以下程序的负担。
(5)根url的理解:根url实际就该站唯一标识的最高父标识。

在搜索引擎收录实际是分为两种的办法的,手工提交和蜘蛛抓取。
蜘蛛顺着根URL,就会抓取取和构建该URL的集合。这个根 url 可以从一个友情链接获得,也可以是别的页面上的一个绝对链接获的等等。但是有一个原则,对于根URL所构建的URL集合,搜索引擎只是“找到为止”,但不是“不全部找到不罢休”,所以搜索收录的页面总是比你的实际页面要少一些。
对于新的根URL的收录实际也就是网站收录。而且作为每个页面的唯一标识,形成AD,存入数据库中。
但是从另一个方面,蜘蛛的主要工作就是在web上抓取网页,但是对于新的URL发现 和携带者根URL,去抓取更新的页面是不同的工作。可以针对优化加以利用。
手工提交就不耗述了!

结合网页的排序一个重点话题:
对于网站的彻底(或者大的)更新后,使用手工提交比较好,这样基本对于搜索引擎是彻底的提交。会顺着根URL去重新开始。这样新的开始再结合以前收录的因素,同时避免很多的死链接出现而增加阻尼页面,我觉得比较适合大更新后的网站。

大地原创-欢迎以链接形式的转载

Tags:大地seo 排序 计算
责任编辑:大地
共7页: 上一页 1 [2] [3] [4] [5] [6] [7] 下一页
[论坛交流] [复制链接] [打印] [返回首页]
上一篇:seo关键词优化    下一篇:大地seo:搜索引擎优化探讨

在Baidu中搜索"大地seo:排序计算"
在Google中搜索"大地seo:排序计算"
在Yahoo中搜索"大地seo:排序计算"