大地seo:排序计算
来源: 搜索引擎爱好者 - Xlxh.Com 时间:2007-12-19
搜索引擎排序计算第二课:白条鸡
白条鸡的理论是我总结的一个计算过程,实际就是经过白条鸡的计算,获得一个主题明确,关键字列表准确的页面。也就是搜索的第二步计算过程,在该过程中,搜索引擎把提取回来的页面形成AD存入数据库,在此处调出,分成链接和文本进行深入的“褪毛”。
该内容的学习需要有几个概念大家理解一下:
一、网页消噪(净化):就是识别和清除网页内的噪音部分的东西,使得主题干净。像推了毛的白条鸡。
二、网页消重:去除已经收集的网页集合中,内容重复的网页。这样就可以做到,用户查询是不会出现大量相同的页面。
三、粒度:最小单元的意思。一般指关键字。
这个大家可以有同感的,大量的广告、导航、页脚、非主题文本、非主题列表等等噪音会使得主题漂移,实际的一个页面的主题,浏览者用肉眼是很容易区分的,但是程序却不是太容易。
这里不做深入的分析了,该处的计算过于复杂,形成了标签树,特征标签,相关度,权重传递等等,总之,调用了相关的很多的模块,最后实现 第一:去除噪音,确立的主题,第二:依据主题,形成了相关的关键字列表,第三:依据关键字列表为最终的排序创造了必备的条件。
大地原创-欢迎以链接形式的转载
