STAKE中国官方网站

STAKE中国官方网站看法

简化的HITS算法与原理示例

宣布时间:2009-07-17

HITS算法,,,,,网上有较量详细先容的文章并未几 。。。。 。 。。STAKE中国官方网站之前有一篇关于HITS算法的文章是,,,,,HITS搜索引擎算法的研究 。。。。 。 。。

HITS算法,,,,,网上有较量详细先容的文章并未几 。。。。 。 。。STAKE中国官方网站(www.seo.com.cn)之前有一篇关于HITS算法的文章是,,,,,HITS搜索引擎算法的研究 。。。。 。 。。;;;;氐街魈,,,,,从现在搜索引擎算法来看,,,,,HITS算法饰演着很主要的位置 。。。。 。 。。是较量权威和使用普遍的算法之一 。。。。 。 。。HITS算法要比PageRank算法重大些,,,,,但可以用简朴的形式形貌其实质,,,,,同时也会给出其事情原理的示例 。。。。 。 。。

HITS算法,,,,,首先要做的是判别与主题相关的网页荟萃,,,,,要划分为每个提交给搜索引擎的用户盘问判断出一个主题相关网页集 。。。。 。 。。若是网页知足下面的条件,,,,,便可判断它们是与主题相关的:

a)这些网页属于一个网页荟萃,,,,,且网页荟萃中含有与用户盘问最相关的文本 。。。。 。 。。

b)这些网页链向知足a条件的网页,,,,,或是知足a条件的网页链向该网页 。。。。 。 。。

这里有一个主要的链接假设是部分基于“链接——内容”假设的 。。。。 。 。。也就是说,,,,,若是一个网页与主题相关的网页有链接关系,,,,,纵然它并不含有与主题相匹配的文本信息(至少从用户盘问文原来看是这样的),,,,,该网页也可能是与主题相关的 。。。。 。 。。

纵然是凭证文本内容判断出来的相关网页,,,,,有些时间也并不相关,,,,,由于在实践中很难判断主题相关性,,,,,尤其是那些自己就有歧义的盘问 。。。。 。 。。一个经典的例子就是“美洲虎” 。。。。 。 。。用户可能是想要盘问动物,,,,,或以该词命名的汽车的相关信息 。。。。 。 。。效果,,,,,返回的与主题相关的网页却是不全的,,,,,且只是部分相关的 。。。。 。 。。但Kleinberg的试验批注,,,,,这并不是一个严重问题 。。。。 。 。。

算法的第二部分是为主题相关荟萃中的每个页面算出其中心度和权威度 。。。。 。 。。算法使用了与PageRank算法中相似的投票要领,,,,,同时也接纳了逆向投票机制,,,,,使得每个网页都可以给链向它的网页投票 。。。。 。 。。HITS算法的效果是为每个网页付与一其中心度和一个权威度,,,,,而不是像前面所说的那样,,,,,只是将它们区分为中心网页和权威网页 。。。。 。 。。

简化的HITS算法:

阶段:找出与盘问相关或主题相关的网页荟萃

1.凭证搜索引擎中用户输入的文本盘问,,,,,找出t个与该盘问最为相关的文本网页,,,,,其中t是预先设定的参数;;;;;

2.向荟萃中添加所有与匹配网页保存着链接关系(链向或者被链向)的网页;;;;;

3.移除所有的站内链接;;;;;

第二阶段:初始化每个网页的中心度和权威度

4.为每个网页付与一个权威权重X和中心权重y,,,,,如X=y=1;;;;;

第三阶段:重复投票历程

5.统计每个网页的入链网页的中心度之和,,,,,盘算出每个网页的权威权重;;;;;

6.统计每个网页的出链网页的权威度之和,,,,,盘算出每个网页的中心权重;;;;;

7.将所有网页的中心度都除以最高中心度以将其标准化,,,,,将所有网页的权威度都除以最高权威度以将其标准化;;;;;

8.重复第5步到第7步n次,,,,,而Kleinberg在一些言论当中是建议重复20次;;;;;

第四阶段:报告效果

9.返回一张排好序的网页列表,,,,,列表中的网页有些具有较高的中心度,,,,,有些则具有较高的权威度,,,,,这样用户自己就可以选出他们以为是好的那种类型的网页(Kleinberg建议选择前5—10其中心网页和前5-10个权威网页) 。。。。 。 。。

tel 24小时免费服务咨询热线:400-080-3010

连忙咨询连忙咨询 联系STAKE中国官方网站联系STAKE中国官方网站
【网站地图】【sitemap】