STAKE中国官方网站看法
个性化网页权重PageRank算法研究
宣布时间:2008-11-01
现在关于个性化PageRank,,,,,,,,其他的常见要领尚有模子化PageRank(modular PageRank)和BlockRank等。。。。。。这些要领在详细的盘算要领上,,,,,,,,主要的特点体现在从效率的角度上对算法举行了须要的优化。。。。。。
现在关于个性化PageRank,,,,,,,,其他的常见要领尚有模子化PageRank(modular PageRank)和BlockRank等。。。。。。这些要领在详细的盘算要领上,,,,,,,,主要的特点体现在从效率的角度上对算法举行了须要的优化。。。。。。
关于加速PageRank算法的先前研究内容主要使用希罕性图结构手艺,,,,,,,,好比Arasu等提出的看法,,,,,,,,他们不但仅纯粹使用上次迭代循环爆发值来盘算本轮循环值,,,,,,,,也使用本轮循环已经爆发的值来加速本轮循环的盘算。。。。。。甚至提出了Web网络的蝴蝶结结构,,,,,,,,并将其用于PageRank值的有用盘算中。。。。。。然而这些要领并不具有很大的适用性,,,,,,,,主要缘故原由在于算法要求对Web网络矩阵举行排序,,,,,,,,这个操作需要凭证深度搜索优先的原则举行网络遍历,,,,,,,,这显然是一种价钱极大的运算。。。。。。最近Kamvar等也提出一些算法,,,,,,,,使用一连中心循环来推断真实PageRank更好的预计值,,,,,,,,可是仍然保存受PageRank算法初始参数影响的缺乏之处。。。。。。
现在关于Web网络图结构的剖析主要关注于研究图的属性,,,,,,,,如节点的漫衍、网页链接的情形和Web网页图结构的建模等。。。。。。然而,,,,,,,,关于这些研究并没有强调怎样有用使用这些属性来加速超链剖析。。。。。。
不少学者提出了一些刷新做法,,,,,,,,如Raghavan和Garcia-Molina等使用主机名称或者URL隐含的Web结构来代表Web图更为乐成的做法也有许多,,,,,,,,如Jeh和Widom通过有限修改网页的权值来表达的个性化网页权重,,,,,,,,这个主要性权值可以反应用户指定的初始兴趣网页。。。。。。由于对个性化视图的盘算需要重复遍历整个Web图结构中的网页,,,,,,,,这只有在运行时代才华实现,,,,,,,,以是事先盘算和存储所有的个性化视图并不现实。。。。。。他们使用新的图论效果和手艺构建出表达个性化视图的“偏好向量”(partial vector),,,,,,,,它可以在差别用户的个性化视图中共享,,,,,,,,同时关于它的盘算和存储破费与视图数目的几多泛起出合理的比例。。。。。。在盘算中,,,,,,,,还可以接纳递增式盘算,,,,,,,,这就使得在盘问时代使用偏好向量去构建个性化视图是可行的。。。。。。这个偏好向量即为个性化PageRank向量(personalized PageRank vector,,,,,,,,PPV),,,,,,,,通俗地说,,,,,,,,PPV是种Web网页的个性化视图。。。。。。凭证这个PPV来对网页效果举行排序可以有用地表达用户的偏好。。。。。。
简朴地看,,,,,,,,每个PPV的长度都为咒,,,,,,,,即Web的网页数目。。。。。。可是由于从一个牢靠的角度循环盘算PPV需要多次遍历Web网页图,,,,,,,,这显然是不可能作为一种在线响应用户盘问的方法。。。。。。从另一个角度来看,,,,,,,,所有PPV向量的总数目会抵达2n(n为网页总数),,,,,,,,这显然又过于重大而无法实现离线存储。。。。。。以是,,,,,,,,必需将p荟萃中泛起的网页限制为hub网页荟萃H的子集。。。。。。H荟萃通常包括一些用户最为感兴趣的网页。。。。。。在实践中,,,,,,,,H荟萃可以是具有较高PageRank值的网页荟萃(主要网页)、在人工分类目录中的网页(如Yahoo和Open Directory)、特定企业或程序的主要网页等。。。。。。H荟萃可以看成是盘算个性化的基础。。。。。。这种基于PPV的盘算方法,,,,,,,,不像古板的方法,,,,,,,,能够和H荟萃巨细成优异的比例缩放关系,,,,,,,,并且这种手艺也可以在更大的PPV荟萃上取得近似的效果,,,,,,,,知足一些关于恣意偏好网页荟萃的个性化盘算要求。。。。。。
除此以外,,,,,,,,尚有一些在盘算效果上举行刷新的算法。。。。。。
如一种较为乐成的做法是BlockRank要领,,,,,,,,它主要是充分使用Web网页间链接结构泛起一种块状结构的特征来刷新算法效率。。。。。。关于Web网络块状结构的特征,,,,,,,,已有许多学者举行了论证。。。。。。例如,,,,,,,,据Bharat等的剖析,,,,,,,,通过比照剖析Web网络的链接结构,,,,,,,,可以发明近80%左右的网页超链都是统一站点主机内部差别网页间形成的,,,,,,,,而差别主机站点间网页的超链比重仅为20%左右。。。。。。若是去除无用的死链接,,,,,,,,这一比重体现得越发不平衡,,,,,,,,近似于9:l。。。。。。进一步将考察规模限制在域名级别后,,,,,,,,上述的两个比重都有显着的增添,,,,,,,,一为84:16,,,,,,,,二为95:5,,,,,,,,不平衡性显着加剧。。。。。。一样平常在一个主机站点内,,,,,,,,大部分的超链由于导航和站点安排,,,,,,,,往往会在几个要害的网页上具有较多的内部链接。。。。。。例如,,,,,,,,高校站点内一样平常会对诸如图书馆、教务处和学生处等网页爆发很高的链接比重。。。。。。着实这种内部链接较高、外部链接较低的情形在差别级别的Web网页图结构中普遍保存,,,,,,,,爆发了显着的块化征象,,,,,,,,并且大部分的块结构都远远小于整个Web的图结构。。。。。。
这种Web网络所具有的块化结构有助于快速盘算PageRank,,,,,,,,同时为表达个性化PageRank提供了优异的基础。。。。。。这个算法的思绪概略形貌如下:先对每个主机的网页盘算外地化的PageRank值,,,,,,,,获得在主机内部的相对主要权值。。。。。。这些外地化的PageRank向量可以进一步凭证差别Web网页块的相对主要水平加权形玉成局PageRank值的近似值,,,,,,,,然后将此PageRank向量作为标准PageRank算法的起始向量。。。。。。不可否定,,,,,,,,个性化PageRank虽然是个很是吸引人的主意,,,,,,,,可是它需要对大规模的PageRank向量举行有用的迭代盘算,,,,,,,,而使用BlockRank算法和对冲浪者的随机冲浪行为做简朴的限制就可以有用地镌汰个性化PageRank值的盘算重漂后。。。。。。这个限制就是当他厌倦时,,,,,,,,他并不是从诸多网页中选择,,,,,,,,而是从主机站点中举行选择。。。。。。也就是说,,,,,,,,此时无需考察冲浪者跳转的网页,,,,,,,,而只思量跳转的站点。。。。。。这时结构的个性化向量具有的维度就是Web网络中主机的个数K,,,,,,,,并且向量的元素值也反应冲浪者对差别主机的偏好水平。。。。。。有了这个限制,,,,,,,,外地化PageRank向量就无需针对差别的个性化用户而改变。。。。。。事实上,,,,,,,,外地化的PageRank向量也不会由于矩阵B结构的改变而改变,,,,,,,,只有BlockRank向量6才会由于差别的个性化特征而改变,,,,,,,,因此只需对每个基于块结构的个性化PageRank向量举行重新盘算。。。。。。
应该说,,,,,,,,岂论从理论上看,,,,,,,,照旧从实践上看,,,,,,,,使用个性化PageRank来实现搜索引擎的个性化服务是个非??????尚械难≡瘢,,,,,顺应Web网络资源对信息检索提出的特点要求。。。。。。它不但在推荐效果内容上综合思量网页客观性权重这个主要指标,,,,,,,,并且该要领性能较高,,,,,,,,主要盘算事情都在离线阶段完成。。。。。。然而,,,,,,,,这些现有的个性化PageRank手艺都需要用户登录并自动提交个性化信息,,,,,,,,却忽略了用户对Web网页的明确,,,,,,,,没有挖掘用户使用行为,,,,,,,,网络用户个性化信息的方法不自然,,,,,,,,这显然加重了用户的使用肩负。。。。。。以是,,,,,,,,虽然说节约了用户挑选相关网页的时间,,,,,,,,可是用户却需要花更多的时间去实现搜索个性化。。。。。。由此可以看出,,,,,,,,探讨获取用户个性化信息的其他有用形式将是提高此要领效果的要害所在,,,,,,,,本书也主要对此举行研究,,,,,,,,探寻更好的个性化信息网络和表达要领以适用于个性化PageRank算法中,,,,,,,,该要领较为客观和周全。。。。。。
上一篇:基于要害词的网页权主要领研究
下一篇:SEO个性化网页权重研究之二
24小时免费服务咨询热线:400-080-3010
连忙咨询
联系STAKE中国官方网站






连忙咨询
联系STAKE中国官方网站