STAKE中国官方网站看法
搜索战略
宣布时间:2009-02-23
怎样凭证链接结构及对网络数据的剖析确定适用的会见战略,,,,,,,是信息收罗的要害。。。。。。。。常见的会见战略包括通例遍历算法和优化遍历算法两类。。。。。。。。
网络资源数目重大,,,,,,,种类多样。。。。。。。。任何搜索引擎要收罗所有的网络资源,,,,,,,既不可能,,,,,,,也没有须要。。。。。。。。怎样凭证链接结构及对网络数据的剖析确定适用的会见战略,,,,,,,是信息收罗的要害。。。。。。。。常见的会见战略包括通例遍历算法和优化遍历算法两类。。。。。。。。
通例遍历形式,,,,,,,通常包括广度优先算法、深度优先算法、IP地点搜索战略等。。。。。。。。
广度优先算法凭证链接的条理举行,,,,,,,在会见完一个条理后再举行下一条理的会见,,,,,,,云云由浅入深、逐级举行。。。。。。。。这一算法可以增添会见的广度,,,,,,,使得多个服务器的上层资源获得收罗,,,,,,,但链接结构中条理较后的有价值资源往往难于获得。。。。。。。。
深度优先算法从起始页面出发,,,,,,,沿页面上的某一个链接举行搜索,,,,,,,逐级深入,,,,,,,一直抵达底层网页,,,,,,,才返回起始页,,,,,,,选择其他链接举行类似的会见。。。。。。。。这种算法可以遍历一个站点F的深层页面,,,,,,,但会影响它的遍历广度或遍历的时间,,,,,,,有时尚有陷入循环状态的危险。。。。。。。。
IP地点搜索战略将会见限制在指定的IP地点规模中,,,,,,,不思量各文档中指向其他站点的链接。。。。。。。。这种算法能够有针对性地关于特定领域的资源举行收罗,,,,,,,适合于凭证特定目的体例的搜索引擎。。。。。。。。
上述种种方法在现实使用中也可以凭证需要,,,,,,,团结使用,,,,,,,例如将广度优先与深度优先团结等。。。。。。。。但一样平常情形下,,,,,,,这些通例遍历形式通常只提供一样平常的会见算法,,,,,,,并不可优化收罗的质量。。。。。。。。要刷新收罗质量,,,,,,,应当凭证使用的需要,,,,,,,选择与系统有较高相关性且质量较量高的网页,,,,,,,并团结接纳响应的优化收罗算法。。。。。。。。有些论文叙述了网络收罗中常用的一些优化算法,,,,,,,包括:
(1)兴趣驱动(Interest-driven)。。。。。。。。即以用户需求作为网页收罗的依据。。。。。。。。通常依据检索杏询与网络的匹配度确定,,,,,,,要领是依据选定的盘问词集作为网页收罗的依据,,,,,,,凭证盘问词与网页文本的匹配水平确定其相关性,,,,,,,同时团结该词在整个网页库中的反文献频率(idf),,,,,,,确定其主要性值。。。。。。。。由于使用idf项需要的全局信息在收罗历程中无法获得,,,,,,,可凭证已收罗到网页的平均值或以已往数据的估算值加以取代。。。。。。。。
(2)盛行驱动(Popularity-driven)。。。。。。。。即判断主要性水平或获得认可的普遍水平,,,,,,,要领是考察指向它的链接数目。。。。。。。。接纳这一方法,,,,,,,通常应盘算出网页获得的链接数目,,,,,,,并将这一数目作为是否收罗的依据。。。。。。。。越发周全地判断网页主要性的要领,,,,,,,是使用Google的PageRank算法,,,,,,,同时盘算链接该网页的其他网页的主要性,,,,,,,但这一要领需要涉及相关网页的链接情形,,,,,,,在收罗的情形下很难做到。。。。。。。。
(3)网址驱动(Location-driven)。。。。。。。。即不是以内容,,,,,,,而是将网址作为判断网页主要性的依据,,,,,,,包括,,,,,,,对特定域名付与高值,,,,,,,举行针对性收罗;;;;;;;;关于包括特定字串如"home"的地点付与高值;;;;;;;;选用带有较少斜线的网址等。。。。。。。。网址驱动容易操作,,,,,,,在特定系统中也十分有用。。。。。。。。例如在专业搜索引擎中,,,,,,,可以明确将选定的网站、域名作为网页收罗的界线。。。。。。。。
URL列表的排序控制是在收罗控制器中举行的,,,,,,,在未获得网页的情形下,,,,,,,网址驱动是一个可以直接加以接纳的方法,,,,,,,如北大天网在搜索中接纳这一要领;;;;;;;;但关于相关性判断或主要性判断,,,,,,,由于在会见历程中,,,,,,,不可能事先获得该网页数据,,,,,,,一样平常只能使用收罗器已收罗的信息作为依据。。。。。。。。例如,,,,,,,使用已收罗网页的锁定文本(Anchor Text)来预计特定网页可能包括的文本,,,,,,,甚至以“相近”网页的文本作为评估依据等。。。。。。。。某个文献纪录了接纳上述要领在有限规模中试验的情形。。。。。。。。一些论文讨论了团结数据挖掘举行收罗优化的问题,,,,,,,但现在仍缺乏大型搜索引擎现实应用的例子。。。。。。。。
上一篇:网站内容SEO的细节,内容准确性
下一篇:搜索引擎的排序和算法
相关内容NEW
24小时免费服务咨询热线:400-080-3010
连忙咨询
联系STAKE中国官方网站






连忙咨询
联系STAKE中国官方网站