STAKE中国官方网站看法
搜索战略
宣布时间:2009-02-23
怎样凭证链接结构及对网络数据的剖析确定适用的会见战略,,,,,,,,是信息收罗的要害。。。。。。常见的会见战略包括通例遍历算法和优化遍历算法两类。。。。。。
网络资源数目重大,,,,,,,,种类多样。。。。。。任何搜索引擎要收罗所有的网络资源,,,,,,,,既不可能,,,,,,,,也没有须要。。。。。。怎样凭证链接结构及对网络数据的剖析确定适用的会见战略,,,,,,,,是信息收罗的要害。。。。。。常见的会见战略包括通例遍历算法和优化遍历算法两类。。。。。。
通例遍历形式,,,,,,,,通常包括广度优先算法、深度优先算法、IP地址搜索战略等。。。。。。
广度优先算法凭证链接的条理举行,,,,,,,,在会见完一个条理后再举行下一条理的会见,,,,,,,,云云由浅入深、逐级举行。。。。。。这一算法可以增添会见的广度,,,,,,,,使得多个服务器的上层资源获得收罗,,,,,,,,但链接结构中条理较后的有价值资源往往难于获得。。。。。。
深度优先算法从起始页面出发,,,,,,,,沿页面上的某一个链接举行搜索,,,,,,,,逐级深入,,,,,,,,一直抵达底层网页,,,,,,,,才返回起始页,,,,,,,,选择其他链接举行类似的会见。。。。。。这种算法可以遍历一个站点F的深层页面,,,,,,,,但会影响它的遍历广度或遍历的时间,,,,,,,,有时尚有陷入循环状态的危险。。。。。。
IP地址搜索战略将会见限制在指定的IP地址规模中,,,,,,,,不思量各文档中指向其他站点的链接。。。。。。这种算法能够有针对性地关于特定领域的资源举行收罗,,,,,,,,适合于凭证特定目的体例的搜索引擎。。。。。。
上述种种方法在现实使用中也可以凭证需要,,,,,,,,团结使用,,,,,,,,例如将广度优先与深度优先团结等。。。。。。但一样平常情形下,,,,,,,,这些通例遍历形式通常只提供一样平常的会见算法,,,,,,,,并不可优化收罗的质量。。。。。。要刷新收罗质量,,,,,,,,应当凭证使用的需要,,,,,,,,选择与系统有较高相关性且质量较量高的网页,,,,,,,,并团结接纳响应的优化收罗算法。。。。。。有些论文叙述了网络收罗中常用的一些优化算法,,,,,,,,包括:
(1)兴趣驱动(Interest-driven)。。。。。。即以用户需求作为网页收罗的依据。。。。。。通常依据检索杏询与网络的匹配度确定,,,,,,,,要领是依据选定的盘问词集作为网页收罗的依据,,,,,,,,凭证盘问词与网页文本的匹配水平确定其相关性,,,,,,,,同时团结该词在整个网页库中的反文献频率(idf),,,,,,,,确定其主要性值。。。。。。由于使用idf项需要的全局信息在收罗历程中无法获得,,,,,,,,可凭证已收罗到网页的平均值或以已往数据的估算值加以取代。。。。。。
(2)盛行驱动(Popularity-driven)。。。。。。即判断主要性水平或获得认可的普遍水平,,,,,,,,要领是考察指向它的链接数目。。。。。。接纳这一方法,,,,,,,,通常应盘算出网页获得的链接数目,,,,,,,,并将这一数目作为是否收罗的依据。。。。。。越发周全地判断网页主要性的要领,,,,,,,,是使用Google的PageRank算法,,,,,,,,同时盘算链接该网页的其他网页的主要性,,,,,,,,但这一要领需要涉及相关网页的链接情形,,,,,,,,在收罗的情形下很难做到。。。。。。
(3)网址驱动(Location-driven)。。。。。。即不是以内容,,,,,,,,而是将网址作为判断网页主要性的依据,,,,,,,,包括,,,,,,,,对特定域名付与高值,,,,,,,,举行针对性收罗;;;;;;;关于包括特定字串如"home"的地址付与高值;;;;;;;选用带有较少斜线的网址等。。。。。。网址驱动容易操作,,,,,,,,在特定系统中也十分有用。。。。。。例如在专业搜索引擎中,,,,,,,,可以明确将选定的网站、域名作为网页收罗的界线。。。。。。
URL列表的排序控制是在收罗控制器中举行的,,,,,,,,在未获得网页的情形下,,,,,,,,网址驱动是一个可以直接加以接纳的方法,,,,,,,,如北大天网在搜索中接纳这一要领;;;;;;;但关于相关性判断或主要性判断,,,,,,,,由于在会见历程中,,,,,,,,不可能事先获得该网页数据,,,,,,,,一样平常只能使用收罗器已收罗的信息作为依据。。。。。。例如,,,,,,,,使用已收罗网页的锁定文本(Anchor Text)来预计特定网页可能包括的文本,,,,,,,,甚至以“相近”网页的文本作为评估依据等。。。。。。某个文献纪录了接纳上述要领在有限规模中试验的情形。。。。。。一些论文讨论了团结数据挖掘举行收罗优化的问题,,,,,,,,但现在仍缺乏大型搜索引擎现实应用的例子。。。。。。
上一篇:网站内容SEO的细节,内容准确性
下一篇:搜索引擎的排序和算法
相关内容NEW
24小时免费服务咨询热线:400-080-3010
连忙咨询
联系STAKE中国官方网站






连忙咨询
联系STAKE中国官方网站