STAKE中国官方网站看法
动态网页对SEO的影响
宣布时间:2009-07-07
动态网页关于搜索引擎的索引都不比静态网页更为友好。。。。。。这也就是STAKE中国官方网站一直强调应该将URL静态化的缘故原由之一。。。。。。本文章会剖析动态网页为什么会对搜索引擎的索引有影响。。。。。。
动态网页是响应用户使用行为时自动天生的网页,,,,,,在用户发出请求之前,,,,,,动态网页是不保存的。。。。。。动态网页给网络爬虫带来了贫困。。。。。。
举例来说,,,,,,众所周知的搜索引擎的检索效果页面就是动态网页。。。。。。搜索引擎收到用户提交的盘问请求后,,,,,,会搜索它的数据库,,,,,,查找相关的地点,,,,,,并天生一个效果页面。。。。。。这个页面会整合盘问效果及其他信息,,,,,,如搜索引擎标识和广告。。。。。。它天生的网页是一个真实的网页,,,,,,有惟一的URL(对大大都搜索引擎来说),,,,,,可是,,,,,,若是爬虫会见搜索引擎站点,,,,,,它不会发明该网页,,,,,,由于该网页是响应盘问请求天生的,,,,,,响应竣事后,,,,,,连忙被扫除。。。。。。
从该例可以看出,,,,,,在网络上有许多有用信息。。。。。。但不是以静态网页形式泛起的。。。。。。这些网页必需向数据库发出一个请求才华会见,,,,,,包括一些图书馆目录、商业产品数据库以及数字图书馆。。。。。。这些通常只是被称作“不可见的网络”或者“深度网络”的一部分,,,,,,前一个看法已经由Sherman和Price普及(2001)。。。。。。爬虫数据的使用者必需接受这一不可阻止的局限性,,,,,,即网络爬虫无法找到大宗差别类型的动态网页。。。。。。
有趣的是,,,,,,一些运营网络数据库的信息提供商也拥有大宗静态网页,,,,,,甚至是数据库的要害部分,,,,,,因此,,,,,,搜索引擎能完全地索引这些页面。。。。。。
对链接剖析而言,,,,,,未将爬虫数据建库已不是问题,,,,,,但有一个相关问题值得注重,,,,,,即有些网站以动态网页为焦点,,,,,,而不是以数据库为焦点。。。。。。有一些网络手艺可用于自动天生动态网页,,,,,,包括PHP手艺(PHP:Hypertext Pre-processor-arecursive acronym)和ASP(Active Server Pages)手艺。。。。。。
动态网页一经是爬虫的一浩劫题。。。。。。设计爬虫时,,,,,,通常都回避动态网页(如Charkabarti,,,,,,Joshi,,,,,,Punera,,,,,,&Pennock,,,,,,2002)。。。。。。识别动态网页时,,,,,,只需要看URL中是否泛起问号,,,,,,含问号的就是动态网页。。。。。。忽略动态网页是由于它们容易造成蜘蛛陷阱。。。。。。蜘蛛陷阱理论上是一个无限的网页荟萃,,,,,,而蜘蛛永远不可完整地遍历这个荟萃。。。。。。在线日历就是一个容易被忽略的蜘蛛陷阱,,,,,,它天生的动态网页中可以标上任何日期,,,,,,并包括指向后一天网页的链接。。。。。。一个爬虫从这个日历中找到一个网页后,,,,,,便会无止田地请求后一天的网页。。。。。。
商业搜索引擎的爬虫通;;;;;;;;乇苷庑┐屎诺腢RL,,,,,,由于这些URL可能会导致蜘蛛陷阱。。。。。。Google已经放宽了对这些站点的限制。。。。。。Google爬虫似乎有另一种阻止蜘蛛陷阱的要领。。。。。。举例来说,,,,,,它可能沿着指向带问号URL的链接爬行,,,,,,但不会爬取带问号的URL,,,,,,这样便可以跳出蜘蛛陷阱的递归循环。。。。。。
链接剖析研究者应当注重,,,,,,研究型的网络爬虫不可遍历含动态网页的站点,,,,,,或者只能遍历深度较浅的站点。。。。。。商业搜索引擎的爬虫也是云云。。。。。。在使用爬虫的时间,,,,,,应当果真所使用的参数,,,,,,以便其他研究者能判断这些参数对效果的影响。。。。。。遍历参数荟萃枚举如下:
·拒绝会见带有如下子串的URL:?,,,,,,cgi-bin,,,,,,&
·拒绝会见凌驾最大斜线数的URL
·拒绝会见凌驾最大字符数的URL
影响搜索引擎收录就会间接影响到SEO项目,,,,,,只管现在各大搜索引擎算法对动态网页的索引都有了很大的改善。。。。。。可是与其等搜索引擎来改变这个事情,,,,,,为什么不自己就做的很好???????站点静态化仍然是SEO中很是须要的一个事情。。。。。。
下一篇:动态链接对SEO的影响
相关内容NEW
24小时免费服务咨询热线:400-080-3010
连忙咨询
联系STAKE中国官方网站






连忙咨询
联系STAKE中国官方网站