怎样判断页面的价值

  查找引擎每天处理着数以亿计的查询恳求,每个查询恳求都代表了一个用户关于某种资源的特定需求。大都时分,经过查询回来的网页成果,这些需求被满意了,咱们可以以为成果中的某些页面临特定用户的特定需求发生了价值。那么关于查找引擎而言,页面的价值是指什么,咱们为什么要研讨页面价值,技能上怎样判别页面的价值呢?本文将逐个答复这些问题。

  

  一、 什么页面价值。

  

  前面咱们说了,某个页面满意了某一用户的特定需求,就表现了这个页面临用户的价值。那么对查找引擎而言,价值表现在哪些方面呢?一个简略的推论,一切可能会对用户发生价值的页面都是对查找引擎有价值的,将这些页面建入查找引擎的索引中可以满意终究检索到它们用户的需求,咱们称这种价值为检索价值。只要是能处理某个用户信息需求的,并且是可以经过某些正常检索需求抵达的,那么就是有检索价值的。

  

  小学生张三喜爱在qzone上写日记,写他前天吃了什么,今日玩了什么。这些内容,是有价值的。它们对张三的家长、同学、教师,以及其他小学生,和对小学生日记感兴趣的人来说,都是有价值的。关于这个信息体来说,“张三”这个姓名是检索的“key”。

  

  有一些信息单元,只要“阅读”价值,而没有抵达该信息的检索途径,那么该资源可能是有价值的,但检索价值就很低。比方一张百度大厦附近的地图,从阅读视点,是有价值的;可是假如没有任何周边文字说明(或许link的anchor text),只要一张光溜溜的地图,就没有检索价值。当然,假如图片的内容辨认技能,有朝一日能主动辨认出这个是“百度大厦附近地图”,或许可以主动分分出地图内的各种大厦、大街、饭馆等的名称,那么这张图一样变得有检索价值了。所以一个页面是否有检索价值,应该取决于两点:

  

  1) 是否能处理某个特定的需求(价值)

  

  2) 是否可以经过某个常规的查找方法获得该信息(检索)

  

  那么,没有检索价值的页面,是否对查找引擎就没有价值了呢?细心想想,答案是否定的。索引仅仅查找引擎的一个环节,关于其他环节而言,没有检索价值的页面有可能对咱们更好的录入那些检索价值高的页面有协助。比方对担任抓取互联网资源的spider而言,有一些页面,自身没有检索价值,但经过这些页面的抓取和剖析,可以更快的协助咱们把握这一类页面没有检索价值这一重要信息,然后节约更多的流量进行愈加有效的抓取。

  

  考虑到这种价值可以算作一种“间接的”检索价值,终究还是立足于索引价值的,在本文中就不再打开论说,咱们只重视“检索价值”这一根本问题。下文中说到的“页面价值”特指页面的“检索价值”。

  

  二、 为什么要研讨页面价值

  

  首要,互联网上的页面是无穷尽的,而查找引擎的硬件资源是有限的,想用有限的资源去掩盖无穷尽的互联网,咱们就需求对页面价值做出判别,不录入那些无检索价值的页面,少录入那些检索价值低的页面。这是页面价值在录入操控方面的使用。

  

  第二,查找引擎spider的抓取才能是有限的,出于拜访友好性的考虑,关于一个网站或一个IP抓取速率需求有一个抓取速率的上限。在这一约束下,抓取或页面更新就需求有一个先后顺序,而这一排序的首要参阅根据就是页面价值,或许说对页面价值的猜测(未抓取时)。这是页面价值在spider调度方面的使用。

  

  第三,关于某些页面,页面内容发生变化,导致它的检索价值从有到无,典型的就是变为“死链”,或许“被黑”。关于这些页面,好的查找引擎会在第“一”时间将其扫除出索引,或在检索时对其进行屏蔽,以保证回来给用户的成果是更多检索价值高的“好页面”。关于另一些页面,它不只具有很高的检索价值,并且有很强的“时效性”,可以第“一”时间让用户检索到这些页面临查找体验有很大的提高。对查找引擎而言,越快的录入和索引页面意味着越多的额定资源开支,以多快的速度录入和以多短的周期更新索引,需求经过页面价值的剖析来辅导。这两方面是页面价值在死链率和时效性两大查找引擎目标提高上的使用。

  

  最终,遍及意义上的页面价值凹凸对查找引擎回来给用户的成果排序上也存在着辅导意义。理想情况下查找引擎的成果是依照与查询恳求的相关性进行排序的,在相关性大体相当的情况下,用户更倾向与阅读遍及意义上页面价值高的网页。这是页面价值在ranking方面的使用。

  

  可以说,页面检索价值的研讨是查找引擎中的一项较为根底的作业,对页面价值的知道和判别的精确程度直接影响着查找引擎的掩盖率、死链率、时效性等几大首要目标。

  

  三、 怎么判别页面价值

  

  前文中说到过一个小学生张三qzone日记的比方。咱们以为这个页面是有价值的,对张三的同学,朋友,家人都有价值。与此类似的,百度CEO李彦宏在i贴吧上宣布一条十几个字的i贴,也是有价值的,对李彦宏的上千万粉丝都有价值。尽管李彦宏的i贴长度可能远小于张三的日记,但就这两个页面的价值来说,咱们都会有一个一起的知道,即从遍及意义上讲,李彦宏的i贴价值远大于张三的日记。(当然,关于张三的妈妈来说很可能这个价值的关系是相反的)

  

  再举个比方,查找某个人的手机号码,查找引擎回来了一个成果,是这个人在某个论坛上的一个回复。尽管这个手机号码关怀的人不多,但由于资源是肯定稀缺的,关于关怀这个手机号码的查询需求,这个页面是彻底不行替代的,因而具有极高的价值。

  

  别的,页面检索价值,还受到页面质量的影响。类似的页面,关于满意用户需求来说,往往会有很大差异,比方资源下载速度,页面的布局,广告的多寡。这类差异,权且称之为页面质量。

  

  最终,有些页面具有显着的公众话题性质,且这些资源往往在刚刚发生时有十分高的重视度,随着时间的推移热度明显下降,有着“新闻”的特征。典型的像各种“门”事情,地震、火灾等大型的自然灾害。咱们以为这类资源具有“时效性”特征。


回到

顶部