Google 的 PageRank 算法

Google 的 PageRank 算法


来源:中国网络传播网  作者:佚名



  为了得到更好的搜索结果,尤其是使搜索引擎自动抵制那些基于对详细等级标准页面(入口页)内容的分析而自动生成的网页,连接人气值的概念开始被开发了。根据这个概念,一个网页文件的入链数量通常表示此文件的重要程度。因此,一般地,如果从其他网页链接到一个网页的数量越多,那么这个网页就越重要。链接人气值的概念通常可以避免那些只被创造出来欺骗搜索引擎并且没有任何实际意义的网页得到好的等级,然而,许多网站管理员为了避免发生这种情况,他们从其他没有意义的网页创建大量入站链接,而不是从入口页(doorway pages)。

  Contrary to the concept of link popularity, PageRank is not simply based upon the total number of inbound links. The basic approach of PageRank is that a document is in fact considered the more important the more other documents link to it, but those inbound links do not count equally. First of all, a document ranks high in terms of PageRank, if other high ranking documents link to it.

  与链接人气值向比较,PageRank的概念并不是简单地根据入站链接的总数。PageRank基本的方法是,越是重要的文件链接一个文件,则这个文件就越重要,但那些入站链接并不是被平等计算的。首先,如果其他高等级的文件连接到它,那么根据PageRank的规则,此文件的等级也高。

  So, within the PageRank concept, the rank of a document is given by the rank of those documents which link to it. Their rank again is given by the rank of documents which link to them. Hence, the PageRank of a document is always determined recursively by the PageRank of other documents. Since - even if marginal and via many links - the rank of any document influences the rank of any other, PageRank is, in the end, based on the linking structure of the whole web. Although this approach seems to be very broad and complex, Page and Brin were able to put it into practice by a relatively trivial algorithm.

  如此, 在PageRank概念中,文件的等级由与它连接那些文件的等级决定的。它们的等级再由与他们连接文件的等级决定。因此, 文件的PageRank由其他文件的PageRank总递归之和确定。因为,即使是在边缘的少量链接,任一个文件的等级都会影响些其他文件的等级,概言之,PageRank的等级是由整个网的连接结构决定的。虽然这种方法似乎是非常宽泛和复杂的, Page和Brin已经能够通过一个微不足道的运算法则将它投入实践了。

  个人总结:PageRank绝对是个很科学的小创意。说他科学,你会在我以后的文章中看到Google是如何将数学(具体来说多数是统计学)理论淋漓尽致地发挥在搜索技术之中。说他“小”,因为这些理论对于搞数学的人来说实在太微不足道了,甚至稍微有些科学高数知识的人都能理解。

  我一向认为,搜索引擎对于互联网的价值就好比桌面操作系统对于计算机的价值,微软已经无可争议地占领PC桌面之后,互联网的桌面之争从Internet诞生起就异常惨烈,后来Yahoo!因为进入互联网最早而取得阶段性胜利。不过那时候的搜索引擎对于我们来说好比是马桶……不得不用,一用就恶心。那时无论是Yahoo! 、AltaVista、AllTheWeb或者Lycos,搜索出来几乎都是大便。

  对于我来说,生命中出现搜索引擎的一天,是我同学的一个英国的同学告诉我用用看www.google.com。
 

继续。以下文字翻译自http://pr.efactory.de/e-pagerank-algorithm.shtml


  Lawrence Page和Sergey Brin在个别场合描述了PageRank最初的算法。这就是

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) ——算法1

|<< << < 1 2 3 > >> >>|


·上一篇文章:Overture注册方式简介
·下一篇文章:百度关键词竞价价格查询


转载请注明转载网址:
http://www.jmkt.cn/html/search/142400567.htm