十大经典数据挖掘算法——PageRank

2018-07-17
2888
0
0
0
Treant

PageRank 数据挖掘矩阵节点

1. 引言

PageRank是Sergey Brin与Larry Page于1998年在WWW7会议上提出来的，用来解决链接分析中网页排名的问题。在衡量一个网页的排名，直觉告诉我们：

当一个网页被更多网页所链接时，其排名会越靠前；
排名高的网页应具有更大的表决权，即当一个网页被排名高的网页所链接时，其重要性也应对应提高。

对于这两个直觉，PageRank算法所建立的模型非常简单：一个网页的排名等于所有链接到该网页的网页的加权排名之和：

（1）

PR_i表示第i个网页的PageRank值，用以衡量每一个网页的排名；若排名越高，则其PageRank值越大。网页之间的链接关系可以表示成一个有向图G=(V,E)，边(j,i)代表了网页j链接到了网页i；O_j为网页j的出度，也可看作网页j的外链数（ the number of out-links）。

假定P=(PR₁,PR₂,⋯,PR_n)^T为n维PageRank值向量，A为有向图G所对应的转移矩阵，

Aij={1Oi0if (i,j)∈EotherwiseAij={1Oiif (i,j)∈E0otherwise

n个等式(1)可改写为矩阵相乘：

P=A^TP (2)

但是，为了获得某个网页的排名，而需要知道其他网页的排名，这不就等同于“是先有鸡还是先有蛋”的问题了么？幸运的是，PageRank采用power iteration方法破解了这个问题怪圈。

2. 求解

为了对上述及以下求解过程有个直观的了解，我们先来看一个例子，网页链接关系图如下图所示：