PageRank算法浅析

2024-08-25 22:58
文章标签 算法 浅析 pagerank

本文主要是介绍PageRank算法浅析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转载请注明出处!!!http://blog.csdn.net/zhonghuan1992

本文是根据 Topic-Sensitive PageRank 

Google’s PageRank:The Math Behind the Search Engine  

http://blog.csdn.net/hguisu/article/details/7996185

http://blog.codinglabs.org/articles/intro-to-pagerank.html

前两篇是关于pagerank的两篇超赞的论文和后两个博客的关于pagerank的理解,然后我总结了一下,再加上一些自己的理解。真诚感谢上面的作者。

1. PageRank提出背景

      PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。

PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。(摘自维基百科)

先说一下PageRank提出的背景吧,一开始搜索引擎出来的时候,可不是像现在我们看到的这样神奇,大部分的搜索,我们都可以在前几页找到我们想要的网页。不过等一下,不要我说到这里,大家就觉得PageRank如此神奇,就是它帮助我们搜到自己想要的东西的,回答是,当然不完全是,如今的搜索结果是经过很多加权得来的,pageRank肯定是起到作用的,究竟多少,这就不得而知了。pageRank当时提出来,一是为了提高搜索结果的正确性(这是大头),而是可以应对那个时候网站为了提高自己在某些关键词的排名而做出的一些不好的举措。在pageRank出来前,网络上的排名很大程度上依靠关键词的出现的次数,这就导致了一些问题,你懂得。只要网页关键词多点,那么就。。。当然,pageRank并非万能,但是却是结果优化了很多。

google的两个创世人,就想如何能够将重要的网址,人们想要的网址排在前面。他们从论文索引次数得到了启发,好的论文,引用次数肯定是高的。就这样,pageRank就被创建了。当然正如很多注明历史一样,我们说得轻巧,其实过程是不容易的。

2. PageRank算法

pageRank算法上面已经介绍了是从论文引用次数得到启发,那么具体是怎么样呢?其实聪明的你应该能够有所思考这样的方式了(maybe you are next page)一个网页,大都在页面上有转向其它页面的链接,就想本文开头就有四个链接一样,大多数页面也是有转进来的。其实,就可以将网页之间的关系,转向成为一个有向图,有向图的基本概念是阅读下文的前提,如果你还没有接触过,那么请自行了解。

- ---- 图 1

1是一个有向图,你也可以看成是网页之间的关系。如果网页A有指向网页B的链接,那么A就有一条指向B的有向边。从图中可以看出,网页A分别有指向B,C,D的边,D会自己指向自己的链接,其它的就不多说啦。

好滴,模型转化完毕,接下来就是如何得到我们的结果,pageRank算法,将每一个网页根据链接关系来进行分级,越重要的网页,越多网页会链接到它,那么他的评分必定更高,可是pageRank是如何来利用有向图的拓扑结构计算网页的重要分数的呢?

从图1可以看出,c的概率等于1/3A+1/2 B,(由指向它的边决定)

那么我们的每个页面的概率,就可以用上面指向它的边的概率进行推导得出了。

令Wi表示第i个页面,Ni表示Wi页面上的对外连接数,然后我们需要进行推算了,怎么推,其实求网页的重要性的过程就好像一个马尔科夫的过程,我们的重要性,其实可以用用户需要访问Wi的概率进行描述,然后,有两个假设,一:开始所有页面的概率都是相同的;二:用户当前在Wi页面,那么用户访问Wi页面上的外连接网页的概率都是1/Ni。然后概率的转移方式就是这样的:

表示第n次迭代的时候,第i个网页的被访问概率;表示第j个网页是否有转向第i个网页的链接,有为1,没有为0;

上面的公式,如果转化为矩阵运算,会更简单,令H为矩阵,。上面的递推公式转化为:


所以只要给个P(0)就可以算出Pn了,那么P0,根据假设一,是1/(所有网页数),假设所有网页开始的概率相同嘛。然后开始计算,当P趋于稳定时,我们的任务便完成了。

说到这里可能读者会觉得有点模糊。想一下,怎么衡量网页符合用户的需求,自然会想到他访问该网页的概率,概率如何进行好的计算,我们可以用有向图上的关系来进行递推,概率转化关系就是这样进行的。

不过到这里,我们的转移方式还是不完美,为什么呢,因为最后面有一些网页的没有入边,没有出边,还有一些其他问题,比如两个网页,互相连接,那么两个网页的概率不会趋于稳定,反倒是(1,0)-->(0,1)-->(1,0)-->(0,1)这样反复震荡。为了克服这些个问题。引入了修正因子,其实我也并不太了解的数学性质,它存在的意义可以理解为概率。了解更多,可以看这里,原公式就变为了这样了:


G是替代H的新的转移矩阵,这里的a表示网页i是否是孤立的节点(可怜的没有人链接)的,如果i是则ai=1,否则为0;

可以从概率的角度上说,用户有的概率通过网页上的链接访问新的网页,或者的概率通过输入新的网址(而不是点击链接)访问网页。


新的转移方式,可以确保能够得到收敛。

就这样了,如果您发现文章有问题,请留言告诉我





这篇关于PageRank算法浅析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1106885

相关文章

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

poj 3974 and hdu 3068 最长回文串的O(n)解法(Manacher算法)

求一段字符串中的最长回文串。 因为数据量比较大,用原来的O(n^2)会爆。 小白上的O(n^2)解法代码:TLE啦~ #include<stdio.h>#include<string.h>const int Maxn = 1000000;char s[Maxn];int main(){char e[] = {"END"};while(scanf("%s", s) != EO

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

dp算法练习题【8】

不同二叉搜索树 96. 不同的二叉搜索树 给你一个整数 n ,求恰由 n 个节点组成且节点值从 1 到 n 互不相同的 二叉搜索树 有多少种?返回满足题意的二叉搜索树的种数。 示例 1: 输入:n = 3输出:5 示例 2: 输入:n = 1输出:1 class Solution {public int numTrees(int n) {int[] dp = new int