超链分析和PageRank

2024-02-27 10:48
文章标签 pagerank 链分析

本文主要是介绍超链分析和PageRank,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

	自己整理的一些资料
超链分析
	超链分析的基本原理是:在某次搜索的所有结果中,被其他网页用超链指向得越多的网页,其价值就越高,就越应该在结果排序中排到前面。超链分析是一种引用投票机制,对于静态网页或者网站主页,它具有一定的合理性,因为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果可以反映网页的重要程度,从而给用户提供更重要、更有价值的搜索结果。
	可是搜索引擎,并不能真正理解网页上的内容,它只能机械地匹配网页上的文字。它收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之间的关联程度以及一个站点在整个网络上的关联程度来确定的。使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链接的URL、AnchorText,甚至链接周围的文字。
	所以,有时候,即使某个网页A 中并没有某个词,比如“软件”,但如果有别的网页B 用链接“软件”指向这个网页A,那么用户搜索“软件”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“软件”  的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A 在用户搜索“超链分析”时也会被认为相关度越高,排序也会越靠前。
	超链分析是最近几年搜索引擎技术的研究重点,取得了很大的成功,百度等搜索引擎的技术基础,但是,从搜索引擎的基本功能来看,超链分析很可能是走入了一条错误的道路。搜索引擎的基本功能是从浩如烟海的网页信息中找到用户所想要寻找的信息,目前所有实用的搜索引擎技术都是以“关键字匹配”为最基础的原理的。
	但是,超链分析本质上是针对一种公开的、通行的价值评估体系的。
	当用户搜索的目的是寻找关于某些关键字的站点资源或网站入口时,它是有效的;但当用户搜索的目的是寻找关于某些内容的有效信息本身时,超链分析的结果不仅没有参考价值,而且会破坏用户搜索结果的精确度。
	

这篇关于超链分析和PageRank的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/752138

相关文章

Java反序列化漏洞-TemplatesImpl利用链分析

文章目录 一、前言二、正文1. 寻找利用链2. 构造POC2.1 生成字节码2.2 加载字节码1)getTransletInstance2)defineTransletClasses 2.3 创建实例 3. 完整POC 三、参考文章 一、前言 java.lang.ClassLoader#defineClass defineClass可以加载字节码,但由于defineClas

随机游走的PageRank算法 sensitive PageRank

随机游走的pagerank建立在pagerank基础之上, PageRank的简单介绍请看这里http://blog.csdn.net/zhonghuan1992/article/details/24396435 请先看随机游走的pageRank算法部分代码(代码写的挫了写见谅),根据代码分析 #include <cstdio>#include <cstring>#includ

PageRank算法浅析

转载请注明出处!!!http://blog.csdn.net/zhonghuan1992 本文是根据 Topic-Sensitive PageRank  Google’s PageRank:The Math Behind the Search Engine   http://blog.csdn.net/hguisu/article/details/7996185 http://blog

Java反序列化漏洞与URLDNS利用链分析

前言 前面学习过 Java 反序列化漏洞的部分知识,总结过几篇文章: 文章发布日期内容概括《渗透测试-JBoss 5.x/6.x反序列化漏洞》2020-07-08JBoss 反序列化漏洞 CVE-2017-12149 的简单复现,使用了 ysoserial 和 CC5 链,未分析漏洞原理和具体利用链原理……《渗透测试-Fastjson 1.2.47 RCE漏洞复现》2020-07-11Fast

搜索引擎算法之初探——PageRank、DocRank

从文档集合中找出出现搜索词的文档,进一步可能是通过搜索词在文档中出现的次数来对文档排名,这种搜索就是信息检索(Information retrieval)。 有很多现有的库可以很方便的就让我们做出来这些工作,其中最有名的当属Lucene了。当然,现在的搜索已不单单是索引了,而在于链接分析、用户点击分析和自然语言处理等方面,这些技术能大大的增强搜索的性能。 基本搜索 构建一个搜索引擎的基本步骤

【补充】图神经网络前传——PageRank

对于任何一个网页,都可以给出网页的重要度,给每个网页重要度打分,高分的靠前。 改变世界的谷歌PageRank算法_哔哩哔哩_bilibili (这个参考资料考虑之后去自己看看) 把互联网用图来表示,每一个网页就是一个节点,网页之间的引用(放一个超链接,比如)就是边。不过现在可能这样就不太方便了,因为现在的网页是可以随时生成的(比如支付成功页面),同时还有无法触达的部分(比如朋

头歌:Spark案例剖析 - 谷歌网页排名引擎PageRank实战

第1关:海量数据导入:SparkSQL大数据导入处理 任务描述 工欲善其事必先利其器,大数据分析中最重要的是熟练掌握数据导入工具的使用方法。Spark SQL是Spark自带的数据库,本关你将应用Spark SQL的数据导入工具实现文本数据的导入。其中,graphx-wiki-vertices.txt文件中含有网页及其id数据,graphx-wiki-edges.txt文件中含有网页及其连接网

Java反序列化-CC4-2-5-7链分析

环境搭建 在之前环境原有代码的基础上,添加这一段代码 <dependency><groupId>org.apache.commons</groupId><artifactId>commons-collections4</artifactId><version>4.0</version></dependency> CC4链分析 CC4可以拼接动态类的加载字节码或者反射调用

Python数学建模学习-PageRank算法

1-基本概念 PageRank算法是由Google创始人Larry Page在斯坦福大学时提出,又称PR,佩奇排名。主要针对网页进行排名,计算网站的重要性,优化搜索引擎的搜索结果。PR值是表示其重要性的因子。 中心思想: 数量假设:在网页模型图中,一个网页接受到的其他网页指向的入链(In-Links)越多,说明该网页越重要。  质量假设:当一个质量高的网页指向(Out-Link