[干货汇总]LSA及SVD介绍

2024-09-06 08:38
文章标签 介绍 汇总 干货 svd lsa

本文主要是介绍[干货汇总]LSA及SVD介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 前言

近期在看关于NER(Named Entity Recognition)的paper,里面涉及到的几个机器学习的算法,需要学习一下,在网上看了一些相关干货,汇总一下前人智慧。

首先贴出几篇写的还不错的blog

blog1 LSA潜在语义分析

该blog是在Wiki中翻译过来,翻译的反正比我看原文理解的好,进行初步了解还是不错的。

blog2 SVD矩阵奇异值分解 && LSA潜语义分析算法 && PLSA

该blog讲解了一些矩阵的基本知识,比如矩阵的秩、单位矩阵、对角矩阵、特征向量、特征值等。

blog3 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

该blog介绍了一种LSI实际的应用例子,可以拿来参考。

blog4 Latent Semantic Analysis(LSA/ LSI)算法简介

该blog中讲解了传统向量空间模型的缺陷

website1 特征值与特征向量

该网页介绍了特征值和特征向量的算法,需要在上述算法中使用到的。

SVD Tutorial

SVD官方介绍

2、LSA or LSI的应用

摘自blog1
低维的语义空间可以用于以下几个方面:
1 在低维语义空间可对文档进行比较,进而可用于文档聚类和文档分类。(–ing)
2 在翻译好的文档上进行训练,可以发现不同语言的相似文档,可用于跨语言检索。
3 发现词与词之间的关系,可用于同义词、歧义词检测。(–ing)
4 通过查询映射到语义空间,可进行信息检索。
5 从语义的角度发现词语的相关性,可用于“选择题回答模型”(multi choice qustions answering model)。

3 内容

由上述文章可以对SVD、LSA有一个基本上的了解,LSA使用SVD对矩阵进行奇异分解,说白了其实就是是降维,将原本的稀疏矩阵(该矩阵的行列是比较大的,比如10000*10000等等,所以注定为稀疏矩阵)进行去燥,在 blog3 中 提到了在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了 ,具体原因总结如下:

  1. 原始的词-文档矩阵太大导致计算机无法处理,从此角度来看,降维后的新矩阵式原有矩阵的一个近似。
  2. 原始的词-文档矩阵中有噪音,从此角度来看,降维后的新矩阵式原矩阵的一个去噪矩阵。
  3. 原始的词-文档矩阵过于稀疏。原始的词-文档矩阵精确的反映了每个词是否“出现”于某篇文档的情况,然而我们往往对某篇文档“相关”的所有词更感兴趣,因此我们需要发掘一个词的各种同义词的情况。

这篇关于[干货汇总]LSA及SVD介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1141540

相关文章

Pytest多环境切换的常见方法介绍

《Pytest多环境切换的常见方法介绍》Pytest作为自动化测试的主力框架,如何实现本地、测试、预发、生产环境的灵活切换,本文总结了通过pytest框架实现自由环境切换的几种方法,大家可以根据需要进... 目录1.pytest-base-url2.hooks函数3.yml和fixture结论你是否也遇到过

MySQL中慢SQL优化的不同方式介绍

《MySQL中慢SQL优化的不同方式介绍》慢SQL的优化,主要从两个方面考虑,SQL语句本身的优化,以及数据库设计的优化,下面小编就来给大家介绍一下有哪些方式可以优化慢SQL吧... 目录避免不必要的列分页优化索引优化JOIN 的优化排序优化UNION 优化慢 SQL 的优化,主要从两个方面考虑,SQL 语

C++中函数模板与类模板的简单使用及区别介绍

《C++中函数模板与类模板的简单使用及区别介绍》这篇文章介绍了C++中的模板机制,包括函数模板和类模板的概念、语法和实际应用,函数模板通过类型参数实现泛型操作,而类模板允许创建可处理多种数据类型的类,... 目录一、函数模板定义语法真实示例二、类模板三、关键区别四、注意事项 ‌在C++中,模板是实现泛型编程

Python实现html转png的完美方案介绍

《Python实现html转png的完美方案介绍》这篇文章主要为大家详细介绍了如何使用Python实现html转png功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 1.增强稳定性与错误处理建议使用三层异常捕获结构:try: with sync_playwright(

Java使用多线程处理未知任务数的方案介绍

《Java使用多线程处理未知任务数的方案介绍》这篇文章主要为大家详细介绍了Java如何使用多线程实现处理未知任务数,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 知道任务个数,你可以定义好线程数规则,生成线程数去跑代码说明:1.虚拟线程池:使用 Executors.newVir

JAVA SE包装类和泛型详细介绍及说明方法

《JAVASE包装类和泛型详细介绍及说明方法》:本文主要介绍JAVASE包装类和泛型的相关资料,包括基本数据类型与包装类的对应关系,以及装箱和拆箱的概念,并重点讲解了自动装箱和自动拆箱的机制,文... 目录1. 包装类1.1 基本数据类型和对应的包装类1.2 装箱和拆箱1.3 自动装箱和自动拆箱2. 泛型2

四种Flutter子页面向父组件传递数据的方法介绍

《四种Flutter子页面向父组件传递数据的方法介绍》在Flutter中,如果父组件需要调用子组件的方法,可以通过常用的四种方式实现,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录方法 1:使用 GlobalKey 和 State 调用子组件方法方法 2:通过回调函数(Callb

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

java脚本使用不同版本jdk的说明介绍

《java脚本使用不同版本jdk的说明介绍》本文介绍了在Java中执行JavaScript脚本的几种方式,包括使用ScriptEngine、Nashorn和GraalVM,ScriptEngine适用... 目录Java脚本使用不同版本jdk的说明1.使用ScriptEngine执行javascript2.

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,