【如何用大语言模型快速深度学习系列】从word2vec、SVD到GloVe

2023-11-08 00:11

本文主要是介绍【如何用大语言模型快速深度学习系列】从word2vec、SVD到GloVe,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

三天热度果然名不虚传,写作的效率有所下降,但是只要坚持二十一天就能养成习惯啦!冲冲冲!
又被推进每日值得看啦!那我加油,尽量补充点内容,使其更加精彩!

上一节回顾 文章链接

在上一章我们将词的概念,通过n-gram组合成了n个词的切片,终于将前后词之间建立了一个联系,可以根据词的关系,逐步看见句子之间的相似度,以及根据高频词能够判断文章之间的关联程度。

上一节todo

  1. 相关代码未补充完整预计明后两天停更新新内容,将前面进行代码补全。
  2. 编辑距离忘了补充。
  3. jieba的详细介绍以及如何自己制作词典没有介绍。

写在第四节和第五节前面的引入部分

one-hot向量表示文本的不足之处
  1. one-hot太稀疏
    回到1-gram和2-gram的例子:
  • 我喜欢看电影
    用单词出现次数来表示:【“我”:1.“喜欢”:1,“看”:1,“电影”,1】

  • 我喜欢看电影。
    用2-词片段出现次数来表示:【“我喜欢”:1.“喜欢看”:1,“看电影”:1】

现在我们对“我”,“喜欢”,“看”,“电影” 进行编码,最简单的其实是我们一直以来的,按照索引,[1,0,0,0]第0个是“我”,[0,1,0,0]这是“喜欢”,而在不同的文章和规则下,比如2-gram下的,[1,0,0]表示“我喜欢”,在很长的文章里,则有数千甚至过万的词,编码格式为 [1,0,0…0],即为one-hot编码,为此,英文采用了基础词+前缀+后缀进行编码等奇思妙想来充分利用一些“0”,但这依然很稀疏

  1. one-hot近义词同义词很难体现
    如果按abc顺序进行排序,则“爱戴”,“尊敬”很难体现其应用场景相似相近,因为点乘永远是0。
    如果按偏旁部首排序,则“抵达”和“到达”很难体现其意义相近,同理
    如果按出现频率排序,按上一节tfidf,我们明白,高频词只有出现在少部分文章的时候,才具有意义,否则我们是会将其判断为停用词,即没有意义的词。
    如果用哈希表和预先拥有的知识构建词典,我觉得这个想法不错,但工作量巨大。
总之,one-hot的最大优点在于简单灵活、清晰明了,对于指定的、小文本任务中,依然发挥着十分重要的作用。而为了解决稀疏问题和词之间的语义联系等,我们可以阅读第四节 word2vec 和第五节 SVD 啦!

第四节 word2vec

概念

大模型对word2Vec
这个概念写的不是很符合我的心意,我们试试inscode
inscode结果
inscode字写得多,其实就会更加全面一些,但是单从回答依然可能看的是一头雾水,因此我还是会用通俗易懂的方式理解一下概念。

理解

还是从例子引入
设x1 = 苹果, x2 = 水果 x3 ≈ 中华田园犬,x4 = 狗
由苹果与水果的关系,中华田园犬与狗的关系都是被包含关系,于是理论上我们能确定一个关系式:word2vec (x2) - word2vec(x1) =(≈) word2vec(x4) - word2vec(x3)

  1. word2vector的目标将原本的一个词/词切片,经过编码就会变成一个低维度的向量(一个word 变成了 vector)比如有1万词,可能降低到16维,然后通过向量唯一表示该词
    注:图片引用自fond_dependent的这篇博客
  2. word2vector的向量应用这个向量可以描述词于词之间的关系,比如水果到苹果的向量之差就等于中华田园犬到狗之差。
  3. word2vector的向量的进一步推理自然而然的,苹果换成香蕉,仍然成立
    f(水果) - f(香蕉) ≈ f(狗) - f(中华田园犬) ≈ f(水果) - f(苹果),我们发现word2vector居然完成了f(香蕉) ≈ f(苹果),可以得到向量空间上两个向量的距离是靠近的!同时他们是唯一表示的,因此不会是等号。
  4. 关于距离与相似度 描述向量之间的距离有很多种,有多少种距离,就有更多种相似度的度量方法!

埋一个坑:做一个向量距离、相似度的整理与总结
再埋一个坑:做一个降维的方法总结,可能涉及到机器学习方法、深度学习方法

实现方法

上面是一些理论性的东西, 相信有了上面四个点的例子和推理,我们能对word2vector有了一个清晰的认识,而具体如何找到这个函数f(x),达到所需效果,现在更多会使用神经网络实现,我们可以忘记所有方法,把握两个关键点即可使用任何方法实现。

  1. 如何将10000个词字用16个维度表表示(10000和16突出的是降维程度之大)
    理论上,降维的方法有很多,设置降低到目标维度如何设置,最好等等,都是根据不同的任务进行确认。
    李沐的《动手学深度学习》中提供了代码视频,github代码,利用的是神经网络,然后我这两天也在尝试使用机器学习方法,然后用长短不一的数据集做一些实验进行对比,得到一些经验:

  2. 解决 f(香蕉) ≈ f(苹果)的方法:
    训练数据:基于大量的文本,用词语的前后词语来判断,如1:我去上海玩耍;2:我去南京玩耍,此时,上海和南京会被判断为类似,此时通过f(上海) = f(南京) 来调整权重。由此,我们可以退而求

  • 通过附近词预测中心词:CBOW,连续词袋模型,C指的是连续,BOW指的是词袋(第一节内容)

  • 通过中心词预测附近的词:Skip-gram,跳元模型,Skip指的是跳,-gram指的是n-gram是一样的(第二节内容)

总结

经过这一节,我们更多是停留在概念层次。代码部分即将有详细注释版

# 详细注释版 敬请期待

第五节 SVD


第六节 GloVe

这篇关于【如何用大语言模型快速深度学习系列】从word2vec、SVD到GloVe的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/366896

相关文章

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

Rust中的Option枚举快速入门教程

《Rust中的Option枚举快速入门教程》Rust中的Option枚举用于表示可能不存在的值,提供了多种方法来处理这些值,避免了空指针异常,文章介绍了Option的定义、常见方法、使用场景以及注意事... 目录引言Option介绍Option的常见方法Option使用场景场景一:函数返回可能不存在的值场景

C语言线程池的常见实现方式详解

《C语言线程池的常见实现方式详解》本文介绍了如何使用C语言实现一个基本的线程池,线程池的实现包括工作线程、任务队列、任务调度、线程池的初始化、任务添加、销毁等步骤,感兴趣的朋友跟随小编一起看看吧... 目录1. 线程池的基本结构2. 线程池的实现步骤3. 线程池的核心数据结构4. 线程池的详细实现4.1 初

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;