AI大模型之路 第三篇:从零实现词嵌入模型,加深理解!

2024-04-20 20:12

本文主要是介绍AI大模型之路 第三篇:从零实现词嵌入模型,加深理解!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

你好,我是郭震

fab19d4a9ab5bcff6ad27bfb8c64be65.png

今天我们研究「AI大模型第三篇」:词维度预测,很多读者听过词嵌入,这篇文章解答下面问题:

  • 词嵌入是什么意思?

  • 怎么做到的?原理是什么?

  • 从零实现一个专属你数据集的词嵌入

我们完整从零走一遍,根基的东西要理解透,这样才能发明出更好的东西。

1 skip-gram模型

Skip-gram模型是一种广泛使用的词嵌入(Word Embedding)方法,由Mikolov等人在2013年提出。它是Word2Vec模型的一种形式,主要用于从大量文本中学习词汇的高质量向量表示。

Skip-gram模型的目标是通过给定的目标词来预测其上下文中的词汇,从而在这个过程中学习词的嵌入表示

因此,Skip-gram模型通过给定词预测上下文,来最终学习到每个单词的词嵌入表示。

有些同学可能不理解,通过给定词预测上下文,是什么意思?为什么要这么做?

因为,某个单词的上下文是有规律可寻的,比如 am单词的上下文,一般就是 Iteacher,或tiredam后面一定不会出现:eatwalk,因为两个动词不可能出现在一起。

正是利用这个规律,也就是已知条件,我们学习到另一些好的特性,比如在这里,我们学习到每一个单词的数学向量表示,计算机只认得数字,它不认识我们认识的单词。

2 求解问题

假设我们有一个简单的句子:"the quick brown fox jumps over the lazy dog",并且我们选择Skip-gram模型进行词向量的训练。

我们可以挑选“fox”作为输入词,上下文窗口大小为2:

  • 输入:"fox"

  • 预测的上下文:"quick"、"brown"、"jumps"、"over"

3 求解思路:

  • 1 对“fox”进行独热编码。

  • 2 使用Word2Vec模型预测“fox”的上下文词。

  • 3 通过调整模型权重来最小化预测误差,使得模型可以更准确地预测到“fox”的正确上下文。

4 训练模型

用到的包

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset

词汇表和单词索引

sentence = "the quick brown fox jumps over the lazy dog"
words = sentence.split()
word_to_ix = {word: i for i, word in enumerate(set(words))}

创建你的数据集

context_size = 2
data = []
for i in range(context_size, len(words) - context_size):target = words[i]context = [words[i - j - 1] for j in range(context_size)] + [words[i + j + 1] for j in range(context_size)]data.append((target, context))class SkipGramDataset(Dataset):def __init__(self, data, word_to_ix):self.data = dataself.word_to_ix = word_to_ixdef __len__(self):return len(self.data)def __getitem__(self, idx):target, context = self.data[idx]target_idx = self.word_to_ix[target]context_idx = torch.tensor([self.word_to_ix[w] for w in context], dtype=torch.long)return target_idx, context_idx

创建模型SkipGramModel

class SkipGramModel(nn.Module):def __init__(self, vocab_size, embedding_dim):super(SkipGramModel, self).__init__()self.embeddings = nn.Embedding(vocab_size, embedding_dim)self.predictions = nn.Linear(embedding_dim, vocab_size)def forward(self, input_words):embeds = self.embeddings(input_words)scores = self.predictions(embeds)log_probs = torch.log_softmax(scores, dim=1)return log_probs

训练模型SkipGramModel

# 初始化模型和优化器
embedding_dim = 10
vocab_size = len(word_to_ix)
model = SkipGramModel(vocab_size, embedding_dim)
loss_function = nn.NLLLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)# 数据加载器
dataset = SkipGramDataset(data, word_to_ix)
dataloader = DataLoader(dataset, batch_size=1, shuffle=True)for epoch in range(50):total_loss = 0for target_idx, context_idx in dataloader:model.zero_grad()# 得到模型的预测对数概率输出log_probs = model(target_idx)# 循环计算每个上下文词的损失并累加loss = 0for context_word_idx in context_idx.view(-1):loss += loss_function(log_probs, context_word_idx.unsqueeze(0))# 反向传播和优化loss.backward()optimizer.step()total_loss += loss.item()print(f'Epoch {epoch + 1}, Loss: {total_loss}')

5 使用模型预测

使用模型SkipGramModel

def predict_context(model, input_word, word_to_ix, ix_to_word, top_n=3):# Check if the word is in the dictionaryif input_word not in word_to_ix:return f"Word '{input_word}' not in vocabulary."# Prepare the model for evaluationmodel.eval()# Convert word to index and wrap in tensorword_idx = torch.tensor([word_to_ix[input_word]], dtype=torch.long)# Forward pass to get log probabilitieswith torch.no_grad():log_probs = model(word_idx)# Convert log probabilities to actual probabilitiesprobs = torch.exp(log_probs).squeeze(0)  # Remove batch dimension# Get the indices of the top N probabilitiestop_indices = torch.topk(probs, top_n, dim=0)[1].tolist()# Convert indices back to wordstop_words = [ix_to_word[idx] for idx in top_indices]return top_words# Create a reverse dictionary to map indices back to words
ix_to_word = {index: word for word, index in word_to_ix.items()}# Example usage: predict context words for 'fox'
predicted_context_words = predict_context(model, 'fox', word_to_ix, ix_to_word, top_n=4)
print(f"Context words for 'fox': {predicted_context_words}")

6 结果分析

以上代码完整可运行,我们打印预测结果,看到预测fox的上下文是准确的:

6cd20392380611e7bc7e5b7340c5b7fc.png

最后打印我们得到的fox单词的嵌入词向量:

# 确保'fox'在词汇表中
if 'fox' in word_to_ix:# 获取'fox'的索引fox_index = word_to_ix['fox']# 获取嵌入层embeddings = model.embeddings# 提取'fox'的嵌入向量fox_vector = embeddings(torch.tensor([fox_index], dtype=torch.long))# 打印向量print("Embedding vector for 'fox':")print(fox_vector)
else:print("Word 'fox' not found in the vocabulary.")

我们这里嵌入词向量长度为10,见代码,看到打印结果长度也是10,这是正确的:

bde3ec2b7996e1987f8b74b73ef93008.png

我的课程

我打造了一个《Python从零到高薪就业全栈视频课》,目前上线700节课程,每节课15分钟,总共超180个小时。包括:《从零学Python》、《Python进阶》、《爬虫》、《NumPy数值分析》、《Pandas数据分析》、《Matplotlib和Pyecharts绘图》、《PyQt软件开发》、《接单项目串讲》、《Python办公自动化》、《多线程和多进程》、《unittest和pytest自动化测试》、《Flask和Django网站开发》、《基础算法》、《人工智能入门》、《机器学习》、《深度学习》、《Pytorch实战》,将我过去工作8年以及现在科研的经历都融入到课程中,里面有很多实际项目,是一个全栈技术课。

如果你想掌握全栈开发技术,提升你自己,提升就业能力,多学技能做副业项目赚钱等,可以报名,课程带有我的答疑。价格现在比较优惠,推荐现在加入。长按下方二维码查看,报名后加我微信:gz113097485

527a017c1f7531a76c9f96ea23270b85.png

这篇关于AI大模型之路 第三篇:从零实现词嵌入模型,加深理解!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/921217

相关文章

将java程序打包成可执行文件的实现方式

《将java程序打包成可执行文件的实现方式》本文介绍了将Java程序打包成可执行文件的三种方法:手动打包(将编译后的代码及JRE运行环境一起打包),使用第三方打包工具(如Launch4j)和JDK自带... 目录1.问题提出2.如何将Java程序打包成可执行文件2.1将编译后的代码及jre运行环境一起打包2

通俗易懂的Java常见限流算法具体实现

《通俗易懂的Java常见限流算法具体实现》:本文主要介绍Java常见限流算法具体实现的相关资料,包括漏桶算法、令牌桶算法、Nginx限流和Redis+Lua限流的实现原理和具体步骤,并比较了它们的... 目录一、漏桶算法1.漏桶算法的思想和原理2.具体实现二、令牌桶算法1.令牌桶算法流程:2.具体实现2.1

MySQL8.0设置redo缓存大小的实现

《MySQL8.0设置redo缓存大小的实现》本文主要在MySQL8.0.30及之后版本中使用innodb_redo_log_capacity参数在线更改redo缓存文件大小,下面就来介绍一下,具有一... mysql 8.0.30及之后版本可以使用innodb_redo_log_capacity参数来更改

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Java实现检查多个时间段是否有重合

《Java实现检查多个时间段是否有重合》这篇文章主要为大家详细介绍了如何使用Java实现检查多个时间段是否有重合,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录流程概述步骤详解China编程步骤1:定义时间段类步骤2:添加时间段步骤3:检查时间段是否有重合步骤4:输出结果示例代码结语作

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

Java覆盖第三方jar包中的某一个类的实现方法

《Java覆盖第三方jar包中的某一个类的实现方法》在我们日常的开发中,经常需要使用第三方的jar包,有时候我们会发现第三方的jar包中的某一个类有问题,或者我们需要定制化修改其中的逻辑,那么应该如何... 目录一、需求描述二、示例描述三、操作步骤四、验证结果五、实现原理一、需求描述需求描述如下:需要在

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本