LLM模型:代码讲解Transformer运行原理

2024-09-07 15:28

本文主要是介绍LLM模型:代码讲解Transformer运行原理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

视频讲解、获取源码:LLM模型:代码讲解Transformer运行原理(1)_哔哩哔哩_bilibili

1 训练保存模型文件

2 模型推理

3 推理代码


import torch
import tiktoken
from wutenglan_model import WutenglanModelimport pyttsx3# 设置设备为CUDA(如果可用),否则使用CPU
# 这是因为许多深度学习算法在GPU上运行更高效
device = torch.device('cpu')
encoding = tiktoken.get_encoding("cl100k_base")# 加载模型
model = WutenglanModel(99849)
model_state_dict = torch.load('model\model-wutenglan-base.pt', map_location=device)
model.load_state_dict(model_state_dict)
model.eval()
model.to(device)start = '武'
# 对起始点进行编码,将其转换为模型可接受的输入格式
start_ids = encoding.encode(start)# 为编码的起始点创建一个张量,并且通过unsqueeze操作增加一个新的维度,以适应模型的输入要求
input_content = (torch.tensor(start_ids, dtype=torch.long, device=device)[None, ...])def text_to_speech(text):# 初始化引擎engine = pyttsx3.init()# 设置语速,可选参数,根据需要调整rate = engine.getProperty('rate')engine.setProperty('rate', rate - 50)  # 减少语速# 设置音量,范围 0.0 到 1.0volume = engine.getProperty('volume')engine.setProperty('volume', volume + 100)  # 增加音量# 获取可用的声音列表voices = engine.getProperty('voices')# 设置声音,例如选择第一个声音engine.setProperty('voice', voices[0].id)# 朗读文本engine.say(text)# 运行引擎,等待完成engine.runAndWait()# 在不进行梯度计算的上下文中生成文本,以减少内存占用并提高效率
with torch.no_grad():# 使用预训练模型生成文本,基于输入`input_content`,最大新生成的token数量为5output = model.inference(input_content, max_new_tokens=5)# 将生成的token序列转换为字符串文本text = encoding.decode(output[0].tolist())# 输出生成的文本到控制台print(text)# 将生成的文本转换为语音输出text_to_speech(text)

4 推理重点代码详解

4.1 截取上下文长度

last_context = input_content[:, -context_length:]

这行代码的主要作用是从输入序列 input_content 中截取最后 context_length 个token作为当前的上下文。这一操作对于许多基于Transformer架构的语言模型来说是非常重要的,因为这些模型通常有一个固定的输入长度限制(即 context_length),超过这个长度的输入需要被裁剪,以适应模型的处理能力。

如果删除这一行代码,那么在每次迭代中,你将会使用整个 input_content 作为模型的输入,这可能导致以下问题:

  1. 超出模型处理能力:如果 input_content 的长度超过了模型的设计长度(context_length),那么模型可能无法正确处理这么长的序列,导致错误或次优的结果。

  2. 内存问题:处理过长的序列可能会导致内存不足的问题,特别是在GPU上运行大型模型时。

  3. 计算效率低下:即使模型能够处理更长的序列,这样做也可能导致计算资源的浪费,因为模型只需要最新的上下文信息来进行下一步的预测。

方括号内的两个冒号是用来进行数组切片(slice)操作的符号。具体来说,在表达式 input_content[:, -context_length:] 中,第一个冒号和第二个冒号分别有不同的含义:

  1. 第一个冒号 (:)

    • 第一个冒号表示的是“所有”的意思。在这个上下文中,它意味着选择所有行。例如,在二维数组(矩阵)中,如果我们想要选择所有的行,我们可以使用 :。这意味着我们会保留所有的行。
  2. 第二个冒号 (:)

    • 第二个冒号同样用于指定切片范围,但它跟在负数索引 -context_length 后面,表示从 -context_length 到结尾(end of the sequence)。这里的 -context_length 是一个负数索引,它指向列表或数组的末尾往前数第 context_length 个位置。所以 input_content[:, -context_length:] 意味着选择每行的最后 context_length 个元素。

 4.2 线性层计算结果说明

【线性变换结果】

# 使用前向传播方法得到linear_predictions和损失
linear_predictions, loss = self.forward(last_context, None)

以上代码输出的linear_predictions形状如下: 

【线性变换说明】

linear_predictions 的形状 torch.Size([1, 2, 99850]) 中,每个维度都有特定的意义:

  1. 第一个维度 1

    • 这个维度通常表示批次大小(batch size)。在这里,1 表示当前批次只有一个样本。这意味着在这一时刻,模型正在处理一个单独的序列。
  2. 第二个维度 2

    • 这个维度通常表示时间步的数量(time steps)。在这里,2 表示当前批次中有两个时间步。这可能是因为 input_content 在进入模型之前已经包含了一个或多个先前的时间步,并且当前批次包含这些先前的时间步加上当前的时间步。
  3. 第三个维度 99850

    • 这个维度通常表示词汇表大小(vocabulary size)或输出特征的数量。在这里,99850 表示模型的输出空间大小,也就是模型可以预测的词汇数量。换句话说,模型在每个时间步上可以预测 99850 个不同的token之一。

总结一下:

  • [1]:批次大小,当前批次包含一个样本。
  • [2]:时间步的数量,当前批次包含两个时间步。
  • [99850]:输出特征的数量,模型可以预测 99850 个不同的token。

在文本生成任务中,模型的输出通常是一个概率分布,表示在当前上下文下下一个token的可能性。因此,linear_predictions 的形状表明模型在一个样本上有两个时间步,并且在每个时间步上输出了 99850 个可能的下一个token的概率值。

4.3 只关注最后一个时间步的linear_predictions

为什么要取最后一个时间步,而不取所有的。

假设我们有一个简单的文本生成任务,目的是根据前面的文本生成下一个词。为了简化讨论,我们假设词汇表只有几个词,比如 ['hello', 'world', 'how', 'are', 'you']

实际数据示例

假设我们的输入序列是 ['hello', 'world'],我们希望模型根据这个序列生成下一个词。为了说明这一点,我们可以构造一个简单的示例。

构造示例数据

  1. 词汇表

    • 假设词汇表为 ['hello', 'world', 'how', 'are', 'you']
  2. 编码映射

    • 我们需要将词汇表中的每个词映射到一个整数。例如:
      • 'hello' -> 0
      • 'world' -> 1
      • 'how' -> 2
      • 'are' -> 3
      • 'you' -> 4
  3. 输入序列

    • 输入序列 input_sequence 为 ['hello', 'world'],对应的编码序列为 [0, 1]

构造 linear_predictions 张量

假设模型已经处理了输入序列,并生成了 linear_predictions 张量,其形状为 [1, 2, 5]。这意味着:

  • 第一维 [1] 表示批次大小,当前批次包含一个样本。
  • 第二维 [2] 表示时间步的数量,当前批次包含两个时间步。
  • 第三维 [5] 表示词汇表大小。

假设 linear_predictions 的具体数值如下:

1linear_predictions = torch.tensor([
2    [
3        [0.1, 0.2, 0.3, 0.4, 0.5],  # 第一个时间步的预测值
4        [0.2, 0.3, 0.4, 0.5, 0.6]   # 第二个时间步的预测值
5    ]
6])

为什么取最后一个时间步

在文本生成任务中,我们通常只关心当前上下文的下一个词的预测。因此,我们通常取最后一个时间步的预测值来生成下一个词。

  1. 取最后一个时间步

    • linear_predictions[:, -1, :] 取的是最后一个时间步的预测值。
    • 在这个例子中,linear_predictions[:, -1, :] 将得到:
      tensor([[0.2, 0.3, 0.4, 0.5, 0.6]])
  2. 计算概率分布

    • 接下来,我们使用 F.softmax 将这些预测值转换为概率分布。
      import torch.nn.functional as Flast_timestep_predictions = linear_predictions[:, -1, :]
      probs = F.softmax(input=last_timestep_predictions, dim=-1)
  3. 采样下一个词

    • 使用 torch.multinomial 从概率分布中采样下一个词。
      idx_next = torch.multinomial(input=probs, num_samples=1)

为什么不取所有时间步

如果我们取所有的时间步,即 linear_predictions[:, :, :],我们将得到:

1tensor([
2    [
3        [0.1, 0.2, 0.3, 0.4, 0.5],
4        [0.2, 0.3, 0.4, 0.5, 0.6]
5    ]
6])

这将导致以下问题:

  1. 形状不匹配

    • 在计算 softmax 时,需要一个二维张量作为输入。如果我们取所有的时间步,形状为 [1, 2, 5],需要进一步处理才能进行 softmax 计算。
  2. 逻辑不一致

    • 在文本生成任务中,我们通常只关心当前上下文的下一个词的预测。取所有时间步的信息可能会引入不必要的复杂度,并且不符合逐词生成的逻辑。

示例代码

1import torch
2import torch.nn.functional as F
3
4# 构造示例数据
5vocab = ['hello', 'world', 'how', 'are', 'you']
6word_to_idx = {word: idx for idx, word in enumerate(vocab)}
7
8# 输入序列
9input_sequence = ['hello', 'world']
10encoded_sequence = [word_to_idx[word] for word in input_sequence]
11
12# 构造 linear_predictions 张量
13linear_predictions = torch.tensor([
14    [
15        [0.1, 0.2, 0.3, 0.4, 0.5],  # 第一个时间步的预测值
16        [0.2, 0.3, 0.4, 0.5, 0.6]   # 第二个时间步的预测值
17    ]
18])
19
20# 取最后一个时间步
21last_timestep_predictions = linear_predictions[:, -1, :]
22
23# 计算概率分布
24probs = F.softmax(input=last_timestep_predictions, dim=-1)
25
26# 采样下一个词
27idx_next = torch.multinomial(input=probs, num_samples=1)
28
29# 解码下一个词
30next_word = vocab[idx_next.item()]
31print("Next word:", next_word)

通过这种方式,我们只关注当前上下文的下一个词的预测。

4.4 SoftMax激活函数

Softmax 函数是一种常用的激活函数,在机器学习尤其是深度学习中具有重要作用。它的主要用途包括:

概率化输出:

Softmax 函数将一个 K 维的实数向量转换为另一个 K 维的向量,其中每个元素都是 [0, 1] 区间内的值,并且所有元素的和为 1。因此,经过 Softmax 处理后的输出可以解释为概率分布,这使得模型能够输出每个类别的预测概率。
6.2 激活函数的计算过程
假设我们有一个未归一化的得分向量 z=[1.0,2.0,3.0]z=[1.0,2.0,3.0],代表三个类别的得分。

4.5 torch.multinomial 进行随机采样

4.5.1 torch.multinomial作用

idx_next = torch.multinomial(input=probs, num_samples=1) 这段代码的作用是从一个概率分布中随机采样一个样本。具体来说,这段代码在文本生成任务中用于从当前时间步的预测概率分布中选择下一个 token 的索引。下面详细介绍这段代码的具体作用和实现细节。

代码详解

  1. probs 参数

    • probs 是一个一维张量,表示一个概率分布。在文本生成任务中,这个概率分布通常是对下一个可能生成的 token 的概率估计。例如,在你的例子中,probs 的形状是 [1, 99850],表示一个样本在最后一个时间步上的 99850 个可能的下一个 token 的概率分布。
  2. num_samples 参数

    • num_samples 表示从概率分布中采样的样本数量。在这个例子中,num_samples=1 表示我们只采样一个样本。
  3. torch.multinomial 函数

    • torch.multinomial 是 PyTorch 中的一个函数,用于从一个多维概率分布中进行随机采样。它根据提供的概率分布进行采样,返回一个索引,该索引指示采样出的 token 在词汇表中的位置。

具体实现

假设我们有一个概率分布 probs,其形状为 [1, 99850]。我们希望从这个概率分布中采样一个 token 的索引。

示例代码

1import torch
2import torch.nn.functional as F
3
4# 构造示例数据
5probs = torch.tensor([
6    [0.1, 0.2, 0.3, 0.15, 0.1, 0.05, 0.1]
7])  # 示例概率分布,形状为 [1, 7]
8
9# 从概率分布中采样一个 token 的索引
10idx_next = torch.multinomial(input=probs, num_samples=1)
11
12print("Sampled index:", idx_next.item())

代码流程

  1. 构造概率分布

    • probs 是一个形状为 [1, 99850] 的张量,表示一个样本在最后一个时间步上的 99850 个可能的下一个 token 的概率分布。
  2. 采样

    • 使用 torch.multinomial 从概率分布 probs 中采样一个索引。num_samples=1 表示我们只采样一个样本。
  3. 结果

    • idx_next 是一个形状为 [1, 1] 的张量,表示采样出的下一个 token 的索引。

详细解释

  1. 概率分布

    • probs 张量中的每个元素都是一个概率值,表示相应 token 被选中的概率。所有概率值之和为 1。
  2. 采样过程

    • torch.multinomial 根据提供的概率分布进行采样。它从 [0, 99849] 范围内随机选择一个索引,这个索引是基于概率分布 probs 进行的加权选择。也就是说,概率值较高的 token 被选中的可能性更大。
  3. 结果索引

    • idx_next 是一个形状为 [1, 1] 的张量,表示采样出的下一个 token 的索引。例如,如果 idx_next 的值为 3,则表示下一个 token 的索引为 3

示例代码

假设 probs 的具体值如下:

1probs = torch.tensor([
2    [0.1, 0.2, 0.3, 0.15, 0.1, 0.05, 0.1]
3])  # 示例概率分布,形状为 [1, 7]

我们从这个概率分布中采样一个 token 的索引:

1idx_next = torch.multinomial(input=probs, num_samples=1)
2print("Sampled index:", idx_next.item())

输出结果可能是:

1Sampled index: 2

这意味着根据给定的概率分布,采样出的下一个 token 的索引为 2

总结

idx_next = torch.multinomial(input=probs, num_samples=1) 这段代码用于从一个概率分布中采样一个 token 的索引。在文本生成任务中,这一步骤用于确定下一个生成的 token。通过这种方式,模型可以根据当前上下文的概率分布生成下一个 token,从而逐步构建出完整的文本序列。

4.5.2 torch.multinomial随机采样原因

在文本生成任务中,使用 torch.multinomial 进行随机采样而不是直接选择概率最大的 token 主要有以下几个原因:

1. 探索性(Exploration)

在生成文本时,如果每次都选择概率最大的 token,模型的行为会变得非常确定性和单调。这可能会导致生成的文本缺乏多样性和创造性。通过随机采样,模型可以在一定程度上探索不同的生成路径,从而产生更加丰富和多样的文本。

2. 平滑峰值(Smoothing Peaks)

在某些情况下,模型可能会过于自信地选择某个 token,即使这个 token 不一定是最佳选择。通过随机采样,可以平衡模型的置信度,避免过度依赖某个特定的选择。这有助于模型生成更加自然和流畅的文本。

3. 避免局部最优(Avoiding Local Optima)

直接选择概率最大的 token 容易让模型陷入局部最优解。通过随机采样,模型有机会跳出局部最优解,探索更多的可能性,从而找到全局最优解。

4. 更真实的模拟人类行为

人类在写作或说话时,并不总是选择最有可能的词,而是会根据上下文和个人风格做出选择。随机采样可以更好地模拟这种行为,使得生成的文本更加自然和真实。

5. 多样性(Diversity)

随机采样可以增加生成文本的多样性。如果总是选择概率最大的 token,生成的文本可能会非常相似,缺乏变化。通过随机采样,可以引入更多的变化,使得生成的文本更加多样化。

6. 控制生成过程

在某些应用场景中,可以通过调整采样过程中的温度参数(temperature parameter)来控制生成过程的随机程度。温度参数是一个正数,可以调节模型生成文本的多样性:

  • 温度较高(例如,大于1):模型的生成更加随机,可以探索更多的可能性。
  • 温度较低(例如,小于1但大于0):模型的生成更加确定,倾向于选择高概率的 token。

示例代码

假设我们有一个概率分布 probs,我们可以调整温度参数来控制随机性:

1import torch
2import torch.nn.functional as F
3
4# 构造示例数据
5probs = torch.tensor([
6    [0.1, 0.2, 0.3, 0.15, 0.1, 0.05, 0.1]
7])  # 示例概率分布,形状为 [1, 7]
8
9# 调整温度参数
10temperature = 0.7  # 可以调整此参数
11
12# 应用温度参数
13probs = probs / temperature
14
15# 归一化概率分布
16probs = F.softmax(probs, dim=-1)
17
18# 从概率分布中采样一个 token 的索引
19idx_next = torch.multinomial(input=probs, num_samples=1)
20
21print("Sampled index:", idx_next.item())

总结

通过使用 torch.multinomial 进行随机采样,而不是直接选择概率最大的 token,可以带来更多的多样性和探索性,使得生成的文本更加自然和丰富。这种做法在实践中已经被证明能够提高生成文本的质量和多样性。

这篇关于LLM模型:代码讲解Transformer运行原理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1145430

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

如何用Docker运行Django项目

本章教程,介绍如何用Docker创建一个Django,并运行能够访问。 一、拉取镜像 这里我们使用python3.11版本的docker镜像 docker pull python:3.11 二、运行容器 这里我们将容器内部的8080端口,映射到宿主机的80端口上。 docker run -itd --name python311 -p

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

poj 1258 Agri-Net(最小生成树模板代码)

感觉用这题来当模板更适合。 题意就是给你邻接矩阵求最小生成树啦。~ prim代码:效率很高。172k...0ms。 #include<stdio.h>#include<algorithm>using namespace std;const int MaxN = 101;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int n

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}