LLM模型:代码讲解Transformer运行原理

2024-09-07 15:28

本文主要是介绍LLM模型:代码讲解Transformer运行原理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

视频讲解、获取源码:LLM模型:代码讲解Transformer运行原理(1)_哔哩哔哩_bilibili

1 训练保存模型文件

2 模型推理

3 推理代码


import torch
import tiktoken
from wutenglan_model import WutenglanModelimport pyttsx3# 设置设备为CUDA(如果可用),否则使用CPU
# 这是因为许多深度学习算法在GPU上运行更高效
device = torch.device('cpu')
encoding = tiktoken.get_encoding("cl100k_base")# 加载模型
model = WutenglanModel(99849)
model_state_dict = torch.load('model\model-wutenglan-base.pt', map_location=device)
model.load_state_dict(model_state_dict)
model.eval()
model.to(device)start = '武'
# 对起始点进行编码,将其转换为模型可接受的输入格式
start_ids = encoding.encode(start)# 为编码的起始点创建一个张量,并且通过unsqueeze操作增加一个新的维度,以适应模型的输入要求
input_content = (torch.tensor(start_ids, dtype=torch.long, device=device)[None, ...])def text_to_speech(text):# 初始化引擎engine = pyttsx3.init()# 设置语速,可选参数,根据需要调整rate = engine.getProperty('rate')engine.setProperty('rate', rate - 50)  # 减少语速# 设置音量,范围 0.0 到 1.0volume = engine.getProperty('volume')engine.setProperty('volume', volume + 100)  # 增加音量# 获取可用的声音列表voices = engine.getProperty('voices')# 设置声音,例如选择第一个声音engine.setProperty('voice', voices[0].id)# 朗读文本engine.say(text)# 运行引擎,等待完成engine.runAndWait()# 在不进行梯度计算的上下文中生成文本,以减少内存占用并提高效率
with torch.no_grad():# 使用预训练模型生成文本,基于输入`input_content`,最大新生成的token数量为5output = model.inference(input_content, max_new_tokens=5)# 将生成的token序列转换为字符串文本text = encoding.decode(output[0].tolist())# 输出生成的文本到控制台print(text)# 将生成的文本转换为语音输出text_to_speech(text)

4 推理重点代码详解

4.1 截取上下文长度

last_context = input_content[:, -context_length:]

这行代码的主要作用是从输入序列 input_content 中截取最后 context_length 个token作为当前的上下文。这一操作对于许多基于Transformer架构的语言模型来说是非常重要的,因为这些模型通常有一个固定的输入长度限制(即 context_length),超过这个长度的输入需要被裁剪,以适应模型的处理能力。

如果删除这一行代码,那么在每次迭代中,你将会使用整个 input_content 作为模型的输入,这可能导致以下问题:

  1. 超出模型处理能力:如果 input_content 的长度超过了模型的设计长度(context_length),那么模型可能无法正确处理这么长的序列,导致错误或次优的结果。

  2. 内存问题:处理过长的序列可能会导致内存不足的问题,特别是在GPU上运行大型模型时。

  3. 计算效率低下:即使模型能够处理更长的序列,这样做也可能导致计算资源的浪费,因为模型只需要最新的上下文信息来进行下一步的预测。

方括号内的两个冒号是用来进行数组切片(slice)操作的符号。具体来说,在表达式 input_content[:, -context_length:] 中,第一个冒号和第二个冒号分别有不同的含义:

  1. 第一个冒号 (:)

    • 第一个冒号表示的是“所有”的意思。在这个上下文中,它意味着选择所有行。例如,在二维数组(矩阵)中,如果我们想要选择所有的行,我们可以使用 :。这意味着我们会保留所有的行。
  2. 第二个冒号 (:)

    • 第二个冒号同样用于指定切片范围,但它跟在负数索引 -context_length 后面,表示从 -context_length 到结尾(end of the sequence)。这里的 -context_length 是一个负数索引,它指向列表或数组的末尾往前数第 context_length 个位置。所以 input_content[:, -context_length:] 意味着选择每行的最后 context_length 个元素。

 4.2 线性层计算结果说明

【线性变换结果】

# 使用前向传播方法得到linear_predictions和损失
linear_predictions, loss = self.forward(last_context, None)

以上代码输出的linear_predictions形状如下: 

【线性变换说明】

linear_predictions 的形状 torch.Size([1, 2, 99850]) 中,每个维度都有特定的意义:

  1. 第一个维度 1

    • 这个维度通常表示批次大小(batch size)。在这里,1 表示当前批次只有一个样本。这意味着在这一时刻,模型正在处理一个单独的序列。
  2. 第二个维度 2

    • 这个维度通常表示时间步的数量(time steps)。在这里,2 表示当前批次中有两个时间步。这可能是因为 input_content 在进入模型之前已经包含了一个或多个先前的时间步,并且当前批次包含这些先前的时间步加上当前的时间步。
  3. 第三个维度 99850

    • 这个维度通常表示词汇表大小(vocabulary size)或输出特征的数量。在这里,99850 表示模型的输出空间大小,也就是模型可以预测的词汇数量。换句话说,模型在每个时间步上可以预测 99850 个不同的token之一。

总结一下:

  • [1]:批次大小,当前批次包含一个样本。
  • [2]:时间步的数量,当前批次包含两个时间步。
  • [99850]:输出特征的数量,模型可以预测 99850 个不同的token。

在文本生成任务中,模型的输出通常是一个概率分布,表示在当前上下文下下一个token的可能性。因此,linear_predictions 的形状表明模型在一个样本上有两个时间步,并且在每个时间步上输出了 99850 个可能的下一个token的概率值。

4.3 只关注最后一个时间步的linear_predictions

为什么要取最后一个时间步,而不取所有的。

假设我们有一个简单的文本生成任务,目的是根据前面的文本生成下一个词。为了简化讨论,我们假设词汇表只有几个词,比如 ['hello', 'world', 'how', 'are', 'you']

实际数据示例

假设我们的输入序列是 ['hello', 'world'],我们希望模型根据这个序列生成下一个词。为了说明这一点,我们可以构造一个简单的示例。

构造示例数据

  1. 词汇表

    • 假设词汇表为 ['hello', 'world', 'how', 'are', 'you']
  2. 编码映射

    • 我们需要将词汇表中的每个词映射到一个整数。例如:
      • 'hello' -> 0
      • 'world' -> 1
      • 'how' -> 2
      • 'are' -> 3
      • 'you' -> 4
  3. 输入序列

    • 输入序列 input_sequence 为 ['hello', 'world'],对应的编码序列为 [0, 1]

构造 linear_predictions 张量

假设模型已经处理了输入序列,并生成了 linear_predictions 张量,其形状为 [1, 2, 5]。这意味着:

  • 第一维 [1] 表示批次大小,当前批次包含一个样本。
  • 第二维 [2] 表示时间步的数量,当前批次包含两个时间步。
  • 第三维 [5] 表示词汇表大小。

假设 linear_predictions 的具体数值如下:

1linear_predictions = torch.tensor([
2    [
3        [0.1, 0.2, 0.3, 0.4, 0.5],  # 第一个时间步的预测值
4        [0.2, 0.3, 0.4, 0.5, 0.6]   # 第二个时间步的预测值
5    ]
6])

为什么取最后一个时间步

在文本生成任务中,我们通常只关心当前上下文的下一个词的预测。因此,我们通常取最后一个时间步的预测值来生成下一个词。

  1. 取最后一个时间步

    • linear_predictions[:, -1, :] 取的是最后一个时间步的预测值。
    • 在这个例子中,linear_predictions[:, -1, :] 将得到:
      tensor([[0.2, 0.3, 0.4, 0.5, 0.6]])
  2. 计算概率分布

    • 接下来,我们使用 F.softmax 将这些预测值转换为概率分布。
      import torch.nn.functional as Flast_timestep_predictions = linear_predictions[:, -1, :]
      probs = F.softmax(input=last_timestep_predictions, dim=-1)
  3. 采样下一个词

    • 使用 torch.multinomial 从概率分布中采样下一个词。
      idx_next = torch.multinomial(input=probs, num_samples=1)

为什么不取所有时间步

如果我们取所有的时间步,即 linear_predictions[:, :, :],我们将得到:

1tensor([
2    [
3        [0.1, 0.2, 0.3, 0.4, 0.5],
4        [0.2, 0.3, 0.4, 0.5, 0.6]
5    ]
6])

这将导致以下问题:

  1. 形状不匹配

    • 在计算 softmax 时,需要一个二维张量作为输入。如果我们取所有的时间步,形状为 [1, 2, 5],需要进一步处理才能进行 softmax 计算。
  2. 逻辑不一致

    • 在文本生成任务中,我们通常只关心当前上下文的下一个词的预测。取所有时间步的信息可能会引入不必要的复杂度,并且不符合逐词生成的逻辑。

示例代码

1import torch
2import torch.nn.functional as F
3
4# 构造示例数据
5vocab = ['hello', 'world', 'how', 'are', 'you']
6word_to_idx = {word: idx for idx, word in enumerate(vocab)}
7
8# 输入序列
9input_sequence = ['hello', 'world']
10encoded_sequence = [word_to_idx[word] for word in input_sequence]
11
12# 构造 linear_predictions 张量
13linear_predictions = torch.tensor([
14    [
15        [0.1, 0.2, 0.3, 0.4, 0.5],  # 第一个时间步的预测值
16        [0.2, 0.3, 0.4, 0.5, 0.6]   # 第二个时间步的预测值
17    ]
18])
19
20# 取最后一个时间步
21last_timestep_predictions = linear_predictions[:, -1, :]
22
23# 计算概率分布
24probs = F.softmax(input=last_timestep_predictions, dim=-1)
25
26# 采样下一个词
27idx_next = torch.multinomial(input=probs, num_samples=1)
28
29# 解码下一个词
30next_word = vocab[idx_next.item()]
31print("Next word:", next_word)

通过这种方式,我们只关注当前上下文的下一个词的预测。

4.4 SoftMax激活函数

Softmax 函数是一种常用的激活函数,在机器学习尤其是深度学习中具有重要作用。它的主要用途包括:

概率化输出:

Softmax 函数将一个 K 维的实数向量转换为另一个 K 维的向量,其中每个元素都是 [0, 1] 区间内的值,并且所有元素的和为 1。因此,经过 Softmax 处理后的输出可以解释为概率分布,这使得模型能够输出每个类别的预测概率。
6.2 激活函数的计算过程
假设我们有一个未归一化的得分向量 z=[1.0,2.0,3.0]z=[1.0,2.0,3.0],代表三个类别的得分。

4.5 torch.multinomial 进行随机采样

4.5.1 torch.multinomial作用

idx_next = torch.multinomial(input=probs, num_samples=1) 这段代码的作用是从一个概率分布中随机采样一个样本。具体来说,这段代码在文本生成任务中用于从当前时间步的预测概率分布中选择下一个 token 的索引。下面详细介绍这段代码的具体作用和实现细节。

代码详解

  1. probs 参数

    • probs 是一个一维张量,表示一个概率分布。在文本生成任务中,这个概率分布通常是对下一个可能生成的 token 的概率估计。例如,在你的例子中,probs 的形状是 [1, 99850],表示一个样本在最后一个时间步上的 99850 个可能的下一个 token 的概率分布。
  2. num_samples 参数

    • num_samples 表示从概率分布中采样的样本数量。在这个例子中,num_samples=1 表示我们只采样一个样本。
  3. torch.multinomial 函数

    • torch.multinomial 是 PyTorch 中的一个函数,用于从一个多维概率分布中进行随机采样。它根据提供的概率分布进行采样,返回一个索引,该索引指示采样出的 token 在词汇表中的位置。

具体实现

假设我们有一个概率分布 probs,其形状为 [1, 99850]。我们希望从这个概率分布中采样一个 token 的索引。

示例代码

1import torch
2import torch.nn.functional as F
3
4# 构造示例数据
5probs = torch.tensor([
6    [0.1, 0.2, 0.3, 0.15, 0.1, 0.05, 0.1]
7])  # 示例概率分布,形状为 [1, 7]
8
9# 从概率分布中采样一个 token 的索引
10idx_next = torch.multinomial(input=probs, num_samples=1)
11
12print("Sampled index:", idx_next.item())

代码流程

  1. 构造概率分布

    • probs 是一个形状为 [1, 99850] 的张量,表示一个样本在最后一个时间步上的 99850 个可能的下一个 token 的概率分布。
  2. 采样

    • 使用 torch.multinomial 从概率分布 probs 中采样一个索引。num_samples=1 表示我们只采样一个样本。
  3. 结果

    • idx_next 是一个形状为 [1, 1] 的张量,表示采样出的下一个 token 的索引。

详细解释

  1. 概率分布

    • probs 张量中的每个元素都是一个概率值,表示相应 token 被选中的概率。所有概率值之和为 1。
  2. 采样过程

    • torch.multinomial 根据提供的概率分布进行采样。它从 [0, 99849] 范围内随机选择一个索引,这个索引是基于概率分布 probs 进行的加权选择。也就是说,概率值较高的 token 被选中的可能性更大。
  3. 结果索引

    • idx_next 是一个形状为 [1, 1] 的张量,表示采样出的下一个 token 的索引。例如,如果 idx_next 的值为 3,则表示下一个 token 的索引为 3

示例代码

假设 probs 的具体值如下:

1probs = torch.tensor([
2    [0.1, 0.2, 0.3, 0.15, 0.1, 0.05, 0.1]
3])  # 示例概率分布,形状为 [1, 7]

我们从这个概率分布中采样一个 token 的索引:

1idx_next = torch.multinomial(input=probs, num_samples=1)
2print("Sampled index:", idx_next.item())

输出结果可能是:

1Sampled index: 2

这意味着根据给定的概率分布,采样出的下一个 token 的索引为 2

总结

idx_next = torch.multinomial(input=probs, num_samples=1) 这段代码用于从一个概率分布中采样一个 token 的索引。在文本生成任务中,这一步骤用于确定下一个生成的 token。通过这种方式,模型可以根据当前上下文的概率分布生成下一个 token,从而逐步构建出完整的文本序列。

4.5.2 torch.multinomial随机采样原因

在文本生成任务中,使用 torch.multinomial 进行随机采样而不是直接选择概率最大的 token 主要有以下几个原因:

1. 探索性(Exploration)

在生成文本时,如果每次都选择概率最大的 token,模型的行为会变得非常确定性和单调。这可能会导致生成的文本缺乏多样性和创造性。通过随机采样,模型可以在一定程度上探索不同的生成路径,从而产生更加丰富和多样的文本。

2. 平滑峰值(Smoothing Peaks)

在某些情况下,模型可能会过于自信地选择某个 token,即使这个 token 不一定是最佳选择。通过随机采样,可以平衡模型的置信度,避免过度依赖某个特定的选择。这有助于模型生成更加自然和流畅的文本。

3. 避免局部最优(Avoiding Local Optima)

直接选择概率最大的 token 容易让模型陷入局部最优解。通过随机采样,模型有机会跳出局部最优解,探索更多的可能性,从而找到全局最优解。

4. 更真实的模拟人类行为

人类在写作或说话时,并不总是选择最有可能的词,而是会根据上下文和个人风格做出选择。随机采样可以更好地模拟这种行为,使得生成的文本更加自然和真实。

5. 多样性(Diversity)

随机采样可以增加生成文本的多样性。如果总是选择概率最大的 token,生成的文本可能会非常相似,缺乏变化。通过随机采样,可以引入更多的变化,使得生成的文本更加多样化。

6. 控制生成过程

在某些应用场景中,可以通过调整采样过程中的温度参数(temperature parameter)来控制生成过程的随机程度。温度参数是一个正数,可以调节模型生成文本的多样性:

  • 温度较高(例如,大于1):模型的生成更加随机,可以探索更多的可能性。
  • 温度较低(例如,小于1但大于0):模型的生成更加确定,倾向于选择高概率的 token。

示例代码

假设我们有一个概率分布 probs,我们可以调整温度参数来控制随机性:

1import torch
2import torch.nn.functional as F
3
4# 构造示例数据
5probs = torch.tensor([
6    [0.1, 0.2, 0.3, 0.15, 0.1, 0.05, 0.1]
7])  # 示例概率分布,形状为 [1, 7]
8
9# 调整温度参数
10temperature = 0.7  # 可以调整此参数
11
12# 应用温度参数
13probs = probs / temperature
14
15# 归一化概率分布
16probs = F.softmax(probs, dim=-1)
17
18# 从概率分布中采样一个 token 的索引
19idx_next = torch.multinomial(input=probs, num_samples=1)
20
21print("Sampled index:", idx_next.item())

总结

通过使用 torch.multinomial 进行随机采样,而不是直接选择概率最大的 token,可以带来更多的多样性和探索性,使得生成的文本更加自然和丰富。这种做法在实践中已经被证明能够提高生成文本的质量和多样性。

这篇关于LLM模型:代码讲解Transformer运行原理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1145430

相关文章

在C#中调用Python代码的两种实现方式

《在C#中调用Python代码的两种实现方式》:本文主要介绍在C#中调用Python代码的两种实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C#调用python代码的方式1. 使用 Python.NET2. 使用外部进程调用 Python 脚本总结C#调

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

Java中&和&&以及|和||的区别、应用场景和代码示例

《Java中&和&&以及|和||的区别、应用场景和代码示例》:本文主要介绍Java中的逻辑运算符&、&&、|和||的区别,包括它们在布尔和整数类型上的应用,文中通过代码介绍的非常详细,需要的朋友可... 目录前言1. & 和 &&代码示例2. | 和 ||代码示例3. 为什么要使用 & 和 | 而不是总是使

Java强制转化示例代码详解

《Java强制转化示例代码详解》:本文主要介绍Java编程语言中的类型转换,包括基本类型之间的强制类型转换和引用类型的强制类型转换,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录引入基本类型强制转换1.数字之间2.数字字符之间引入引用类型的强制转换总结引入在Java编程语言中,类型转换(无论

Java终止正在运行的线程的三种方法

《Java终止正在运行的线程的三种方法》停止一个线程意味着在任务处理完任务之前停掉正在做的操作,也就是放弃当前的操作,停止一个线程可以用Thread.stop()方法,但最好不要用它,本文给大家介绍了... 目录前言1. 停止不了的线程2. 判断线程是否停止状态3. 能停止的线程–异常法4. 在沉睡中停止5

Vue 调用摄像头扫描条码功能实现代码

《Vue调用摄像头扫描条码功能实现代码》本文介绍了如何使用Vue.js和jsQR库来实现调用摄像头并扫描条码的功能,通过安装依赖、获取摄像头视频流、解析条码等步骤,实现了从开始扫描到停止扫描的完整流... 目录实现步骤:代码实现1. 安装依赖2. vue 页面代码功能说明注意事项以下是一个基于 Vue.js

C++快速排序超详细讲解

《C++快速排序超详细讲解》快速排序是一种高效的排序算法,通过分治法将数组划分为两部分,递归排序,直到整个数组有序,通过代码解析和示例,详细解释了快速排序的工作原理和实现过程,需要的朋友可以参考下... 目录一、快速排序原理二、快速排序标准代码三、代码解析四、使用while循环的快速排序1.代码代码1.由快

mybatis-plus 实现查询表名动态修改的示例代码

《mybatis-plus实现查询表名动态修改的示例代码》通过MyBatis-Plus实现表名的动态替换,根据配置或入参选择不同的表,本文主要介绍了mybatis-plus实现查询表名动态修改的示... 目录实现数据库初始化依赖包配置读取类设置 myBATis-plus 插件测试通过 mybatis-plu

使用Dify访问mysql数据库详细代码示例

《使用Dify访问mysql数据库详细代码示例》:本文主要介绍使用Dify访问mysql数据库的相关资料,并详细讲解了如何在本地搭建数据库访问服务,使用ngrok暴露到公网,并创建知识库、数据库访... 1、在本地搭建数据库访问的服务,并使用ngrok暴露到公网。#sql_tools.pyfrom