【HuggingFace Transformers】LlamaMLP源码解析

2024-09-02 18:20

本文主要是介绍【HuggingFace Transformers】LlamaMLP源码解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

LlamaMLP源码解析

  • 1. LlamaMLP 介绍
  • 2. LlamaMLP类 源码解析

1. LlamaMLP 介绍

LlamaMLPLLaMA 模型中的 MLP 层,主要用于对输入特征进行非线性变换。在分片预训练模式下,线性层的权重被切分,分步处理后再进行拼接和求和,而在常规模式下,直接应用线性变换和激活函数处理输入数据。其计算公式为:
o u t p u t = W d o w n ⋅ ( σ ( W g a t e ⋅ x + b g a t e ) ⊙ ( W u p ⋅ x + b u p ) ) + b d o w n output = W_{down}\cdot(\sigma(W_{gate}\cdot x+b_{gate})\odot (W_{up}\cdot x+b_{up})) +b_{down} output=Wdown(σ(Wgatex+bgate)(Wupx+bup))+bdown

2. LlamaMLP类 源码解析

源码地址:transformers/src/transformers/models/llama/modeling_llama.py

# -*- coding: utf-8 -*-
# @time: 2024/8/28 15:16import torch
import torch.nn.functional as Ffrom torch import nn
from transformers.activations import ACT2FNclass LlamaMLP(nn.Module):def __init__(self, config):super().__init__()self.config = config  # 配置参数self.hidden_size = config.hidden_size  # 隐藏层的维度self.intermediate_size = config.intermediate_size  # 中间层的维度self.gate_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=config.mlp_bias)  # 定义第一个线性变换层,将隐藏层映射到中间层self.up_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=config.mlp_bias)  # 定义第二个线性变换层,将隐藏层映射到中间层self.down_proj = nn.Linear(self.intermediate_size, self.hidden_size, bias=config.mlp_bias)  # 定义第三个线性变换层,将中间层的输出映射回隐藏层self.act_fn = ACT2FN[config.hidden_act]  # 根据配置选择激活函数def forward(self, x):# 如果是分片预训练if self.config.pretraining_tp > 1:slice = self.intermediate_size // self.config.pretraining_tp  # 计算每个切片的大小gate_proj_slices = self.gate_proj.weight.split(slice, dim=0)  # 将 gate_proj 层的权重按行切分成多个切片up_proj_slices = self.up_proj.weight.split(slice, dim=0)  # 将 up_proj 层的权重按行切分成多个切片down_proj_slices = self.down_proj.weight.split(slice, dim=1)  # 将 down_proj 层的权重按列切分成多个切片gate_proj = torch.cat([F.linear(x, gate_proj_slices[i]) for i in range(self.config.pretraining_tp)], dim=-1)  # 对输入 x 应用每个 gate_proj 切片的线性变换,并沿列拼接up_proj = torch.cat([F.linear(x, up_proj_slices[i]) for i in range(self.config.pretraining_tp)], dim=-1)  # 对输入 x 应用每个 up_proj 切片的线性变换,并沿列拼接intermediate_states = (self.act_fn(gate_proj) * up_proj).split(slice, dim=2)  # 应用激活函数后,与 up_proj 结果逐元素相乘,并沿通道切分成多个张量down_proj = [F.linear(intermediate_states[i], down_proj_slices[i]) for i in range(self.config.pretraining_tp)]  # 对每个 intermediate_states 切片应用对应的 down_proj 切片的线性变换down_proj = sum(down_proj)  # 将所有 down_proj 切片的结果相加else:# 如果不是分片预训练,直接进行线性变换和激活函数处理down_proj = self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x))# 返回最终的输出结果return down_proj

这篇关于【HuggingFace Transformers】LlamaMLP源码解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1130717

相关文章

C语言中自动与强制转换全解析

《C语言中自动与强制转换全解析》在编写C程序时,类型转换是确保数据正确性和一致性的关键环节,无论是隐式转换还是显式转换,都各有特点和应用场景,本文将详细探讨C语言中的类型转换机制,帮助您更好地理解并在... 目录类型转换的重要性自动类型转换(隐式转换)强制类型转换(显式转换)常见错误与注意事项总结与建议类型

MySQL 缓存机制与架构解析(最新推荐)

《MySQL缓存机制与架构解析(最新推荐)》本文详细介绍了MySQL的缓存机制和整体架构,包括一级缓存(InnoDBBufferPool)和二级缓存(QueryCache),文章还探讨了SQL... 目录一、mysql缓存机制概述二、MySQL整体架构三、SQL查询执行全流程四、MySQL 8.0为何移除查

在Rust中要用Struct和Enum组织数据的原因解析

《在Rust中要用Struct和Enum组织数据的原因解析》在Rust中,Struct和Enum是组织数据的核心工具,Struct用于将相关字段封装为单一实体,便于管理和扩展,Enum用于明确定义所有... 目录为什么在Rust中要用Struct和Enum组织数据?一、使用struct组织数据:将相关字段绑

使用Java实现一个解析CURL脚本小工具

《使用Java实现一个解析CURL脚本小工具》文章介绍了如何使用Java实现一个解析CURL脚本的工具,该工具可以将CURL脚本中的Header解析为KVMap结构,获取URL路径、请求类型,解析UR... 目录使用示例实现原理具体实现CurlParserUtilCurlEntityICurlHandler

深入解析Spring TransactionTemplate 高级用法(示例代码)

《深入解析SpringTransactionTemplate高级用法(示例代码)》TransactionTemplate是Spring框架中一个强大的工具,它允许开发者以编程方式控制事务,通过... 目录1. TransactionTemplate 的核心概念2. 核心接口和类3. TransactionT

数据库使用之union、union all、各种join的用法区别解析

《数据库使用之union、unionall、各种join的用法区别解析》:本文主要介绍SQL中的Union和UnionAll的区别,包括去重与否以及使用时的注意事项,还详细解释了Join关键字,... 目录一、Union 和Union All1、区别:2、注意点:3、具体举例二、Join关键字的区别&php

Spring IOC控制反转的实现解析

《SpringIOC控制反转的实现解析》:本文主要介绍SpringIOC控制反转的实现,IOC是Spring的核心思想之一,它通过将对象的创建、依赖注入和生命周期管理交给容器来实现解耦,使开发者... 目录1. IOC的基本概念1.1 什么是IOC1.2 IOC与DI的关系2. IOC的设计目标3. IOC

java中的HashSet与 == 和 equals的区别示例解析

《java中的HashSet与==和equals的区别示例解析》HashSet是Java中基于哈希表实现的集合类,特点包括:元素唯一、无序和可包含null,本文给大家介绍java中的HashSe... 目录什么是HashSetHashSet 的主要特点是HashSet 的常用方法hasSet存储为啥是无序的

Go中sync.Once源码的深度讲解

《Go中sync.Once源码的深度讲解》sync.Once是Go语言标准库中的一个同步原语,用于确保某个操作只执行一次,本文将从源码出发为大家详细介绍一下sync.Once的具体使用,x希望对大家有... 目录概念简单示例源码解读总结概念sync.Once是Go语言标准库中的一个同步原语,用于确保某个操

Linux中shell解析脚本的通配符、元字符、转义符说明

《Linux中shell解析脚本的通配符、元字符、转义符说明》:本文主要介绍shell通配符、元字符、转义符以及shell解析脚本的过程,通配符用于路径扩展,元字符用于多命令分割,转义符用于将特殊... 目录一、linux shell通配符(wildcard)二、shell元字符(特殊字符 Meta)三、s