R-Adapter:零样本模型微调新突破,提升鲁棒性与泛化能力 | ECCV 2024

本文主要是介绍R-Adapter:零样本模型微调新突破,提升鲁棒性与泛化能力 | ECCV 2024,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大规模图像-文本预训练模型实现了零样本分类,并在不同数据分布下提供了一致的准确性。然而,这些模型在下游任务中通常需要微调优化,这会降低对于超出分布范围的数据的泛化能力,并需要大量的计算资源。论文提出新颖的Robust AdapterR-Adapter),可以在微调零样本模型用于下游任务的同时解决这两个问题。该方法将轻量级模块集成到预训练模型中,并采用新颖的自我集成技术以提高超出分布范围的鲁棒性,并大幅减少存储开销。此外,论文提出了针对视觉-语言下游任务设计的MPM-NCE损失,确保多个图像-文本对的精确对齐和具有区分性的特征学习。

来源:晓飞的算法工程笔记 公众号

论文: Efficient and Versatile Robust Fine-Tuning of Zero-shot Models

  • 论文地址:https://www.arxiv.org/abs/2408.05749
  • 论文代码:http://cvlab.postech.ac.kr/research/R-Adapter

Introduction


  大规模联合图像和文本数据预训练模型的出现在计算机视觉领域引起了范式转变。通过对大量图像-文本对的嵌入进行对齐,这些模型实现了零样本推断,并展现出在不同数据分布下广泛泛化的显著能力。尽管它们在零样本情境下表现出色,但它们无法与监督学习模型相媲美,需要进行微调以发挥其全部能力。然而,传统的全面微调会产生两个主要挑战:1)全面微调损害了模型对于超出分布范围(OOD)数据的泛化能力,而这对于数据变异性不可预测的实际应用至关重要。2)它需要大量的计算资源、内存和存储,而随着大规模预训练模型的不断增大,这是不切实际的。

  最近,针对这些挑战提出了几种微调方法。鲁棒微调的目标是在微调零样本模型的同时保持对OOD的鲁棒性,而参数高效微调(PEFT)仅更新一小部分参数,同时保持预训练参数的冻结状态。然而,每种方法只解决其中一个挑战,同时在另一个挑战上仍然存在不足。如图1所示,现有的鲁棒微调方法仍然需要微调整个模型,导致训练代价高昂。此外,它们仅针对分类任务,因此通常仅训练图像编码器,从模型中排除了零样本推断能力。另一方面,与鲁棒微调相比,PEFT在分布偏移下的性能显著滞后。它们的关键缺点凸显了需要新的微调方法,同时解决鲁棒微调和PEFT分别应对的两个挑战。

  本文提出了一种名为鲁棒适配器(R-Adapter)的新型微调方法,旨在提高PEFT的鲁棒性,并增强鲁棒微调的效率。在适配器微调方法的基础上向预训练模型添加额外的轻量级模块,R-Adapter引入了新颖的自我集成策略,以增强OOD的鲁棒性。

  受到在权重空间中平均多个模型时观察到的鲁棒性增益的启发,通过一种独特的方式在单个模型内实现这种策略。这种方法在任务特定性能和针对分布偏移的鲁棒性之间取得了良好的平衡,同时显著降低了存储成本。具体而言,R-Adapter通过三种自我集成技术实现这一目标。它随机丢弃适配器模块,从而动态生成并集成不同子网络,以各种配置组合适配器和预训练层。此外,累积适配器权重以形成一个时间集成,捕捉整个学习过程中产生的所有模型。此外,通过重新缩放适配器的权重,并通过重新参数化将其整合到预训练层中,论文实现了在没有两个单独模型的情况下,在预训练和微调模型的权重之间实现无缝的线性插值。

  此外,论文提出了一种名为Multi-Positive Margin NCEMPM-NCE)损失函数,专为在视觉-语言下游任务上进行有效微调而设计。这些任务通常涉及复杂的关系,其中多个图像可以对应于相同的文本,反之亦然。与传统的对比损失(例如InfoNCE)不同,后者接受单一正样本对,并因此经常导致这些关系中的语义不匹配,MPM-NCE考虑了多个正样本对,从而更精确地对齐跨各种图像和文本对。此外,MPM-NCE引入了一个角度边距以惩罚负样本对,使模型能够学习对下游任务至关重要的高度区分的特征。因此,所提出的损失函数显著改善了任务特定性能,在IDOOD环境下都带来了益处。

  论文的方法在微调后实现了零样本推理,在图像分类任务之外扩展了其适用性范围,适用于广泛的应用领域。为了展示其多功能性,论文提出了一个新的用于鲁棒微调的评估基准,包括五个任务:三种情景下的图像分类任务、跨模态检索和开放词汇分割。大量实验证明,与现有的鲁棒微调和PEFT方法相比,论文的方法在分布转移条件下表现出卓越性能,同时使用的参数更少。

  本文的主要贡献有四点:

  1. 提出了一个高效且多功能的鲁棒微调框架,融合了PEFT和鲁棒微调的优势,这是第一个兼具两者优势的方法。

  2. 提出了R-Adapter,采用自集成技术,借助单个带有适配器的模型实现权重空间集成。能够在减少存储成本的同时增强鲁棒性,因为不需要多个模型。

  3. 开发了适用于微调的MPM-NCE损失,利用多个正样本对和引入角度间隔,确保了多个图像-文本对的精确对齐和具有区分性的特征学习。

  4. 首次将鲁棒微调的基准拓展到图像分类之外的任务,包括跨模态检索和开放词汇分割,从而允许评估其广泛适用性。论文的方法在各种任务中取得了最先进的性能,仅微调了13%CLIP编码器参数。

Proposed Method


Preliminary

  • CLIP Encoders

CLIP由两个编码器组成,分别用于从图像和文本中提取特征。每个编码器由一系列Transformer层组成,每个层包括多头注意力(MHA)、层归一化(LN)和前馈神经网络(FFN)。具体而言,第 l l lTransformer层的公式如下:

KaTeX parse error: Undefined control sequence: \label at position 154: …) + \bar{X_l}. \̲l̲a̲b̲e̲l̲{eq:Transformer…

MHA包括对查询、键和值进行 k k k 头自注意力操作,通过对输入进行独立的线性投影来实现,其公式为:

KaTeX parse error: Undefined control sequence: \label at position 213: …)(XW_{V}^{i}), \̲l̲a̲b̲e̲l̲{eq:MHA} \end{a…

  其中 [ ⋅ , ⋅ ] [\cdot,\cdot] [,] 表示拼接, d h d_h dh 设为 d / k d/k d/k W Q i ∈ R d × d h W_{Q}^{i}\in\mathbb{R}^{d\times d_h} WQiRd×dh W K i ∈ R d × d h W_{K}^{i}\in\mathbb{R}^{d\times d_h} WKiRd×dh W V i ∈ R d × d h W_{V}^{i}\in\mathbb{R}^{d\times d_h} WViRd×dh W O ∈ R d × d W_{O}\in\mathbb{R}^{d\times d} WORd×d 是线性投影矩阵。FFN由两个线性层和一个非线性层组成:

KaTeX parse error: Undefined control sequence: \label at position 64: …b_1)W_2 + b_2, \̲l̲a̲b̲e̲l̲{eq:FFN} \end{e…

  其中 W 1 ∈ R d × 4 d W_1\in\mathbb{R}^{d\times4d} W1Rd×4d , W 2 ∈ R 4 d × d W_2\in\mathbb{R}^{4d\times d} W2R4d×d , b 1 ∈ R 4 d b_1 \in \mathbb{R}^{4d} b1R4d , 和 b 2 ∈ R d b_2 \in \mathbb{R}^d b2Rd 分别是线性投影的权重和偏置; σ ( ⋅ ) \sigma(\cdot) σ() 表示GELU函数。

  • Contrastive Learning

CLIP编码器被训练用于预测哪些文本描述与给定的一组图像匹配,反之亦然。这通过使用InfoNCE损失来进行对比学习来实现,该损失迫使图像嵌入和其对应的文本嵌入彼此靠近,并远离批次中的其他文本嵌入。设 f ( ⋅ ) f(\cdot) f() g ( ⋅ ) g(\cdot) g() 分别是图像和文本的CLIP编码器。给定一个批次包含 B B B 个图像-文本对 B = { ( I 1 , T 1 ) , . . . , ( I B , T B ) } \mathcal{B} =\big\{(I_1,T_1), ..., (I_B,T_B)\big\} B={(I1,T1),...,(IB,TB)} ,损失函数定义为:

KaTeX parse error: Undefined control sequence: \label at position 237: …/\tau}}\Bigg), \̲l̲a̲b̲e̲l̲{eq:InfoNCE_Los…

  其中 f i = f ( I i ) ∣ ∣ f ( I i ) ∣ ∣ 2 f_i = \frac{f(I_i)}{||f(I_i)||_2} fi=∣∣f(Ii)2f(Ii) , g i = g ( T i ) ∣ ∣ g ( T i ) ∣ ∣ 2 g_i = \frac{g(T_i)}{||g(T_i)||_2} gi=∣∣g(Ti)2g(Ti) τ \tau τ 表示一个可学习的温度参数。

Problem Setup

  论文的目标是在保留其固有的离群分布泛化能力的同时,高效地对视觉-语言预训练模型进行各种下游任务的微调。虽然大多数现有的鲁棒微调方法局限于分类任务,但论文将范围扩大到为各种下游任务,如图像分类、跨模态检索和开放词汇分割等,提供鲁棒微调模型。

  给定一个图像-文本预训练模型,目标是使用一个面向目标下游任务的内分布(ID)训练数据集 D I = { ( I i , T i ) } i = 1 n \mathcal{D}_{\mathcal{I}}=\{(I_i, T_i)\}_{i=1}^{n} DI={(Ii,Ti)}i=1n 对其进行适应,其中 I I I 表示一个图像, T T T 是对应于该图像的文本描述。同时,旨在提高模型在一个离群分布(OOD)测试数据集 D O = { ( I j , T j ) } j = 1 m \mathcal{D}_{\mathcal{O}}=\{(I_j, T_j)\}_{j=1}^{m} DO={(Ij,Tj)}j=1m 上的性能。内分布和离群分布数据集 D I \mathcal{D}_{\mathcal{I}} DI D O \mathcal{D}_{\mathcal{O}} DO 分别从不同概率分布 p I ( I , T ) p_{\mathcal{I}}(I,T) pI(I,T) p O ( I , T ) p_{\mathcal{O}}(I,T) pO(I,T) 中采样,当 p I ( I , T ) ≠ p O ( I , T ) p_{\mathcal{I}}(I,T)\neq p_{\mathcal{O}}(I,T) pI(I,T)=pO(I,T) 时即为表现出分布转移。在分类任务中, T T T 表示目标类的文本描述,通过从一组预定义模板中进行采样构建(例如,“一张{class}的照片”)。对于其他视觉-语言任务, T T T 可能是与图像 I I I 相关联的标题之一。

Robust Adapter (R-Adapter)

  为了实现高效且鲁棒的微调,论文引入了基于PEFT框架的R-AdapterPEFT框架在微调少量附加的可学习参数的同时冻结预训练模型,但在训练中对该框架的朴素应用可能会导致对内分布数据的显著偏向(参见表2)。受到集成增强在各种分布下的泛化能力的启发,R-Adapter设计了三种新颖的自集成策略,以实现鲁棒微调而不在训练和推理期间增加计算负载。

  • Design of R-Adapter

R-Adapter建立在适配器微调框架之上,在该框架中向预训练模型添加了轻量级模块。具体而言,R-Adapter中的适配器模块采用了Houlsby适配器的简化版本,去除了非线性层和偏置。该模块被构建为一个残差块,由以下权重矩阵组成:

KaTeX parse error: Undefined control sequence: \label at position 49: …trm{adp}} + X, \̲l̲a̲b̲e̲l̲{eq:Adapter} \e…

  其中, X X X 表示预训练块的输出, W adp ∈ R d × d W_{\textrm{adp}} \in \mathbb{R}^{d\times d} WadpRd×d 是论文适配器的权重矩阵。对于全样本学习,保持 W adp W_{\textrm{adp}} Wadp 的满秩结构以保留足够的容量。在少样本学习中,可以通过将 W adp W_{\textrm{adp}} Wadp 分解为低秩矩阵 B A BA BA 的乘积来采用瓶颈结构,其中 B ∈ R d × r B\in \mathbb{R}^{d\times r} BRd×r A ∈ R r × d A\in \mathbb{R}^{r\times d} ARr×d ,且秩 r ≪ d r \ll d rd 。这种分解避免了过参数化,并显著减少了参数数目和计算量。

  在图像和文本编码器的每个Transformer层中部署适配器,放置在MHAMulti-Head Attention)和FFNFeed-Forward Network)层之后,如图2所示。

  由于适配器之前没有非线性结构,可以通过将其与最接近的预训练层集成进行重参数化,从而在推理过程中消除适配器的额外计算开销。用 W org W_{\textrm{org}} Worg 表示适配器之前的预训练层的权重,可以是来自MHA W O W_O WO 或者FFN中的 W 2 W_2 W2 ,相应的偏置 b org b_{\textrm{org}} borgFFN中的 b 2 b_2 b2 。给定预训练层的输入 X in X_{\textrm{in}} Xin ,那么重新参数化的过程如下进行:

KaTeX parse error: Undefined control sequence: \label at position 249: …_\textrm{rep}, \̲l̲a̲b̲e̲l̲{eq:rep} \end{a…

  其中, I ∈ R d × d \mathrm{I}\in\mathbb{R}^{d\times d} IRd×d 是单位矩阵, W rep = W org ( W adp + I ) W_\textrm{rep} = W_\textrm{org}(W_\textrm{adp}+\mathrm{I}) Wrep=Worg(Wadp+I) b rep = b org ( W adp + I ) b_\textrm{rep} = b_\textrm{org}(W_\textrm{adp}+\mathrm{I}) brep=borg(Wadp+I)

  • Dynamic Ensemble by Adapter Dropping

  为了增强R-AdapterOOD鲁棒性,加入适配器丢弃的动态集成技术。在训练过程中,适配器模块以以下方式被随机停用:

KaTeX parse error: Undefined control sequence: \label at position 74: …trm{adp}} + X, \̲l̲a̲b̲e̲l̲{eq:Stochastic}…

  其中, γ \gamma γ 是从 Bernoulli ( 1 − p ) \textrm{Bernoulli}(1-p) Bernoulli(1p) 中抽取的独立变量, p p p 是适配器丢弃的概率。

  与用于特征稀疏性的dropout或用于模型深度减少的drop-path不同,该技术独特地专注于在保持预训练特征的同时随机禁用适配器层。适配器丢弃不适用于推理阶段,这样可以创建一个由预训练层和适配器层组合而成的子网络集合。这种策略能够同时保留预训练知识和微调知识的动态集成多模型,从而在IDOOD数据上提升性能。

  • Temporal Ensemble by Accumulation

  通过利用适配器权重的历史累积,引入一个时间集成策略来提高模型的鲁棒性。在训练过程中,通过对多次迭代中的权重进行平均,集成技术捕捉到对特征空间的更广泛了解。累积适配器的权重 W ~ adp \tilde{W}_\textrm{adp} W~adp 则通过指数移动平均进行更新:

KaTeX parse error: Undefined control sequence: \label at position 116: …_\textrm{adp}, \̲l̲a̲b̲e̲l̲{eq:Accumulatio…

  其中, m ∈ [ 0 , 1 ] m \in [0, 1] m[0,1] 是控制动量更新速率的系数。这种方法在内存使用方面非常高效,因为只有适配器的参数进行了动量更新,而不是整个模型的参数。在推理阶段,利用累积的权重 W ~ adp \tilde{W}_\textrm{adp} W~adp 来计算重参数化权重 W ~ rep \tilde{W}_\textrm{rep} W~rep 和偏置 b ~ rep \tilde{b}_\textrm{rep} b~rep

  • Weight-space Ensemble by Re-scaling

  最后,引入一种通过重新调整参数实现预训练层和微调层之间的权重空间集成的策略。传统的权重空间集成(WiSE-FT)在原始预训练参数和微调参数之间进行线性插值,因此需要存储两个独立的模型。相比之下,论文采用重参数化的权重 W ~ rep \tilde{W}_\textrm{rep} W~rep 作为微调层的权重,从而进化了这个概念。我们在推理时重新调整适配器的权重并对其重参数化,将权重空间集成简化为单一模型内的实现。该过程可以表达如下:

KaTeX parse error: Undefined control sequence: \label at position 420: …ization}}}, \\ \̲l̲a̲b̲e̲l̲{eq:rescale} \e…

  这里, W ens W_\textrm{ens} Wens 表示集成的权重, α \alpha α 是一个重调整系数。系数 α \alpha α 充当插值因子,调整原始预训练权重 W org W_\textrm{org} Worg 与微调层调整权重之间的平衡。这种技术不仅可以提高在分布转移下的准确性,也能在ID数据上保持高性能。关键是,与WiSE-FT不同,该方法不需要在存储中维护两个单独的完整模型,因此更有效地促进了更节省存储空间的权重空间集成。

MPM-NCE Loss for Downstream Task

  为了增强下游任务的学习能力,使用与任务特征密切对齐的损失函数至关重要。视觉-语言任务通常涉及多个模态之间的对应关系。例如,在分类任务中,对同一类别使用不同的文本模板可能导致多个文本描述与单个图像匹配,反之亦然。这种情况在涉及图像和标题的跨模态检索任务中也会发生。当将零样本模型调整到新任务时,一种常见方法是使用预训练中使用的InfoNCE损失。然而,对于存在多个正样本的任务,该损失并不理想,因为它只考虑了单个正样本对。此外,InfoNCE学习了正负样本之间的顺序,这可能不会为下游任务产生足够有区分力的特征。

  为了解决这些限制,论文提出了MPM-NCE损失,旨在适应这些任务的多正样本性质,同时增强所学嵌入的区分能力。这个损失函数有两个关键改进。首先,使用软标签为多个正样本对分配相等的概率,公式如下:

$$
\begin{equation}
\tilde{y}{ij} = \frac{(1-\epsilon)\cdot y{ij}}{|P(i)|}

  • \frac{\epsilon \cdot (1-y_{ij})}{B-|P(i)|} \in [0,1],
    \label{eq:soft_label}
    \end{equation}
    $$

  其中 y i j ∈ { 0 , 1 } y_{ij} \in \{0,1\} yij{0,1} 表示样本 i i i j j j 之间的正关系, P ( i ) P(i) P(i) 是包括自身在内的样本 i i i 的正样本集合, ϵ \epsilon ϵ 是一种平滑标签噪声。这种软标签确保在下游任务中正确对齐多个图像-文本对。此外,软标签还可以包含 ϵ \epsilon ϵ ,通过对标签引入小的扰动来降低过拟合风险。

  第二个改进是对负样本对应用边界 δ \delta δ 。这个边界通过确保负样本对不仅是不同的,而且还要被一定的阈值分开,增强了所学特征的区分度。融合了这些改进,MPM-NCE公式如下:

KaTeX parse error: Undefined control sequence: \label at position 311: …/\tau}}\Bigg), \̲l̲a̲b̲e̲l̲{eq:MPM_NCE} \e…

  其中温度 τ \tau τ 被设为常数值0.01 δ i j \delta_{ij} δij 对于正关系为0,对于其他情况为 δ \delta δ 。因此,MPM-NCE损失鼓励模型正确对齐多个图像-文本对,并学习具有区分度的特征,从而在IDOOD下显著提高性能。

Experiments




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

这篇关于R-Adapter:零样本模型微调新突破,提升鲁棒性与泛化能力 | ECCV 2024的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1142188

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

黑神话,XSKY 星飞全闪单卷性能突破310万

当下,云计算仍然是企业主要的基础架构,随着关键业务的逐步虚拟化和云化,对于块存储的性能要求也日益提高。企业对于低延迟、高稳定性的存储解决方案的需求日益迫切。为了满足这些日益增长的 IO 密集型应用场景,众多云服务提供商正在不断推陈出新,推出具有更低时延和更高 IOPS 性能的云硬盘产品。 8 月 22 日 2024 DTCC 大会上(第十五届中国数据库技术大会),XSKY星辰天合正式公布了基于星

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费