区别探索:掩码语言模型 (MLM) 和因果语言模型 (CLM)的区别

2023-10-18 10:30

本文主要是介绍区别探索:掩码语言模型 (MLM) 和因果语言模型 (CLM)的区别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大多数现代 NLP 系统都遵循相当标准的方法来为各种用例训练新模型,即首先预训练,然后微调这里, 预训练的目标是利用大量未标记的文本并构建语言理解的通用模型,然后针对各种特定的 NLP 任务(例如机器翻译、文本摘要等)进行微调。

在本博客中,我们将讨论两种流行的预训练方案,即掩码语言建模(MLM)和因果语言建模(CLM)。

没有时间阅读整个博客?然后观看这段 <60 秒的 短片 -

掩码语言模型解释

在屏蔽语言模型下,我们通常屏蔽给定句子中一定比例的单词,并且模型预计会根据该句子中的其他单词来预测这些屏蔽单词。这样的训练方案使得该模型本质上是双向的,因为掩码词的表示是根据左侧和右侧出现的单词来学习的您还可以将其想象为填空式的问题陈述

下图显示了同样的情况——

掩码语言模型| 作者提供的图片

下图。显示带有损失计算步骤的更详细视图 —

带有损失的屏蔽语言模型 | 作者提供的图片

在这里,屏蔽词的表示可以是基于注意力的,就像BERT及其变体一样,或者你也可以在没有注意力的情况下设计它。基于Alpha (注意力权重)的分布,您可以权衡每个其他输入单词的表示,以学习屏蔽单词的表示,例如 - Alpha=1 会给周围的单词赋予相同的权重(意味着每个单词都会持有MASK 表示中的同等贡献)。

因果语言模型解释

因果语言模型。因果语言模型(causal language model),是跟掩码语言模型相对的语言模型,跟transformer机制中的decoder很相似,因果语言模型采用了对角掩蔽矩阵,使得每个token只能看到在它之前的token信息而看不到在它之后的token,模型的训练目标是根据在这之前的token来预测下一个位置的token通常是根据概率分布计算词之间组合的出现概率,因果语言模型根据所有之前的token信息来预测当前时刻token,所以可以很直接地应用到文本生成任务中。可以理解为encoder-decoder的模型结果使用了完整的transformer结构,但是因果语言模型则只用到transformer的decoder结构(同时去掉transformer中间的encoder-decoder attention,因为没有encoder的结构)。

虽然因果语言模型结构简单而且对于文本生成来说直截了当,但是它本身还是带有一些结构或者算法上的限制。首先因果语言模型都是从左往右对token依次进行编码,忽略了相应的双向信息。其次,因果语言模型不适合处理部分端到端的任务,在包括摘要和翻译等任务中不能取得令人满意的结果。

在因果语言模型下,这里的想法再次是预测给定句子中的屏蔽标记,但与 MLM 不同,该模型允许只考虑出现在其左侧的单词来执行相同的操作(理想情况下,这可以是左侧或右侧)正好,思路就是让它单向)。这样的训练方案使得这个模型本质上是单向

如下图所示,模型预计会根据出现在句子左侧的单词来预测句子中存在的掩码标记。根据模型对实际标签的预测,我们计算交叉熵损失并将其反向传播以训练模型参数。

因果语言模型 | 作者提供的图片

下图。显示带有损失计算步骤的更详细视图 —

带有损失的因果语言模型 | 作者提供的图片

在这里,屏蔽词的表示可以是基于注意力的,就像GPT和变体一样,或者你也可以在没有它的情况下设计它,就像我们在 LSTM 时代那样。根据Alpha的分布(见图),您可以权衡每个其他输入单词的表示,以学习屏蔽单词的表示,例如 - Alpha=1 会给周围的单词赋予相同的权重(这意味着每个单词都将具有相同的权重)对学习到的 MASK 表示的贡献)。

这些系统也称为仅解码器模型,因为在机器翻译、文本摘要等典型的编码器-解码器架构中,解码器(文本生成器)的工作原理类似。

何时使用什么?

当目标是学习输入文档的良好表示时,MLM 损失是首选, 然而,当我们希望学习生成流畅文本的系统时,CLM 是首选。另外,直观上这是有道理的,因为在学习每个单词的良好输入表示时,您会想知道它出现在左侧和右侧的单词,而当您想学习生成文本的系统时,您只能看到什么到目前为止您所生成的所有内容(就像人类的书写方式一样)。因此,制作一个在生成文本时也可以查看另一侧的系统可能会引入偏差,从而限制模型的创造力。

making a system that could peek to the other side as well while generating text can introduce bias limiting the creative ability of the model.

尽管在训练具有编码器和解码器的整个架构时,您经常会发现 MLM 和 CLM 损失。两者都有各自的优点和局限性,一种名为XLNet的新模型使用排列技术来充分利用两个领域(MLM 和 CLM)的优点。

图1. Judea Pearl 的因果之梯包括三个层级关联(association)、干预(intervention)反事实(counterfactual),分别对应逐级复杂的因果问题

这到底是如何实现的呢?关键之处在于,大语言模型引入一种基于文本和元数据的新推理方式来实现这一目标,称之为基于知识的因果推理(knowledge-based causal reasoning),这与现有的基于数据的方法有所不同。具体而言,大语言模型拥有迄今为止被认为只有人类才具有的能力,如使用知识生成因果图,或从自然语言中识别背景因果关系

大语言模型可以作为人类领域知识的代理,这对通常依赖于人类输入的因果任务来说是一个巨大的胜利。通过捕捉关于因果机制的常识和领域知识,并支持自然语言与形式方法之间的转换,大语言模型为推进因果关系的研究、实践和采用开辟了新前沿。

1. 大语言模型与因果发现

  • 成对因果发现

在成对因果发现任务中,GPT3.5/4 之类的大语言模型在涵盖物理学、工程学、医学和土壤科学的图宾根基准测试中,以超过 90% 的的准确率正确预测成对变量的因果方向(A是否导致B?),此前最高的准确率是83%。提示语使用变量名,并询问更可能的因果方向。

图2. 成对因果关系测试任务试图确定,变量A是否导致变量B,或者反之。

在关于神经性疼痛的专门医学数据集上,大语言模型也获得了类似的高准确率。在这种情况下,因果关系并不明显,然而 GPT-4 以96%的准确率检测到正确的因果方向。提示语的选择对结果有很大影响。

图3. 神经性疼痛诊断基准中的成对因果关系。

  • 发现完整因果图

对于更困难的任务,发现完整的因果图,此前在医学数据集上的工作预测大语言模型无效,然而事实并非如此。通过简单的提示调整,测试分数迅速从0.1上升至0.7。在一个北极科学数据集上,GPT-4 超越了最近的深度学习方法。当然,大语言模型也会犯一些愚蠢的错误(例如回答鲍鱼的长度决定了其年龄),所以在关键应用上仍然难以信任。但结果令人惊讶的地方在于,在涵盖广泛人类知识的数据集上,这类错误是如此之少。

这对因果推理具有重要意义。构建因果图可能是因果分析中最具挑战性的部分。这些结果表明,我们可以不再依赖人类提供完整的因果图,而可以使用大语言模型来生成候选因果图或帮助评估。

图4. 大语言模型检测因果方向的推理过程。左侧的因果推理过程给出了正确答案:鲍鱼的年龄导致了其长度;右侧的例子需要同样的因果知识,但大语言模型的论证不连贯,给出了错误答案。

2. 大语言模型用于现实因果推理

  • 反事实推理

论文的第二部分关注反事实推理。大语言模型能否从自然语言中推断因果关系?

例如:一个女人看到了火。如果女人触摸了火,会发生什么?

对于实际因果关系,由于人类需要判断相关变量及其因果贡献,这是一个非常具有挑战性的任务。GPT3.5/4 在这方面优于现有算法。在预测日常反事实情况结果的 CRASS 基准测试中,GPT-4 获得 92% 的准确率,比之前的最好结果高出 20%。

  • 推断必要和充分原因

接下来,大语言模型能否推断必要和充分原因?研究中考虑了15个具有挑战性的实际因果事件。GPT3.5 在这种情况下失效了,但 GPT4 仍然达到了86%的准确率。

  • 推断是否符合社会规范

这些发现意味着大语言模型可以作为工具,直接从混乱的人类文本中进行因果归因。虽然大语言模型可以从文本中推断相关变量,但评估人类因素(例如,一个行动是否被认为合乎社会规范的?)对大语言模型来说仍然是艰难的任务。在需要算法匹配人类直觉的 Big Bench 因果判断任务上,GPT-3.5/4获得了较低的准确率。

3. 大语言模型推动因果推理的新前沿

总体而言,大语言模型为因果推理带来了新的能力,与现有方法相辅相成。我们看到了因果推理充满前景的未来,大语言模型可以协助和自动化因果推理的各个步骤,在基于知识的因果推理和基于数据的因果推理之间无缝转变。

图5. 在处理现实世界因果任务时,人类会在基于逻辑的因果推理和基于协变的因果推理之间转换。现在,大语言模型能够协助和自动化因果推理的每一个步骤,帮助实现协变与逻辑因果推理的统一。

大语言模型并不完美,具有不可预测的失效模式。鲁棒性检测表明存在记忆的因果关系,这部分解释了大语言模型的表现。因此,我们仍然需要原理性的因果算法,不过大语言模型可以用来扩展其范围和能力。

展望未来,这项工作提出了更多问题而非给出答案。大语言模型如何帮助重新发明或增强现有的因果任务,如何让大语言模型的推理更加鲁棒,是许多研究关注的问题。

AI+Science 读书会

AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。

集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣,共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。读书会从2023年3月26日开始,每周日早上 9:00-11:00 线上举行,持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。

详情请见:

人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动

因果表征学习读书会

随着“因果革命”在人工智能与大数据领域徐徐展开,作为连接因果科学与深度学习桥梁的因果表征学习,成为备受关注的前沿方向。以往的深度表征学习在数据降维中保留信息并过滤噪音,新兴的因果科学则形成了因果推理与发现的一系列方法。随着二者结合,因果表征学习有望催生更强大的新一代AI。集智俱乐部组织以“因果表征学习”为主题、为期十周的读书会,聚焦因果科学相关问题,共学共研相关文献。欢迎从事因果科学、人工智能与复杂系统等相关研究领域,或对因果表征学习的理论与应用感兴趣的各界朋友报名参与。

详情请见:

连接因果科学与深度学习的桥梁:因果表征学习读书会启动

这篇关于区别探索:掩码语言模型 (MLM) 和因果语言模型 (CLM)的区别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/231972

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU