大语言模型的32种消除幻觉的技术,你都了解吗?

2024-09-07 04:36

本文主要是介绍大语言模型的32种消除幻觉的技术,你都了解吗?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大模型幻觉问题是计算机语言学中一个重要的研究方向。为减轻幻觉,研究人员提出了多种策略,比如反馈机制、外部信息检索等,但一直缺少一篇详细综述将近期关于幻觉的研究工作串联起来。

今天介绍的这篇文章详细梳理了大语言模型幻觉消除技术,将其系统的分为提示工程和模型开发两大类。

提示工程涉及基于检索增强的方法、基于反馈的策略或提示微调;模型开发则可分为多种方法,包括新的解码策略、基于知识图谱的优化、新增的损失函数组成部分以及监督微调等。

本文将简单的概述这篇文章,罗列一些关键的技术点,详细内容还请参照原论文~

在这里插入图片描述

论文标题:
A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

论文链接:
https://arxiv.org/pdf/2401.01313.pdf

提示工程

提示工程方法通过尝试各种指令获得文本生成模型的最佳输出,这个过程可以提供特定的上下文和预期结果,以缓解模型幻觉。

检索增强生成(Retrieval-Augmented Generation)

RAG通过利用外部权威知识库来增强LLMs的回应,而不是依赖于潜在过时的训练数据或模型内部的知识。RAG不仅可以生成相关和实时的回应,还可生成可验证的回应,有效地减轻LLMs中出现的幻觉问题。

作者按信息检索发生的时间,将该技术分为文本生成之前、过程中、生成之后、端到端四种。

1. 生成之前

  • LLM-Augmenter:当接收到用户查询,该框架首先从外部知识中检索证据并构建证据链。然后,使用整合证据的提示向GPT-3.5提问,生成基于外部知识的候选响应。LLM-Augmenter验证候选响应的真实性,若产生虚假证据,则生成反馈信息用于修订提示并重新提问。此过程持续迭代,直至候选响应通过验证并发送给用户。
  • FreshPrompt:该方法使用搜索引擎将相关的和最新信息整合到提示中,增强了动态问答,特别适合用在快速变化的知识场景中。

2. 生成过程中

模型在生成每个句子时进行信息检索。主要方法包括:

  • 知识检索:在生成句子前首先利用模型的logit输出值识别可能的幻觉,并验证其准确性,然后纠正已发现的幻觉。在生成过程中处理幻觉非常重要,当模型输出幻觉后,它会增加后续产生带有幻觉的句子的概率。
  • D&Q框架:该方法指导模型在利用外部知识的同时限制推理时使用的可靠信息,从而减少幻觉的风险。该框架包括一个无需工具调用的监督微调阶段,并在预测阶段让模型使用外部工具查询可靠的问答库,根据需要进行回溯和启动新的搜索。
  • EVER框架:与现有方法在事后纠正幻觉不同,EVER在生成过程中采用实时、逐步的策略来检测和纠正幻觉的发生。这个三阶段的过程涉及生成、验证和纠正,有效地识别和纠正内在和外在的幻觉。

3. 生成之后

以下方法为生成其全部输出后再使用信息检索系统:

  • RARR:该框架可为任何文本生成模型自动化归因过程,弥补生成内容缺乏适当的支持的缺陷。通过研究和后期编辑来使内容与检索到的证据保持一致,同时保留原始特性,在LLM生成之后无缝运作。
  • 高熵词汇的检测和替换:利用开源LLM来识别高熵词汇,然后使用基于较低妄想易受攻击指数的LLM来替换它们。将连续的高熵词汇作为一个统一的单元进行处理,在替换之前对这些词进行集体屏蔽,特别有效地解决了缩略语歧义相关的幻觉问题。

4. 端到端

将seq2seq transformer 与通过Dense Passage Retriever (DPR)访问的维基百科的密集向量索引集成起来,使得模型能够在生成过程中以输入查询和DPR提供的潜在文档为条件,以缓解幻觉。这种方式使用预训练的组件,并预加载了广泛的知识,使得模型能够访问和整合大量信息而无需额外的训练。

通过反馈自我完善

在LLM提供特定提示的输出后,给予恰当的反馈可以使LLM在其连续迭代中产生更好、更准确的输出。

  • 可靠性分解:本方法将可靠性分解为四个关键方面:普适性、社会偏见、校准和事实性,并引入简单而有效的提示增强每个方面,提供了改进GPT-3性能的实用策略。
  • ChatProtect:该方法主要关注LLM生成的自相矛盾幻觉,即在同一上下文中出现逻辑不一致的句子,并提出三步流程来推理自相矛盾,此方法基于提示策略,适用于黑盒LLM,无需外部知识。
  • 自我反思方法:本方法研究医学生成QA系统中的幻觉现象,提出一种交互式自我反思方法,整合知识获取与答案生成,通过迭代反馈过程改善答案的事实性、一致性和蕴含关系。
  • 结构化比较(SC)推理:本方法关注文本偏好预测领域,利用提示法通过生成结构化的中间比较来预测文本偏好。SC首先提出比较方面,然后生成文本比较。利用成对一致性比较器,SC确保每个方面比较有明显区别,有效降低幻觉现象,增强一致性。
  • Mind’s Mirror:为解决小型语言模型(SLM)中的幻觉,本方法将LLM自我评估能力融入到SLM中的精炼过程,将多个不同的CoT和自我评估范例结合在一起,进行全面知识转移到SLM中。
  • DRESS:为提高大型视觉语言模型与人类偏好和交互能力的对齐,该方法该方法将条件强化学习应用于训练模型,使其能够根据自然语言反馈生成相应的响应,从而高效地整合不可微分的反馈。
  • MixAlign:利用语言模型实现自动对齐,通过用户澄清增强对齐。专注于利用基本知识进行忠实决策。在不确定或证据不清时,MixAlign会生成问题,寻求用户澄清,即人为辅助知识对齐。
  • Chain-of-Verification(CoVe) :该方法通过验证链使模型能够对其输出结果进行可信验证。首先起草一个初始答复,然后验证问题以事实核对其初始答复,再独立回答这些问题以保持回答的客观性,最后生成最终已验证的响应。
  • 自然语言推理链 (CoNLI) :该利用自然语言推理链 (CoNLI) 进行幻觉检测,以识别未确证的内容。然后使用后期编辑来减少幻觉并提升文本质量,无需调整模型。通过将检测形式化为一系列自然语言推理任务,该框架融合了句子和实体级别的判断结果,具有可解释性。

提示微调

LLM通过在微调期间进行反向传播学习来自“软提示”中的知识,而这些知识不是预先确定的,而是由模型自己学习得来。提示微调在微调阶段调整LLM的指令,以使该模型在特定任务中更加有效。

  • UPRISE:用于自动为给定的零样本任务输入检索提示,经过训练,该检索器能检索多个任务的提示,使其在推理时能适应新任务。
  • SynTra:通过合成任务减少下游摘要任务的幻觉。SynTra通过在合成任务上对LLM进行微调,并将此能力转移到更具挑战性和实际的摘要任务中。

开发新模型

与微调模型不同,还有一类方法通过更新模型框架以减轻幻觉。

新的解码策略

  • 上下文感知解码(CAD) :CAD遵循对比输出分布,当模型在有和没有上下文的情况下使用时增大输出概率的差异。当上下文与模型先验知识冲突时,CAD效果更佳,在解决知识冲突任务中实现显著改进。CAD可与预训练语言模型结合,无需额外训练。
  • 对比层解码(DoLa) :通过对前后层投影到词汇空间中的logit差异进行对比,计算下一个token的分布。这利用了特定Transformer层中事实知识的局部化现象。因此,DoLa增强了对事实知识的识别,并减少了生成错误事实的发生。
  • 推理时介入(ITI) :通过在推理过程中沿着有限的注意力头方向移动激活模型,改善模型性能。该技术首先识别出具有高线性探测准确性的稀疏注意力头集,确保真实性。然后在推理过程中,沿着与真实性相关的方向移动激活。它在生成整个答案之前以自回归方式重复相同的介入操作。ITI显著提高了LLaMA模型在TruthfulQA基准测试上的性能。

利用知识图谱

KG(知识图谱)是包含关于实体(即人、地点或物体)、它们的特征以及它们之间的连接的详细信息的有组织的数据集。为复杂推理、数 据分析和信息检索提供了基础,也常用于缓解幻觉。

  • RHO:为应对对话响应生成中的幻觉挑战,RHO框架利用KG中实体与关系谓词表示生成更忠实的响应。引入局部与全局知识基础技术,并结合对话推理模型对响应进行重排序,该工作改进了知识与对话上下文的融合与交互,进一步减少幻觉。
  • FLEEK:是一个智能型、无模型偏置的工具,旨在帮助终端用户(如人类评分员)进行事实核查与修正。它具有友好的界面,能自动识别输入文本中的可验证事实,并查询精选知识图谱和开放网络收集证据。FLEEK还提供修正意见,其验证过程具有可解释性。

引入基于忠诚度的损失函数

本节讨论了一些评价体系,以衡量模型输出与输入数据或基本事实之间的相似程度。忠实度描述了模型在不添加错误、省略或扭曲的情况下,忠实地、正确地反映输入数据的能力。

  • 文本幻觉缓解(THAM)框架:通过引入信息论正则化,减轻了特征级幻觉效应。该框架包括从响应语言模型与幻觉语言模型互信息推导出的文本幻觉正则化损失。最小化此损失有助于减少不加区分的文本复制,提升对话性能。
  • 损失加权方法mFACT:用于评估非英语摘要的忠实度的框架,研究跨语言迁移环境中的幻觉问题,将mFACT应用于多语言LLMs摘要的忠实度研究。提出度量标准,将训练样本的损失根据其忠实度分数进行加权处理。

有监督微调

有监督微调在使用有标签数据使LLMs与下游任务对齐的过程中起着重要作用。在监督微调过程中,根据一个任务特定的损失函数计算的梯度调整LLM的权重,该损失函数衡量LLM的预测和实际标签之间的差异。

  • 知识注入和师生模型:本方法利用GPT-4等更强大的LLM来引导较弱的LLMs,通过领域微调的方式为较小的LLM注入知识,而无需依赖较强模型的昂贵指令。
  • 幻觉增强复述:该方法引入了LLMs中的属性概念,以控制信息来源并增强事实性。利用LLM幻觉创造对照数据集微调模型以增强模型属性,即使是在训练数据集和模型尺寸较小的情况下,也能超越在事实数据集上训练的模型。
  • 事实性微调:该方法采用自动事实检查方法和基于偏好的学习方法,在不需要人工标记的情况下对Llama-2模型进行了事实性微调,显著降低错误。
  • BEINFO:通过行为微调增加信息,寻求对话中生成的回应的忠实度。模型在包含真实知识来源的大量对话及从大型知识库中随机采样的事实的扩展上进行微调。
  • 拒绝意识指导调节(R-Tuning) :该方法构建拒绝的训练数据,教会LLM在遇到超出其能力的问题时保持沉默。
  • 深思并有效表达知识 (TWEAK) :该方法将每个步骤生成的序列及其后续序列视为假设,并根据每个生成候选者与输入事实相关的假设程度,利用假设验证模型(HVM)对其进行排名。该方法仅对解码过程进行微调,而无需重新训练生成模型。

结论

通过这篇文章,我们对目前大模型的幻觉消除技术有了一个初步的了解,为研究新的有效的幻觉消除技术奠定了基础。

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。

  • 内容

    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

  • 内容

    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.3 流水线工程
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

  • 内容

    • L3.1 Agent模型框架
    • L3.2 MetaGPT
    • L3.3 ChatGLM
    • L3.4 LLAMA
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

这篇关于大语言模型的32种消除幻觉的技术,你都了解吗?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1144067

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言