【LLM大模型】生成式人工智能大型语言模型的安全性:概述

2024-08-26 18:12

本文主要是介绍【LLM大模型】生成式人工智能大型语言模型的安全性:概述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

生成性AI大型语言模型(LLMs)的安全性:概述

具有生成性AI能力的大型语言模型(如ChatGPT)正面临加速采用和创新。生成性AI(GAI)的日益普及不可避免地引发了对这些模型相关风险和安全性的担忧。本文从计算机科学家的角度,对GAI-LLMs的最新AI安全研究趋势进行了详尽的综述,内容具体且技术性强。在本综述中,我们探讨了在LLMs作为生成性语言模型的背景和动机下所识别的危害和风险;我们的综述强调了在LLMs研究开发和应用中统一理论以应对不同安全挑战的必要性。

https://arxiv.org/abs/2407.18369

我们首先通过相关文献支持,对LLMs的工作原理进行了简明介绍。然后,我们讨论了早期研究指出的生成性模型的基本限制或缺乏理解(例如,随着LLMs参数数量的增加,性能和安全之间的权衡)。我们充分讨论了LLMs的对齐问题——深入探讨了各种方法、争议方法以及将LLMs与人类偏好对齐所面临的现有挑战。通过强调文献中的空白和可能的实施疏漏,我们旨在创建一个全面的分析,为解决LLMs中的AI安全问题提供见解,并鼓励开发对齐且安全的模型。

我们在综述的结尾讨论了LLMs在AI安全领域的未来方向,提供了对该关键领域正在进行的研究的见解。

  1. 引言大型语言模型(LLMs)常被誉为具有惊人生成能力的革命性生成性AI(GAI)模型,但它们也带来了许多AI安全挑战。本文对现有研究文献中固有的LLMs安全风险进行了全面回顾。一个重要的挑战在于缺乏专门针对GAI-LLMs安全问题的综述论文,这些问题源于LLMs的技术构成,即数据预训练、模型架构和提示使用。目前的研究往往过于广泛,涉及X风险、AI伦理边界和政府政策变化等主题,这些虽重要,但并未直接聚焦于GAI-LLMs的功能性方面。在这项工作中,我们审视了先前文献中记录的生成模型的已知限制,并进一步识别和讨论由于未解决的技术问题而导致的新安全挑战。在确定了生成性AI和大型语言模型的安全挑战后,我们识别了一系列关键研究和主题:偏见和公平性、有害内容生成、虚假信息、隐私和安全问题、对抗攻击、知识产权侵权、伦理和人类偏好对齐以及大规模安全性。本文还回顾了后续GAI-LLMs安全研究的有前景途径,强调了在GAI-LLMs成为更强大代理时,LLM从业者和应用开发人员必须考虑的众多关键因素。

1.1. 文献检索策略本研究从计算机科学领域的AI和NLP方向的出版物中调查生成性AI和LLMs的安全性,包括ACL、NAACL、EACL、EMNLP、CoNLL、COLING**、SIGIR、IJCAI、AAAI、ICML、ICDM、KDD和NeurIPS。我们使用AI安全、生成性AI和大型语言模型等相关关键词来搜索相关论文。找到的论文中出现的相关工作也包含在本综述的范围内,这可能包括技术公司关于AI安全的技术文章,例如Anthropic、Google DeepMind、Meta、Microsoft Research**和OpenAI。AI安全和生成性AI研究领域广泛且复杂,来自学术界、工业界和政府的输入推动了这一领域的发展。在之前提到的核心文献基础上,审视额外的来源,以提供多样化的观点和见解。额外的来源增强了我们对这一领域的理解,强调了解决高级AI系统相关问题所需的协作努力。即将介绍的类别突出了计算机科学研究和政策制定正在进行的关键领域:

  • 大型语言模型的风险和危害分类:Weidinger等(2024a)强调了旨在识别和分类LLMs安全风险的研究的重要性,特别是那些具有潜在社会技术影响的研究。Bommasani等(2022)、Shelby等(2023)和Weidinger等(2022)展示了这一类型的工作,提供了理解GAI-LLMs潜在危险的关键分类和框架。Liu等(2024d)对LLMs对齐风险进行了深入分析,按主题系统地组织它们并讨论了评估研究的最新进展。这些综述论文共同构成了关注识别和理解LLMs潜在不良影响的文献。Bird等(2023)检查了文本到图像生成模型的危害,例如生成内容中的偏见、生成不当内容和侵犯版权的问题。虽然本综述论文集中于大型语言模型的技术方面,但Shevlane等(2023)和Solaiman等(2023)深入探讨了其社会影响,包括潜在危害,基于Solaiman等(2019)的早期工作。Amodei等(2016)的基础性工作“AI安全中的具体问题”极大地影响了高级AI的讨论,而Google DeepMind不断发展的分类法Morris等(2023);Dragan等帮助识别了建立这一领域的研究。Weidinger等(2024a)强调,持续发展这些分类法对于促进研究人员、政策制定者和其他利益相关者之间的共同理解至关重要。
  • 政府/政策制定会议:除了研究界的贡献,政府政策制定者在协作倡议中的参与也是重要的。这些协作生成了高质量的AI安全报告,例如WhiteHouse的报告。例如,Google DeepMind的评估方法Liang等(2022)和Anthropic的负责任的扩展政策Anthropic(2023)都引用了WhiteHouse。这些报告有助于全面理解围绕AI系统的复杂环境。正如预期的那样,这些会议的论文集中讨论了治理AI安全风险,如AI可信度、监控、公平性和隐私。
  • 企业AI安全委员会和AI安全声明:OpenAI通过他们的博客发布了他们的AI安全方法,并不断更新和变化,例如OpenAI安全委员会OpenAI(2023c)、AI安全更新OpenAI(2023e)和OpenAI安全标准OpenAI(2023d)。Weidinger等(2024a)提到Google DeepMind的AI安全委员会,并引用了一些资源链接到他们的AI安全原则GoogleDeepMind(2023)。Anthropic对评估AI系统的贡献提供了一种更务实和专注的方法。Ganguli等(2023)强调了GAI-LLMs特定评估的固有复杂性,例如Hendrycks等(2021)的大型多任务评估(MMLU)基准和Parrish等(2022)的问答偏见基准(BBQ),以及Liang等(2023)的整体语言模型评估(HELM)和Srivastava等(2023)的BigBench**。创建如此全面的评估框架的挑战表明了所需的大量努力。
  • AI安全评估:如HELM Liang等(2023)和BigBench Srivastava等(2023)等全面评估框架为基准测试LLMs提供了简化的API。这些框架结合了真理QA Lin等(2021)等开创性研究的基准,提供了不断演变的快照,以应对AI安全和代理的已建立风险和危害。通过在GitHub和HuggingFace**等平台上托管开源代码库,研究人员促进了社区的持续贡献和更新。

1.2. 与其他综述的比较本综述论文通过系统地调查LLMs的安全问题,提供了一个高层次的分类框架,包括训练数据、模型训练、提示、对齐和扩展。通过将高级应用(如ChatGPT、Gemini等)的讨论分解为不同方面,我们可以在其技术范围内缩小安全问题并理解下游问题。我们的还原主义方法符合近期的努力,例如Dalrymple等(2024)的“保证安全的AI”,以综合和分类GAI-LLMs和未来代理相关的风险。例如,Gabriel等(2024)深入探讨了高级AI助手的伦理挑战,重点关注价值对齐、安全性和潜在的滥用。同样,Bommasani等(2022)对基础模型(包括LLMs)的机会和风险进行了广泛的讨论。Liu等(2024d)通过识别生成性AI系统中的已知风险并提出增强其可信度的框架,补充了这一讨论。虽然其他综述工作提供了重要见解,我们的综述通过系统地将这些识别的风险与LLM架构的特定方法(特别是上下文学习、提示和强化学习)相关联,从而使其与众不同。通过这种方法,我们可以识别安全问题的技术来源,并追踪其在系统中的传播,提供对如何以及在哪里最有效地进行干预的更详细理解。我们还结合了LLMs评估的最新发展,如Weidinger等(2024a)所展示的。他们的工作分享了开发Google Gemini**模型的经验教训,并深入了解了DeepMind内部的治理结构,提供了关于在实际AI系统中实施安全措施的实际挑战的关键视角。为了进一步区分我们的综述,我们包括了Zhao等(2023)的最新工作分析,他们对LLMs的评估方法提供了全面概述。他们的评估指标和数据集分类为我们的基于组件的分析提供了有价值的背景,有助于弥合理论安全问题和实际评估方法之间的差距。通过综合这些不同的观点并围绕基于组件的框架进行组织,我们的综述为该领域做出了独特贡献。它不仅巩固了关于LLM安全性的现有知识,还提供了一个结构化的方法来识别和解决其源头的安全问题。这种方法对于旨在提高基于LLM的系统在各种应用和领域中的鲁棒性和可靠性的研究人员和从业者来说,特别有价值。

1.3. 综述的主要贡献在这项综述中,我们的主要贡献总结如下

  • 我们通过一个新的基于组件的框架,系统地调查了LLMs的安全问题,将关注点分类为训练数据、模型训练、提示、对齐和扩展。
  • 我们将识别的风险与特定的LLM方法(特别是上下文学习、提示和强化学习)相关联,从而更精确地理解安全问题的技术来源。
  • 我们结合了对LLM提示和对齐技术与人类偏好的综合分析,弥合了理论安全问题和实际评估方法之间的差距。
  • 我们将模型对齐的讨论置于广泛的AI安全文献中,探索了关于语言模型的不同哲学观点,以及它们与AI代理安全的独特对待方式。根据我们的研究,我们区分了强化学习策略,无论代理是否设计为语言助手,都可以在任何相互设置中嵌入与人类相关的安全措施。
  • 通过这种还原主义方法,我们汇集了当前文献中的各种观点,提出了一个独特且有组织的框架,以定位和解决LLM安全问题。这种方法为识别最有效的干预点提供了关键见解,为专注于提高LLM基于系统安全性的研究人员和从业者提供了重要视角。

1.4. 综述的提纲在这项工作中,第2节提供了LLMs的简要背景。本文随后提出了一个全面的安全问题和挑战分类法,分为五个主要类别,如表1所示。第3节的数据安全解决了有害性、偏见、数据隐私和版权侵犯等问题。第4节的模型安全探讨了虚假信息、评估问题、可解释性挑战和推理隐私问题。第5节的提示安全或使用安全重点关注潜在攻击,如提示注入和越狱,以及防御策略。第6节的对齐或伦理安全深入探讨了对齐的哲学方面、中立对齐方法、大型语言模型的价值对齐以及对齐LLMs与人类价值和伦理原则的方法。最后,第7节的规模安全性研究了可扩展的监督机制、涌现能力、知识蒸馏技术以及大规模模型的灾难性遗忘风险。这种结构化的方法提供了GAI-LLMs研究中安全领域的全面概述。我们在第8节中提出了一些未来值得研究的趋势,并在第9节对本次综述进行了总结。

在这里插入图片描述

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。

  • 内容

    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

  • 内容

    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.3 流水线工程
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

  • 内容

    • L3.1 Agent模型框架
    • L3.2 MetaGPT
    • L3.3 ChatGLM
    • L3.4 LLAMA
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

这篇关于【LLM大模型】生成式人工智能大型语言模型的安全性:概述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1109302

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言