第44期 | GPTSecurity周报

2024-03-27 12:04
文章标签 周报 44 gptsecurity

本文主要是介绍第44期 | GPTSecurity周报,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1.安全人工智能系统开发指南

简介:该指南提供了针对AI系统开发生命周期中设计阶段的指导,着重于理解风险、进行威胁建模,以及在系统与模型设计时需权衡的关键因素。指南涉及四个主要领域:提升员工对安全威胁和风险的意识、对系统潜在威胁进行细致建模、确保系统设计兼顾安全性、功能性与性能,以及在选择AI模型时评估安全性与其他因素之间的权衡。

链接:

https://www.ncsc.gov.uk/files/Guidelines-for-secure-AI-system-development.pdf

2.评估人工智能系统的挑战

简介:围绕人工智能对社会影响的讨论通常归结为其系统特质的探讨,如真实性和公平性,但许多人未意识到若想构建完善的模型评估方式是极具挑战性的工作,现有评估工具在准确性上存在局限。本文分享了研究人员在模型评估实践中的挑战,旨在为AI治理和评估工作的相关人员提供参考。

链接:

https://www.anthropic.com/index/evaluating-ai-systems

3.对人工智能安全的观点:时间(When)、原因(Why)、对象(What)以及方法(How)

简介:人工智能在未来十年可能引发深远变革,得益于计算能力的指数增长,其能力预计将显著提升,有可能超越人类智慧。尽管如此,如何培养出既强大又可靠的AI系统仍是一个未解之谜,快速的技术进步可能引发社会动荡和不安全的竞争。研究者正在采取以经验为导向的 AI 安全方法,积极探索工人工智能系统的运作本质,研究可扩展的人工智能系统监督和审查技术,尝试创建透明和可解释的人工智能系统,并分析人工智能的潜在风险点及如何预防它们,旨在构建出能够稳健应对各种挑战的安全系统

链接:

https://www.anthropic.com/index/core-views-on-ai-safety

4.用“Spotlighting”防御间接提示注入攻击

简介:大语言模型(LLMs)是为处理单一文本输入而设计的强大工具。在实际应用中,通常将多个输入合并为一个文本流来同时处理,但这样做LLM无法识别不同输入的来源。这就导致了一种安全漏洞,即间接提示注入攻击,攻击者会在数据中嵌入恶意指令,而模型可能会将这些指令误认为是用户的命令。为了解决这个问题,研究者提出了一种名为“Spotlighting”的技术,它通过对输入进行特定的转换,帮助模型可靠地识别输入的来源。实验证明,Spotlighting技术能有效防御间接提示注入攻击,将攻击成功率从50%以上降低到不到2%,同时对自然语言处理任务的性能影响极小。

链接:

https://arxiv.org/pdf/2403.14720.pdf

5.大语言模型中的风险和响应:评估关键威胁类别

简介:本论文研究了随着大语言模型(LLMs)得到广泛应用所带来的风险评估问题。文章集中讨论了奖励模型在微调LLMs以符合人类价值观时,如何识别和处理各种风险,以及个性化训练数据的主观性所引发的挑战。通过分析Anthropic Red-team数据集,研究者发现LLMs往往低估了信息危害的风险,这一点通过回归模型得到了验证。相比其他风险,LLMs对信息危害的反应也相对宽松。研究还揭示了LLMs在信息危害情况下对越狱攻击的高度脆弱性,突显了风险评估中的安全隐患,并强调了加强AI安全措施的必要性。

链接:

https://arxiv.org/pdf/2403.14988.pdf

6.BadEdit:通过模型编辑对大语言模型进行后门攻击

简介:传统的后门攻击方法在大语言模型(LLMs)上的应用受限于需要大量数据进行“投毒”,这不仅影响实用性,还可能损害模型的整体性能。针对这一问题,研究者首次提出了BadEdit攻击框架,将后门注入视为轻量级知识编辑任务,通过直接修改LLM参数来高效植入后门。BadEdit的优势在于:仅需要极少的样本(15个)进行注入,大幅减少调整参数的时间消耗,确保模型性能不受影响,并且在后续的微调或指令调整后后门依然稳定。实验显示,BadEdit能以100%的成功率高效攻击预训练的LLMs,同时保持对正常输入的处理性能。

链接:

https://arxiv.org/pdf/2403.13355.pdf

编辑:Fancy

图片

这篇关于第44期 | GPTSecurity周报的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/852037

相关文章

AI周报(9.1-9.7)

AI应用-Tidal 引领海洋养殖革命 Tidal团队,一个源自Alphabet X的创新项目,今年七月顺利从X实验室毕业,成为一家独立的公司。Tidal正在通过人工智能技术改变海洋养殖,特别是鲑鱼养殖。Tidal的总部位于挪威特隆赫姆,他们结合了传感器、机器人、数据科学和人工智能技术,为鲑鱼养殖提供全面的解决方案。这个系统可以监控鱼类并提供产量估算,旨在在问题(如海虱)造成严重损害之前发现它们

王知无的技术周报(3.25-3.29日)

发件人:王知无 收件人:我的朋友们 本周知识点 01 我是如何失去一位女粉丝的 一位女粉丝管我要一张真人照片,问题来了,她要张真人照片做什么用? 02 ApacheFlink深度解析-JOIN-LATERAL 本篇重点向大家介绍了一种新的JOIN类型 - JOIN LATERAL。并向大家介绍了SQL Server中对LATERAL的支持方式,详细分析了JOIN LATERAL和I

Linux 之 mysql-5.7.44 下载/安装(离线)

下载 官网 MySQL :: Download MySQL Community Server (Archived Versions)     安装 1.解压并放到指定目录(/home/mysql) tar -zxvf mysql-5.7.44-el7-x86_64.tar.gz 移动到指定安装位置(我的:/home 下)  mv mysql-5.7.44-el7-x8

鹏哥C语言自定义笔记重点(44-)

44.不能给地址复制,strcpy拷贝过去连带着\0 45. 46.  47.  48.strstr      //查找子串的一个函数 49.strtok    //切割字符串  50.strerror     //返回错误码,所对应的错误信息  检查的是文件 51.如果不正确则返回0    52.memcpy负责拷贝两块独立

杨树84K品种的单细胞测序发现转录因子PagMYB31的功能-文献精读44

Transcription factor PagMYB31 positively regulates cambium activity and negatively regulates xylem development in poplar 转录因子PagMYB31正向调控杨树84K品种的形成层活动,并负向调控木质部的发育。 同样有篇文献,二倍体毛白杨基因组~ 二倍体毛白杨(Populus

周报 | 24.8.26-24.9.1文章汇总

为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。 周报 | 24.8.19-24.8.25文章汇总-CSDN博客 python | 提升代码迭代速度的Python重载方法-CSDN博客 机器学习算法与Python学习 | 黑匣子被打开了?能玩的Transformer可视化解释工具!_研究别人的黑盒算法 机器学习 python-CSDN博客 极市平台 | 语言图像模型大一统!M

NTFS硬盘支持工具Paragon NTFS for Mac 15.4.44 中文破解版

Paragon NTFS for Mac 15.4.44 中文破解版是一个底层的文件系统驱动程序,专门开发用来弥合Windows和Mac OS X之间的不兼容性,通过在Mac OS X系统下提供对任何版本的NTFS文件系统完全的读写访问服务来弥合这种不兼容性。为您轻松解决Mac不能识别Windows NTFS文件难题,让您简单自如读写NTFS外置存储文件。您无法在NTFS分区中创建、删除或者修改文

认知杂谈44

今天分享 有人说的一段争议性的话 《耐心雕琢人生:终身学习,绘就多彩画卷》 嘿,咱都知道,老有人说二十一天就能养成个新习惯,听着好像挺容易挺快的哈。 I I 可实际上呢,靠这种速成法养出来的习惯,根本不牢靠,就跟清晨草叶上那露珠似的,稍微一碰就没了。 I I 好多人都幻想着每个月都能来个大转变,半年就变成专家,可往往都是一开始热情高涨,没几天就没劲儿了,半途而废那是常事儿。 I I 其实啊

学习周报-2024.8.31

目录 摘要 Abstract 创新点总结 模型数学原理 实验设置 一、验证实验 二、对比实验 摘要 这周重新梳理出论文的三个创新点,对所提出方法进行数学原理验证,证明其可行性。重新设置了实验部分,分为验证实验和对比实验,一共四个实验,选用基线对比模型有LSTM、GRU、MLP、ITransformer。这周对数据做了选择和处理,后续需要继续调整数据和模型,以达到实验结果要

机器学习周报(8.26-9.1)

文章目录 摘要Abstractself-attetionQKV理解如何让self-attention更有效local attention/truncated attention方法stride attention方法Global Attention方法data driving方法Clusteringsinkhorn sorting network选取representative keys减少