第34期 | GPTSecurity周报

2024-01-04 11:28
文章标签 34 周报 gptsecurity

本文主要是介绍第34期 | GPTSecurity周报,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1. Constitutional AI: Harmlessness from AI Feedback  

简介:随着人工智能系统能力的增强,研究者希望能够借助其力量来监督其他AI。为了实现这一目标,研究者采用了一种自我改进的方法,试图训练一种无害的AI助手。该过程包括两个阶段:监督学习和强化学习。在监督学习阶段,研究者从初始模型中采样,然后生成自我批评和修订。根据修订后的回复,对原始模型进行微调。在强化学习阶段,研究者从微调后的模型中采样,使用一个模型来评估哪两个样本更好。然后,从AI偏好数据集中训练偏好模型。这些方法使更精确地控制AI行为和减少人类标签成为可能。通过这种训练方法,研究者能够提高AI助手的准确性和效率,同时避免潜在的有害行为。这种方法对于监督和规范AI的发展具有重要意义,有助于确保AI系统的安全性和可靠性。

链接:

https://arxiv.org/abs/2212.08073.pdf

2. Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models

简介:随着大型语言模型(LLMs)在各种下游任务中的快速发展和显著成功,人们对其潜力和能力赞叹不已。然而,这种开放性的技术也带来了新的安全和隐私问题。由于LLMs具有强大的模仿和生成能力,它们可能被用于抄袭或模仿写作,进而侵犯原创内容的版权,或基于某个源文本制造滥用的虚假信息。更为严重的是,LLMs还能分析网络文本,从而推断出个人隐私。面对这一新形势,以往的文本保护措施显得力不从心。为了应对这一挑战,研究者提出了一种名为“沉默守护者”(SG)的文本保护机制。该机制专门针对LLMs设计,旨在从源头上防止恶意使用文本。当LLMs接收到受保护的文本时,“沉默守护者”会发挥作用,使模型拒绝生成响应。这样一来,就能有效地遏制利用LLMs进行的恶意行为,保护原创内容和个人隐私的安全。

链接:

https://arxiv.org/abs/2312.09669.pdf

3. Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs

简介:随着大型语言模型(LLMs)的快速发展,它们展现出了新的、难以预测的能力,其中一些可能带来潜在风险。为了确保LLMs的安全和负责任部署,开发人员需要评估这些“危险能力”并识别相关风险。在这项研究中,研究者首次收集了一个开源数据集,旨在评估LLMs中的保护措施,并促进更安全的开源LLMs的低成本部署。他们选择了六种流行的LLMs,并对这些模型对于特定指示的响应进行了标注和评估。基于这些标注数据,研究者进一步训练了几个BERT式分类器。令人惊喜的是,这些小型分类器在自动安全评估方面表现出了与GPT-4相当的性能。这一发现为低成本、高效地评估LLMs的安全性提供了新的可能。

链接:

https://arxiv.org/abs/2308.13387.pdf

4. Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models

简介:在这项研究中,研究者提出了一种名为ProAttack的新型高效方法,用于执行基于提示的干净标签后门攻击。这种方法利用提示本身作为触发器,无需外部触发器,确保中毒样本的正确标记,从而提高了后门攻击的隐蔽性。为了验证ProAttack在文本后门攻击中的性能,研究者进行了广泛的实验,涵盖了资源丰富和少样本文本分类任务。实验结果表明,ProAttack在文本后门攻击中展现出竞争力,尤其是在资源丰富的设置中。在无需外部触发器的干净标签后门攻击基准测试中,ProAttack实现了最先进的攻击成功率。

链接:

https://arxiv.org/abs/2305.01219.pdf

5. Detecting Language Model Attacks with Perplexity

简介:一种针对大型语言模型(LLMs)的新型黑客攻击技术已经出现。这种攻击利用对抗后缀来欺骗模型,生成具有潜在危险性的响应。攻击者可以利用这种技术诱导LLMs向恶意用户提供复杂的指示,用于制造炸药、策划银行抢劫或协助创建攻击性内容。为了评估这种对抗后缀的威胁,研究者利用开源LLM(GPT-2)来分析具有对抗后缀的查询的困惑度。结果显示,这些具有对抗后缀的查询的困惑度值非常高,这表明它们对于模型具有很大的迷惑性。在研究过程中,研究者还探索了各种常规(非对抗性)提示类型,并发现这些提示类型在纯困惑度过滤中存在假阳性的问题。这意味着使用困惑度作为唯一过滤条件的做法可能会导致误判。为了解决假阳性问题并更准确地检测对抗攻击,研究者采用基于困惑度和令牌长度的Light-GBM训练方法。在测试集中,这种方法能够有效地解决假阳性问题,并正确检测大多数对抗攻击。

链接:

https://arxiv.org/abs/2308.14132v3.pdf

这篇关于第34期 | GPTSecurity周报的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/569187

相关文章

BUUCTF(34)特殊的 BASE64

使用pycharm时,如果想把代码撤销到之前的状态可以用 Ctrl+z 如果不小心撤销多了,可以用 Ctrl+Shift+Z 还原, 别傻傻的重新敲了 BUUCTF在线评测 (buuoj.cn) 查看字符串,想到base64的变表 这里用的c++的标准程序库中的string,头文件是#include<string> 这是base64的加密函数 std::string

『功能项目』武器的切换实例【34】

本章项目成果展示 我们打开上一篇33战士的A键连击的项目, 本章要做的事情是按键盘E键切换职业时切换手中的武器 首先在资源商店下载免费的武器模型 创建一个空物体 命名为WeaponPos 将武器预制体拖拽至WeaponPos (注意调整空物体位置就可以后续文章会更换武器) 隐藏两把武器 运行项目 隐藏装备 在资源商店

AI周报(9.1-9.7)

AI应用-Tidal 引领海洋养殖革命 Tidal团队,一个源自Alphabet X的创新项目,今年七月顺利从X实验室毕业,成为一家独立的公司。Tidal正在通过人工智能技术改变海洋养殖,特别是鲑鱼养殖。Tidal的总部位于挪威特隆赫姆,他们结合了传感器、机器人、数据科学和人工智能技术,为鲑鱼养殖提供全面的解决方案。这个系统可以监控鱼类并提供产量估算,旨在在问题(如海虱)造成严重损害之前发现它们

生信软件34 - 大幅提升Python程序执行效率的工具Pypy

在生信开发过程中,会大量使用Python脚本,除了多进程和多线程编程提高程序运行效率外,还可以借助效率更高的Python解释器来提高程序的运行速度, CPython 使用c语言实现的解释器, PyPy 使用python语言的子集RPython实现的解释器,一般情况下PyPy比CPython快4倍左右。 1. 比较解释器的运行效率 # task.pyimport timedef compute

王知无的技术周报(3.25-3.29日)

发件人:王知无 收件人:我的朋友们 本周知识点 01 我是如何失去一位女粉丝的 一位女粉丝管我要一张真人照片,问题来了,她要张真人照片做什么用? 02 ApacheFlink深度解析-JOIN-LATERAL 本篇重点向大家介绍了一种新的JOIN类型 - JOIN LATERAL。并向大家介绍了SQL Server中对LATERAL的支持方式,详细分析了JOIN LATERAL和I

LeetCode - 34. Search for a Range

34. Search for a Range  Problem's Link  ---------------------------------------------------------------------------- Mean:  给定一个有序数组和一个数k,求k在这个数组中的起始下标和结束下标. analyse: 二分查找. Time comple

认知杂谈34

今天分享 有人说的一段争议性的话 I 环境的影响 I 首先得说说,环境这东西对人的影响真不是盖的。你要是老待在一个死气沉沉的地方,那你的激情和梦想,可能慢慢就会被磨得平平无奇。 I 激情的消逝 I 本来你可能是满怀激情,想要大干一场,但时间一长,那些日常的琐事就像小浪花一样,慢慢把你的激情拍散了。 I 生活的妥协 I 然后你可能就觉得,生活嘛,不就是得过且过,吃喝玩乐,遇到问题就随便应付一下

java34: 流

输入流 读 输出流 写 按照是否直接与特定的地方(磁盘,内存,设备)相连  节点流 低级流 可以从或向一个特定的覅放读写数据 处理流 高级流 处理另外一个流     不能独立存在(构造方法中需要传入另外一个流),     处理另外一个流     简化读写 按照处理的单位的不同分为 字节流 一次读写一个字节 字符流 一次读写一个字符 InputStream 和OutputStream

C++竞赛初阶L1-15-第六单元-多维数组(34~35课)551: T456501 计算矩阵边缘元素之和

题目内容 输入一个整数矩阵,计算位于矩阵边缘的元素之和。 所谓矩阵边缘的元素,就是第一行和最后一行的元素以及第一列和最后一列的元素。 输入格式 第 1 行包含两个整数,分别为行数 m 和列数 n,两个整数之间空格隔开。 第 2 行开始有 m 行数据,每行包含 n 个整数,整数之间空格隔开。 输出格式 对应矩阵的边缘元素和。 样例 1 输入 3 33 4 13 7 12

【软件逆向】第34课,软件逆向安全工程师之段寄存器,每天5分钟学习逆向吧!

在x86架构的汇编语言中,段寄存器是一组用于存储内存地址的寄存器,它们与基址寄存器(如ebp、esp或eax)一起使用,以访问内存中的数据。段寄存器的主要作用是将线性地址转换为物理地址。 x86架构中的段寄存器包括: CS(Code Segment):代码段寄存器,存储当前正在执行的代码段的基址。DS(Data Segment):数据段寄存器,存储当前正在使用的数据段的基址。ES(Extra S