phish专题

论文笔记：Teach LLMs to Phish: Stealing Private Information from Language Models

iclr 2024 reviewer 评分 588 1 intro 提出了一种“神经网络钓鱼攻击” 一种新的针对在敏感用户数据上训练或finetune的LLMs的攻击向量攻击者将看似无害的投毒数据插入到模型的训练数据集中，以“教会LLMs进行钓鱼”，即诱导模型记住他人的个人身份信息，从而使对手能够通过训练数据提取攻击轻松提取这些秘密数据论文发现攻击者几乎不需要关于秘密之前的文本的任何信息就能