生成式人工智能会导致人工智能崩溃吗

2024-08-23 08:52

本文主要是介绍生成式人工智能会导致人工智能崩溃吗,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

况可能很快就会发生变化。

从定义上讲,LLM 需要大量数据,而且所使用的数据集越来越大。根据缩放定律[2],要提高性能,必须同时增加参数数量和训练标记数量(后者被认为是最重要的因素)。

这些数据集包含人类产生的数据,但一些研究表明,这是一种有限的资源。人类产生的数据规模也不及我们,因为我们通过 LLM 培训增加了数据消耗。一项最近发表的研究认为,我们无法支持未来十年的扩展 [3]。

LLM模式崩溃

图片来源:[3]

随着 ChatGPT 和开源模型的出现,人工智能模型生成的文本量正在不断增长。例如,最近发表的一项研究 [1] 表明,随着低成本机器翻译 (MT) 的出现,网络上的内容通常可以使用 MT 算法快速翻译成多种语言。

机器生成的多向并行翻译不仅占据了可用机器翻译的资源较少的语言的网页翻译内容总量,还构成了这些语言网页内容总量的很大一部分。 —来源

然而,这会导致几个问题:

  • 这些翻译的内容存在一些偏见,并且主题分布不同(质量低下,并且表明它们只是为了产生广告收入)。
  • 翻译的语言越多,平均质量越低

LLM模式崩溃

图片来源:[1]

人工智能产生的文本数量在各个领域(互联网、科学文章、学校学生)都在增加,而且越来越难以识别 [4–6]。如果未来的模型是用从网络上抓取的文本进行训练的,那么它们将不可避免地用前辈产生的数据进行训练。

当使用 AI 生成的文本训练模型时会发生什么?如果大多数文本都是由 ChatGPT 生成的,会发生什么?

根据《自然》杂志最近发表的一篇文章,这会导致模型崩溃 [7]。模型崩溃是一个退化过程,其性能下降,产生错误并变得无用。从统计学的角度来看,这分为两个阶段:

  • 早期模型崩溃,模型开始丢失有关分布尾部的信息。
  • 后期模型崩溃,模型收敛到与原始分布完全不同的分布,因此不再产生任何有用的东西。

之前已经证明,模型无法在自训练循环中进行训练(在使用真实数据进行第一次迭代后,模型将使用自生成数据进行训练)。使用模型本身生成的数据会导致系统崩溃。

LLM模式崩溃

模型崩塌。图片改编自:[8]

如上所示,模型首先开始偏离训练数据,忘记原始数据和代表性不足的类别的元素(早期崩溃),然后无法产生有意义的数据(晚期崩溃)。

因此,研究表明,不断从生成的数据(或被生成的数据毒害的数据)中学习会导致模型崩溃。因此,一些作者警告说,互联网上生成的数据爆炸式增长可能会导致崩溃:

模型崩溃警告称,生成模型的民主化访问可能会污染训练未来生成模型迭代所需的数据。——来源,[9]

然而,到目前为止,我们既没有用文本模型对问题进行严格的描述,也没有发现导致这种崩溃的原因。在本研究中 [7],当存在 AI 生成的数据时,三种错误会导致崩溃:

  • 统计近似误差。初始数据是有限的,但是一旦训练数据趋于无穷大,数据就会分散,因此在进一步训练的每一步中,信息都会开始丢失。
  • 函数表达力误差。Transformer 具有表达力限制,因此在近似初始分布时会出现一些误差。
  • 函数近似误差。这种误差来自于学习过程,作为随机梯度下降的结构偏差。

上述每个因素都会导致模型崩溃,并且其影响会随着代代推移而不断加剧。

在本文中,作者 [7] 采用预先训练的模型并对数据集进行微调。这是 LLM 的常见用途(尤其是因为从头开始训练模型的成本太高)。作者测试的是如果这个微调数据集是由另一个微调模型生成的,会发生什么。作者从 HuggingFace 中获取一个模型,使用 wikitext2 数据集对其进行微调,在测试集上对其进行评估,然后使用它来生成数据,从而生成一个人工数据集。然后在人工数据集上对模型进行迭代训练。

LLM模式崩溃

图片来自[7],许可证:此处

通过对模型进行 5 个 epoch 的训练,我们发现模型的性能逐渐下降,生成的样本中逐渐出现了一条长尾,这些样本是其他模型生成样本引入的误差的产物。

LLM模式崩溃

图片来自[7],许可证:此处

作者指出,通过保留原始数据集中一定比例的数据,可以减少这种退化。在生成的数据上训练的模型可以学习一些原始任务,但错误率会更高(困惑度增加表明)。对于作者来说,随着困惑度较低的样本在几代中积累,模型开始崩溃(因此产生复合效应)。继续循环,这种影响将导致模型最终崩溃。

LLM模式崩溃

图片来自[7],许可证:此处

在检查下,模型开始生成原始模型以更高可能性生成的那些示例。这种效果与以下事实相一致:在训练过程中,如果不重复(从那些较稀有的知识开始),模型就会丢失部分知识。在模型看到一个示例后,该示例的知识会最大化,但随后该知识就会逐渐消失 [10]。因此,继续训练模型会首先开始丢失稀有知识,并且只产生具有最大可能性的示例。

LLM模式崩溃

图片来源:[10]

当使用数据集中 AI 生成的内容训练模型时,它会学会只生成众所周知的概念、短语和语调。同时,它会忘记数据集中不太常见的想法和概念。从长远来看,这会导致模型崩溃。

模型崩溃对于未来的法学硕士意味着什么?

长期对语言模型进行毒害攻击并非新鲜事。例如,我们看到点击、内容和网络喷子农场的出现,这是一种人类“语言模型”,其作用是误导社交网络和搜索算法。——来源

目前,此类内容的产生主要影响的是搜索引擎。大多数此类内容的产生都是为了在搜索引擎中获得较高的排名,并通过展示获利。谷歌试图通过在其算法中为这些网站分配较低的价值来限制这种现象。但这并不能解决问题,因为人们找到了新的方法来避免这些对策。

通常,训练 LLM 的数据集是自动获取的,并且生成的许多数据也可能位于信誉良好的网站上。这意味着将来这些数据可能会大量进入训练集。模型崩溃不仅会影响性能,还会影响算法的公平性。模型会很快忘记代表性不足的知识(甚至在看到对性能的明显影响之前),这意味着会对少数群体和边缘群体产生影响。

水印不是解决方案。首先,水印可以去除(它与生成的图像一起显示)。其次,检测生成文本的模型并不那么准确,很容易被欺骗。第三,公司不会分享有关其水印的信息(以免方便竞争对手训练模型)。最后,使用开源模型,许多生成的文本无论如何都不会有水印。

LLM模式崩溃

去除隐形水印。图片来源:[11]

那些正在训练模型或在大量生成文本出现之前保存数据的公司比竞争对手更具优势。一般来说,数据质量至关重要,拥有由真人生成的数据对于拥有这些数据的人来说是一笔巨大的财富。或者,需要协调一致的努力才能确定文本的来源。

这篇关于生成式人工智能会导致人工智能崩溃吗的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1098922

相关文章

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

安卓链接正常显示,ios#符被转义%23导致链接访问404

原因分析: url中含有特殊字符 中文未编码 都有可能导致URL转换失败,所以需要对url编码处理  如下: guard let allowUrl = webUrl.addingPercentEncoding(withAllowedCharacters: .urlQueryAllowed) else {return} 后面发现当url中有#号时,会被误伤转义为%23,导致链接无法访问

基于人工智能的智能家居语音控制系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 随着物联网(IoT)和人工智能技术的发展,智能家居语音控制系统已经成为现代家庭的一部分。通过语音控制设备,用户可以轻松实现对灯光、空调、门锁等家电的控制,提升生活的便捷性和舒适性。本文将介绍如何构建一个基于人工智能的智能家居语音控制系统,包括环境准备

STM32 ADC+DMA导致写FLASH失败

最近用STM32G070系列的ADC+DMA采样时,遇到了一些小坑记录一下; 一、ADC+DMA采样时进入死循环; 解决方法:ADC-dma死循环问题_stm32 adc dma死机-CSDN博客 将ADC的DMA中断调整为最高,且增大ADCHAL_ADC_Start_DMA(&hadc1, (uint32_t*)adc_buffer, ADC_Buffer_Size); 的ADC_Bu

从希腊神话到好莱坞大片,人工智能的七大历史时期值得铭记

本文选自historyextra,机器之心编译出品,参与成员:Angulia、小樱、柒柒、孟婷 你可能听过「技术奇点」,即本世纪某个阶段将出现超级智能,那时,技术将会以人类难以想象的速度飞速发展。同样,黑洞也是一个奇点,在其上任何物理定律都不适用;因此,技术奇点也是超越未来理解范围的一点。 然而,在我们到达那个奇点之前(假设我们能到达),还存在另一个极大的不连续问题,我将它称之

DAY16:什么是慢查询,导致的原因,优化方法 | undo log、redo log、binlog的用处 | MySQL有哪些锁

目录 什么是慢查询,导致的原因,优化方法 undo log、redo log、binlog的用处  MySQL有哪些锁   什么是慢查询,导致的原因,优化方法 数据库查询的执行时间超过指定的超时时间时,就被称为慢查询。 导致的原因: 查询语句比较复杂:查询涉及多个表,包含复杂的连接和子查询,可能导致执行时间较长。查询数据量大:当查询的数据量庞大时,即使查询本身并不复杂,也可能导致

[Day 73] 區塊鏈與人工智能的聯動應用:理論、技術與實踐

AI在健康管理中的應用實例 1. 引言 隨著健康管理需求的提升,人工智能(AI)在該領域的應用越來越普遍。AI可以幫助醫療機構提升效率、精準診斷疾病、個性化治療方案,以及進行健康數據分析,從而改善病患的健康狀況。這篇文章將探討AI如何應用於健康管理,並通過具體代碼示例說明其技術實現。 2. AI在健康管理中的主要應用場景 個性化健康建議:通過分析用戶的健康數據,如飲食、運動、睡眠等,AI可

71-java 导致线程上下文切换的原因

Java中导致线程上下文切换的原因通常包括: 线程时间片用完:当前线程的时间片用完,操作系统将其暂停,并切换到另一个线程。 线程被优先级更高的线程抢占:操作系统根据线程优先级决定运行哪个线程。 线程进入等待状态:如线程执行了sleep(),wait(),join()等操作,使线程进入等待状态或阻塞状态,释放CPU。 线程占用CPU时间过长:如果线程执行了大量的I/O操作,而不是CPU计算

[轻笔记] ubuntu Shell脚本实现监视指定进程的运行状态,并能在程序崩溃后重启动该程序

根据网上博客实现,发现只能监测进程离线,然后对其进行重启;然而,脚本无法打印程序正常状态的信息。自己通过不断修改测试,发现问题主要在重启程序的命令上(需要让重启的程序在后台运行,不然会影响监视脚本进程,使其无法正常工作)。具体程序如下: #!/bin/bashwhile [ 1 ] ; dosleep 3if [ $(ps -ef|grep exe_name|grep -v grep|

一次生产环境大量CLOSE_WAIT导致服务无法访问的定位过程

1.症状 生产环境的一个服务突然无法访问,服务的交互过程如下所示: 所有的请求都是通过网关进入,之后分发到后端服务。 现在的情况是用户服务无法访问商旅服务,网关有大量java.net.SocketTimeoutException: Read timed out报错日志,商旅服务也不断有日志打印,大多是回调和定时任务日志,所以故障点在网关和商旅服务,大概率是商旅服务无法访问导致网关超时。 后