ChatGPT等模型:到2026年,将消耗尽高质量训练数据

2023-12-04 15:01

本文主要是介绍ChatGPT等模型:到2026年,将消耗尽高质量训练数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《麻省理工技术评论》曾在官网发表文章表示,随着ChatGPT等大模型的持续火热,对训练数据的需求越来越大。大模型就像是一个“网络黑洞”不断地吸收,最终会导致没有足够的数据进行训练。

而知名AI研究机构Epochai直接针对数据训练问题发表了一篇论文,并指出,到2026年,大模型将消耗尽高质量数据;到2030年—2050年,将消耗尽所有低质量数据

到2030年—2060年,将消耗尽所有图像训练数据。(这里的数据指的是,没有被任何标记、污染过的原生数据)

论文地址:https://arxiv.org/pdf/2211.04325.pdf

图片

事实上,训练数据的问题已经显现。OpenAI表示,缺乏高质量训练数据将成为开发GPT-5的重要难题之一。这就像人类上学一样,当你的知识水平达到博士级别时,再给你看初中的知识对学习毫无帮助。

所以,OpenAI为了增强GPT-5的学习、推理和AGI通用能力,已建立了一个“数据联盟”,希望大面积搜集私密、超长文本、视频、音频等数据,让模型深度模拟、学习人类的思维和工作方式

目前,冰岛、Free Law Project等组织已加入该联盟,为OpenAI提供各种数据,帮助其加速模型研发。

此外,随着ChatGPT、Midjourney、Gen-2等模型生成的AI内容进入公共网络,这对人类构建的公共数据池将产生严重污染,会出现同质化、逻辑单一等特征,加速高质量数据消耗的进程。

高质量训练数据,对大模型研发至关重要

从技术原理来看,可以把大语言模型看成“语言预测机器”, 通过学习大量文本数据,建立起单词之间的关联模式,然后利用这些模式来预测文本的下一个单词或句子。

Transformer便是最著名、应用最广泛的架构之一,ChatGPT等借鉴了该技术。

简单来说,大语言模型就是“照葫芦画瓢”,人类怎么说它就怎么说。所以,当你使用ChatGPT等模型生成文本时,会感觉这些文本内容的叙述模式在哪里见过。

图片

因此,训练数据的质量直接决定了大模型学习的结构是否准确。如果数据中包含了大量语法错误、措辞不当、断句不准、虚假内容等,那么模型预测出来的内容自然也包含这些问题。

例如,训练了一个翻译模型,但使用的数据都是胡编乱造的低劣内容,AI翻译出来的内容自然会非常差。

这也是为什么我们经常会看到很多参数很小,性能、输出能力却比高参数还强的模型,主要原因之一便是使用了高质量训练数据。

大模型时代,数据为王

正因数据的重要性,高质量的训练数据成为OpenAI、百度、Anthropic、Cohere等厂商必争的宝贵资源,成为大模型时代的“石油”。

早在今年3月,国内还在疯狂炼丹研究大模型时,百度已经率先发布了对标ChatGPT的生成式AI产品——文心一言生。

除了超强的研发能力之外,百度通过搜索引擎积累的20多年庞大的中文语料数据帮了大忙,并在文心一言的多个迭代版本中发挥重要作用,遥遥领先国内其他厂商。

高质量数据通常包括出版书籍、文学作品、学术论文、学校课本、权威媒体的新闻报道、维基百科、百度百科等,经过时间、人类验证过的文本、视频、音频等数据。

但研究机构发现,这类高质量数据的增长非常缓慢。以出版社书籍为例,需要经过市场调研、初稿、编辑、再审等繁琐流程,耗费几个月甚至几年时间才能出版一本书,这种数据产出速度,远远落后大模型训练数据需求的增长。

从大语言模型过去4年的发展趋势来看,其年训练数据量的增速超过了50%。也就是说,每过1年就需要双倍的数据量来训练模型,才能实现性能、功能的提升

所以,你会看到很多国家、企业严格保护数据隐私以及制定了相关条例,一方面,是保护用户的隐私不被第三方机构搜集,出现盗取、乱用的情况;

另一方面,便是为了防止重要数据被少数机构垄断和囤积,在技术研发时无数据可用。

到2026年,高质量训练数据可能会用光

为了研究训练数据消耗问题,Epochai的研究人员模拟了从2022年—2100年,全球每年产生的语言和图像数据,然后计算这些数据的总量。

又模拟了ChatGPT等大模型对数据的消耗速率。最后,比较了数据增长速度和被消耗的速度,得出了以下重要结论:

在当前大模型的高速发展趋势下, 到2030年—2050年将消耗尽所有低质量数据;高质量数据,极有可能在2026年就会消耗完。

到2030年—2060年,将消耗尽所有图像训练数据;到2040年,由于缺乏训练数据,大模型的功能迭代可能会出现放缓的迹象。

图片

研究人员使用了两个模型进行了计算:第一个模型,通过大语言和图像模型两个领域实际使用的数据集增长趋势,再利用历史统计数据进行外推,预测它们何时会达到消耗峰值和平均消耗。

第二个模型:预测未来每年全球范围内将产生多少新数据。该模型基于三个变量,全球人口数量、互联网普及率和平均每个网民每年产生的数据。

同时研究人员使用联合国数据拟合出人口增长曲线,用一个S型函数拟合互联网使用率,并做出每人每年产数据基本不变的简单假设,三者相乘即可估算全球每年的新数据量。

该模型已经准确预测出Reddit(知名论坛)每个月产出的数据,所以,准确率很高

最后,研究人员将两个模型进行相结合得出了以上结论。

研究人员表示,虽然这个数据是模拟、估算出来的,存在一定的不确定性。但为大模型界敲响了警钟,训练数据可能很快成为制约AI模型扩展和应用的重要瓶颈。

AI厂商们需要提前布局数据再生、合成的有效方法,避免在发展大模型的过程中出现断崖式数据短缺。‍

本文素材来源麻省理工科技评论官网、Epochai论文,如有侵权请联系删除

这篇关于ChatGPT等模型:到2026年,将消耗尽高质量训练数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/453882

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密