Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”

本文主要是介绍Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ChatGPT 于 2022 年底发布,将大型语言模型 (LLM) 推到了聚光灯下。通过使用户能够直接用自然语言查询模型,ChatGPT 实现了对这些模型的访问——这是一个受欢迎的发展。从那时起,ChatGPT 和 Bard、Claude 和 Bing AI 等类似工具在各种任务中都展示了它们的多功能性和效率。
社会科学家很快就接受了这些模型。他们使用这些基于LLM的AI助手来总结研究文章,调试代码,甚至在计算机模拟中模拟调查参与者,实验对象或代理。研究人员还采用它们来注释文本。通过向机器传递一个简单的提示,他们现在可以对数千个文档进行分类。他们可以根据自己的编码方案快速、精确地做到这一点。
作为多年来一直在使用各种类型的LLM来注释文本数据的社会科学家,我们对这些发展感到兴奋。到目前为止,我们自己的实践包括在特定任务上微调 LLM——也就是说,为模型提供成百上千个示例以“训练”它们。结果是不可否认的,但这些示例的手动注释通常是一个漫长而乏味的过程。
因此,我们欢迎这些模型的到来,但我们也对它们进行了测试。我们将 ChatGPT 的输出与我们的模型的输出进行了比较,并对新生文献进行了彻底的审查。结果有时是好的,有时真的很糟糕。他们很少超过特定任务的 LLM。
然而,这个结论似乎并不是使用这些新方法的最大问题。我们认为,在我们出于科学目的使用这些工具之前,需要解决三个问题。
我们首先关注的是这些模型所获得结果的可复制性。一些人认为 GPT 3.5(为 ChatGPT 免费版本提供动力的模型)对提示很敏感,但另一些人则认为它对收到的请求措辞的微小变化非常强大。
在我们看来,更大问题的是用户无法对分析中使用的模型施加控制。当然,也有经典的批评,认为这些模型是“黑匣子”。我们不知道他们是如何运作的,也不知道他们接受了什么培训。对于专有模型来说,这当然是正确的,但对于它们的开源模型来说,也部分是正确的。在聊天环境中使用助手型模型时,还不清楚它们的额外安全机制是如何运作的。
由于频繁的模型更新,此类模型的结果不稳定,这一事实只会进一步加剧问题。使用我们的数据,使用给定模型进行的实验在几周后重复时通常会产生不同的结果。这当然需要仔细报告所用模型的确切版本。然而,模型并不总是正确存档。开发 ChatGPT 的 OpenAI 等公司甚至倾向于弃用旧模型,使得可重复性几乎不可能(https://platform.openai.com/docs/deprecations)。
第二个值得关注的问题是,由于隐私和知识产权问题,只能使用 GPT 或类似的商业解决方案分析某些类型的数据。可以说,OpenAI 声称它不会“使用您提供给我们的 API 或从我们的 API 接收的内容 […]发展或改善服务“(https://openai.com/policies/terms-of-use)。但这并不意味着他们将来不会这样做,或者以其他方式这样做。
如果要注释的数据受知识产权法保护,则不应将其传输到 OpenAI 平台。事实上,一项使用《纽约时报》文章的大规模研究的作者被迫仅根据标题进行研究,因为其余文本“在公共数据中不可用”。
我们需要注释的文本也可能引发隐私问题。在社会科学中,它们可以由调查中的开放式问题组成,其中包含潜在的识别信息或个人信息,例如医疗状况。这只会进一步推动最近对开源生成式 AI 模型的呼吁。
最后一个关注点与这些LLM对英语的偏见有关。作为有时使用与英语不同的语言的研究人员,我们不禁注意到不同语言的模型性能差异。几篇论文报告说,基于LLM的人工智能助手在英语中表现最好,而在一些资源匮乏的语言中表现相当差。其他人则通过建议先用英语提示模型,或者要求它将提示翻译成英语以获得更好的结果来证实这种趋势。
这种情况肯定会在未来发展,因为 LLM 会接受更多语言的培训。然而,这种观察令人费解,因为考虑到公司或政府的差异投资,语言之间的不平等可能会持续下去。来自资源较少和一小群人使用的语言的地区的语言可能会得到很少的研究时间。这反过来又可能导致对英语语料库的更多关注,而牺牲了其他研究对象和地点。这将是一个错失的机会。
需要明确的是,我们对当前的技术发展感到兴奋,我们在自己的研究中使用了 LLM。我们也乐观地认为,它们可以通过提供负担得起的文本注释方式,在一定程度上帮助减少科学中的不平等,从而为全球更多的研究人员提供文本资源。然而,这些模型所取得的令人眼花缭乱的进步不应掩盖其潜在的缺陷和局限性。

这篇关于Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/702722

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

跨国公司撤出在华研发中心的启示:中国IT产业的挑战与机遇

近日,IBM中国宣布撤出在华的两大研发中心,这一决定在IT行业引发了广泛的讨论和关注。跨国公司在华研发中心的撤出,不仅对众多IT从业者的职业发展带来了直接的冲击,也引发了人们对全球化背景下中国IT产业竞争力和未来发展方向的深思。面对这一突如其来的变化,我们应如何看待跨国公司的决策?中国IT人才又该如何应对?中国IT产业将何去何从?本文将围绕这些问题展开探讨。 跨国公司撤出的背景与

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

揭秘世界上那些同时横跨两大洲的国家

我们在《世界人口过亿的一级行政区分布》盘点全球是那些人口过亿的一级行政区。 现在我们介绍五个横跨两州的国家,并整理七大洲和这些国家的KML矢量数据分析分享给大家,如果你需要这些数据,请在文末查看领取方式。 世界上横跨两大洲的国家 地球被分为七个大洲分别是亚洲、欧洲、北美洲、南美洲、非洲、大洋洲和南极洲。 七大洲示意图 其中,南极洲是无人居住的大陆,而其他六个大洲则孕育了众多国家和

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi