Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”

本文主要是介绍Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ChatGPT 于 2022 年底发布,将大型语言模型 (LLM) 推到了聚光灯下。通过使用户能够直接用自然语言查询模型,ChatGPT 实现了对这些模型的访问——这是一个受欢迎的发展。从那时起,ChatGPT 和 Bard、Claude 和 Bing AI 等类似工具在各种任务中都展示了它们的多功能性和效率。
社会科学家很快就接受了这些模型。他们使用这些基于LLM的AI助手来总结研究文章,调试代码,甚至在计算机模拟中模拟调查参与者,实验对象或代理。研究人员还采用它们来注释文本。通过向机器传递一个简单的提示,他们现在可以对数千个文档进行分类。他们可以根据自己的编码方案快速、精确地做到这一点。
作为多年来一直在使用各种类型的LLM来注释文本数据的社会科学家,我们对这些发展感到兴奋。到目前为止,我们自己的实践包括在特定任务上微调 LLM——也就是说,为模型提供成百上千个示例以“训练”它们。结果是不可否认的,但这些示例的手动注释通常是一个漫长而乏味的过程。
因此,我们欢迎这些模型的到来,但我们也对它们进行了测试。我们将 ChatGPT 的输出与我们的模型的输出进行了比较,并对新生文献进行了彻底的审查。结果有时是好的,有时真的很糟糕。他们很少超过特定任务的 LLM。
然而,这个结论似乎并不是使用这些新方法的最大问题。我们认为,在我们出于科学目的使用这些工具之前,需要解决三个问题。
我们首先关注的是这些模型所获得结果的可复制性。一些人认为 GPT 3.5(为 ChatGPT 免费版本提供动力的模型)对提示很敏感,但另一些人则认为它对收到的请求措辞的微小变化非常强大。
在我们看来,更大问题的是用户无法对分析中使用的模型施加控制。当然,也有经典的批评,认为这些模型是“黑匣子”。我们不知道他们是如何运作的,也不知道他们接受了什么培训。对于专有模型来说,这当然是正确的,但对于它们的开源模型来说,也部分是正确的。在聊天环境中使用助手型模型时,还不清楚它们的额外安全机制是如何运作的。
由于频繁的模型更新,此类模型的结果不稳定,这一事实只会进一步加剧问题。使用我们的数据,使用给定模型进行的实验在几周后重复时通常会产生不同的结果。这当然需要仔细报告所用模型的确切版本。然而,模型并不总是正确存档。开发 ChatGPT 的 OpenAI 等公司甚至倾向于弃用旧模型,使得可重复性几乎不可能(https://platform.openai.com/docs/deprecations)。
第二个值得关注的问题是,由于隐私和知识产权问题,只能使用 GPT 或类似的商业解决方案分析某些类型的数据。可以说,OpenAI 声称它不会“使用您提供给我们的 API 或从我们的 API 接收的内容 […]发展或改善服务“(https://openai.com/policies/terms-of-use)。但这并不意味着他们将来不会这样做,或者以其他方式这样做。
如果要注释的数据受知识产权法保护,则不应将其传输到 OpenAI 平台。事实上,一项使用《纽约时报》文章的大规模研究的作者被迫仅根据标题进行研究,因为其余文本“在公共数据中不可用”。
我们需要注释的文本也可能引发隐私问题。在社会科学中,它们可以由调查中的开放式问题组成,其中包含潜在的识别信息或个人信息,例如医疗状况。这只会进一步推动最近对开源生成式 AI 模型的呼吁。
最后一个关注点与这些LLM对英语的偏见有关。作为有时使用与英语不同的语言的研究人员,我们不禁注意到不同语言的模型性能差异。几篇论文报告说,基于LLM的人工智能助手在英语中表现最好,而在一些资源匮乏的语言中表现相当差。其他人则通过建议先用英语提示模型,或者要求它将提示翻译成英语以获得更好的结果来证实这种趋势。
这种情况肯定会在未来发展,因为 LLM 会接受更多语言的培训。然而,这种观察令人费解,因为考虑到公司或政府的差异投资,语言之间的不平等可能会持续下去。来自资源较少和一小群人使用的语言的地区的语言可能会得到很少的研究时间。这反过来又可能导致对英语语料库的更多关注,而牺牲了其他研究对象和地点。这将是一个错失的机会。
需要明确的是,我们对当前的技术发展感到兴奋,我们在自己的研究中使用了 LLM。我们也乐观地认为,它们可以通过提供负担得起的文本注释方式,在一定程度上帮助减少科学中的不平等,从而为全球更多的研究人员提供文本资源。然而,这些模型所取得的令人眼花缭乱的进步不应掩盖其潜在的缺陷和局限性。

这篇关于Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/702722

相关文章

C语言函数递归实际应用举例详解

《C语言函数递归实际应用举例详解》程序调用自身的编程技巧称为递归,递归做为一种算法在程序设计语言中广泛应用,:本文主要介绍C语言函数递归实际应用举例的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录前言一、递归的概念与思想二、递归的限制条件 三、递归的实际应用举例(一)求 n 的阶乘(二)顺序打印

Java String字符串的常用使用方法

《JavaString字符串的常用使用方法》String是JDK提供的一个类,是引用类型,并不是基本的数据类型,String用于字符串操作,在之前学习c语言的时候,对于一些字符串,会初始化字符数组表... 目录一、什么是String二、如何定义一个String1. 用双引号定义2. 通过构造函数定义三、St

SpringSecurity6.0 如何通过JWTtoken进行认证授权

《SpringSecurity6.0如何通过JWTtoken进行认证授权》:本文主要介绍SpringSecurity6.0通过JWTtoken进行认证授权的过程,本文给大家介绍的非常详细,感兴趣... 目录项目依赖认证UserDetailService生成JWT token权限控制小结之前写过一个文章,从S

Pydantic中Optional 和Union类型的使用

《Pydantic中Optional和Union类型的使用》本文主要介绍了Pydantic中Optional和Union类型的使用,这两者在处理可选字段和多类型字段时尤为重要,文中通过示例代码介绍的... 目录简介Optional 类型Union 类型Optional 和 Union 的组合总结简介Pyd

Vue3使用router,params传参为空问题

《Vue3使用router,params传参为空问题》:本文主要介绍Vue3使用router,params传参为空问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录vue3使用China编程router,params传参为空1.使用query方式传参2.使用 Histo

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

使用Python自建轻量级的HTTP调试工具

《使用Python自建轻量级的HTTP调试工具》这篇文章主要为大家详细介绍了如何使用Python自建一个轻量级的HTTP调试工具,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录一、为什么需要自建工具二、核心功能设计三、技术选型四、分步实现五、进阶优化技巧六、使用示例七、性能对比八、扩展方向建

使用Python实现一键隐藏屏幕并锁定输入

《使用Python实现一键隐藏屏幕并锁定输入》本文主要介绍了使用Python编写一个一键隐藏屏幕并锁定输入的黑科技程序,能够在指定热键触发后立即遮挡屏幕,并禁止一切键盘鼠标输入,这样就再也不用担心自己... 目录1. 概述2. 功能亮点3.代码实现4.使用方法5. 展示效果6. 代码优化与拓展7. 总结1.

使用Python开发一个简单的本地图片服务器

《使用Python开发一个简单的本地图片服务器》本文介绍了如何结合wxPython构建的图形用户界面GUI和Python内建的Web服务器功能,在本地网络中搭建一个私人的,即开即用的网页相册,文中的示... 目录项目目标核心技术栈代码深度解析完整代码工作流程主要功能与优势潜在改进与思考运行结果总结你是否曾经

Linux中的计划任务(crontab)使用方式

《Linux中的计划任务(crontab)使用方式》:本文主要介绍Linux中的计划任务(crontab)使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、前言1、linux的起源与发展2、什么是计划任务(crontab)二、crontab基础1、cro