Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”

本文主要是介绍Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ChatGPT 于 2022 年底发布,将大型语言模型 (LLM) 推到了聚光灯下。通过使用户能够直接用自然语言查询模型,ChatGPT 实现了对这些模型的访问——这是一个受欢迎的发展。从那时起,ChatGPT 和 Bard、Claude 和 Bing AI 等类似工具在各种任务中都展示了它们的多功能性和效率。
社会科学家很快就接受了这些模型。他们使用这些基于LLM的AI助手来总结研究文章,调试代码,甚至在计算机模拟中模拟调查参与者,实验对象或代理。研究人员还采用它们来注释文本。通过向机器传递一个简单的提示,他们现在可以对数千个文档进行分类。他们可以根据自己的编码方案快速、精确地做到这一点。
作为多年来一直在使用各种类型的LLM来注释文本数据的社会科学家,我们对这些发展感到兴奋。到目前为止,我们自己的实践包括在特定任务上微调 LLM——也就是说,为模型提供成百上千个示例以“训练”它们。结果是不可否认的,但这些示例的手动注释通常是一个漫长而乏味的过程。
因此,我们欢迎这些模型的到来,但我们也对它们进行了测试。我们将 ChatGPT 的输出与我们的模型的输出进行了比较,并对新生文献进行了彻底的审查。结果有时是好的,有时真的很糟糕。他们很少超过特定任务的 LLM。
然而,这个结论似乎并不是使用这些新方法的最大问题。我们认为,在我们出于科学目的使用这些工具之前,需要解决三个问题。
我们首先关注的是这些模型所获得结果的可复制性。一些人认为 GPT 3.5(为 ChatGPT 免费版本提供动力的模型)对提示很敏感,但另一些人则认为它对收到的请求措辞的微小变化非常强大。
在我们看来,更大问题的是用户无法对分析中使用的模型施加控制。当然,也有经典的批评,认为这些模型是“黑匣子”。我们不知道他们是如何运作的,也不知道他们接受了什么培训。对于专有模型来说,这当然是正确的,但对于它们的开源模型来说,也部分是正确的。在聊天环境中使用助手型模型时,还不清楚它们的额外安全机制是如何运作的。
由于频繁的模型更新,此类模型的结果不稳定,这一事实只会进一步加剧问题。使用我们的数据,使用给定模型进行的实验在几周后重复时通常会产生不同的结果。这当然需要仔细报告所用模型的确切版本。然而,模型并不总是正确存档。开发 ChatGPT 的 OpenAI 等公司甚至倾向于弃用旧模型,使得可重复性几乎不可能(https://platform.openai.com/docs/deprecations)。
第二个值得关注的问题是,由于隐私和知识产权问题,只能使用 GPT 或类似的商业解决方案分析某些类型的数据。可以说,OpenAI 声称它不会“使用您提供给我们的 API 或从我们的 API 接收的内容 […]发展或改善服务“(https://openai.com/policies/terms-of-use)。但这并不意味着他们将来不会这样做,或者以其他方式这样做。
如果要注释的数据受知识产权法保护,则不应将其传输到 OpenAI 平台。事实上,一项使用《纽约时报》文章的大规模研究的作者被迫仅根据标题进行研究,因为其余文本“在公共数据中不可用”。
我们需要注释的文本也可能引发隐私问题。在社会科学中,它们可以由调查中的开放式问题组成,其中包含潜在的识别信息或个人信息,例如医疗状况。这只会进一步推动最近对开源生成式 AI 模型的呼吁。
最后一个关注点与这些LLM对英语的偏见有关。作为有时使用与英语不同的语言的研究人员,我们不禁注意到不同语言的模型性能差异。几篇论文报告说,基于LLM的人工智能助手在英语中表现最好,而在一些资源匮乏的语言中表现相当差。其他人则通过建议先用英语提示模型,或者要求它将提示翻译成英语以获得更好的结果来证实这种趋势。
这种情况肯定会在未来发展,因为 LLM 会接受更多语言的培训。然而,这种观察令人费解,因为考虑到公司或政府的差异投资,语言之间的不平等可能会持续下去。来自资源较少和一小群人使用的语言的地区的语言可能会得到很少的研究时间。这反过来又可能导致对英语语料库的更多关注,而牺牲了其他研究对象和地点。这将是一个错失的机会。
需要明确的是,我们对当前的技术发展感到兴奋,我们在自己的研究中使用了 LLM。我们也乐观地认为,它们可以通过提供负担得起的文本注释方式,在一定程度上帮助减少科学中的不平等,从而为全球更多的研究人员提供文本资源。然而,这些模型所取得的令人眼花缭乱的进步不应掩盖其潜在的缺陷和局限性。

这篇关于Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/702722

相关文章

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import

oracle DBMS_SQL.PARSE的使用方法和示例

《oracleDBMS_SQL.PARSE的使用方法和示例》DBMS_SQL是Oracle数据库中的一个强大包,用于动态构建和执行SQL语句,DBMS_SQL.PARSE过程解析SQL语句或PL/S... 目录语法示例注意事项DBMS_SQL 是 oracle 数据库中的一个强大包,它允许动态地构建和执行

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

SpringBoot中使用 ThreadLocal 进行多线程上下文管理及注意事项小结

《SpringBoot中使用ThreadLocal进行多线程上下文管理及注意事项小结》本文详细介绍了ThreadLocal的原理、使用场景和示例代码,并在SpringBoot中使用ThreadLo... 目录前言技术积累1.什么是 ThreadLocal2. ThreadLocal 的原理2.1 线程隔离2

Python itertools中accumulate函数用法及使用运用详细讲解

《Pythonitertools中accumulate函数用法及使用运用详细讲解》:本文主要介绍Python的itertools库中的accumulate函数,该函数可以计算累积和或通过指定函数... 目录1.1前言:1.2定义:1.3衍生用法:1.3Leetcode的实际运用:总结 1.1前言:本文将详

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里,API

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首