【Nature】在科研中应用ChatGPT:如何与数据对话

2024-08-26 19:12

本文主要是介绍【Nature】在科研中应用ChatGPT:如何与数据对话,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随着人工智能技术的迅猛发展,大型语言模型(LLMs)正逐渐成为科研领域的一种创新工具。这些模型通过自然语言处理技术,使得研究人员能够以直观的方式与数据进行交互,从而简化了数据分析和解释的过程。在《自然》杂志2024年7月25日发表的文章《CHATGPT FOR SCIENCE: HOW TO TALK TO YOUR DATA》中,作者Julian Nowogrodzki深入探讨了LLMs在科学研究中的应用现状及其潜在价值。

文章首先介绍了LLMs如何帮助科学家们以自然语言的形式查询和分析复杂的生物数据,从而减少了对传统编程技能的依赖。通过引用多家公司如Genentech和Enable Medicine在开发和应用LLMs方面的实际案例,文章展示了这些工具如何助力药物发现和临床研究。

进一步,文章探讨了LLMs在实际应用中面临的挑战,包括准确性验证、数据多样性和偏见问题,以及如何通过专家反馈和迭代改进来提高模型的可靠性。作者强调了透明度和数据质量对于确保LLMs输出结果的准确性和可信度的重要性。

本文的介绍旨在为读者提供一个关于LLMs在科学研究中应用的全面视角,同时指出了这一领域未来发展的关键方向和潜在的改进空间。通过这篇文章,我们不仅能够洞察LLMs如何改变科学研究的面貌,还能对这一技术的未来发展趋势有所预见。

以下是正文:

“计算机,分析。” 在科幻小说中,角色无需编程技能即可从数据中提取有意义的信息,他们只需询问即可。现在,越来越多的公司正尝试使用大型语言模型(LLMs)使这种虚构成为现实——某种程度上——这些功能强大但专注的人工智能(AI)工具让研究人员可以用自然语言向他们的数据提问,例如“对照组和实验组之间有什么区别?”。但与科幻小说中的同行不同,这些AI给出的答案仍然需要谨慎对待,并在使用前进行双重检查才能安全使用。想象一下,ChatGPT用于数据。这些工具的原因是简单的:筛选和优先处理生物数据是费力且具有挑战性的,需要专业技能。“生物数据已经变得越来越复杂,”加利福尼亚州旧金山Enable Medicine的科学经理亚历山德罗·特雷维诺说,该公司正在为其药物开发客户构建一个空间基因表达和蛋白质定位数据图谱。“规模已经大幅增加,这些数据集的复杂性已经增加,我认为我们已经扩大了挖掘和有效理解和解释这些数据的挑战。” 理论上,专用的LLMs允许研究人员在不了解数据的复杂性或如何编程的情况下从数据中提取见解。这些工具中的一些已经能够回答非常复杂的问题。但它们仍然是进行中的工作。像其他基于LLM的工具一样,它们可能会“幻觉”或编造答案。因此,它们的开发者表示,它们应该只在人类一定程度的监督下使用。

为什么与您的数据对话?

网上数据和查询工具并不缺乏。例如,CZ CELLxGENE数据门户提供了预构建的工具,允许研究人员查询单细胞基因表达数据集。像ChatPDF这样的实用程序允许研究人员上传PDF文件,例如科学论文,并向它们提问。但更复杂的分析需要知道底层数据的结构以及它们的变量名称和类型。为了使这种交互更容易,

CHATGPT FOR SCIENCE: 如何与您的数据对话

公司正在使用人工智能工具帮助科学家无需编程技能即可查询他们的数据。由Julian Nowogrodzki撰写 插图由The Project Twins提供 924 | 自然 | 第631卷 | 2024年7月25日 工作 / 技术和工具

生物技术公司Genentech正在从头开始构建其基于LLM的工具。由纽约市Genentech前沿研究总监Stephen Ra领导,这个LLM旨在解决“跨越药物发现和开发管道的广泛问题”,他说,“从目标识别、发现、安全性评估、优先级排序,一直到我们如何做出更好的决策,或降低某些临床试验阶段的风险,或更好地理解患者轨迹和不良结果”。Ra说,这个系统可以简化目前手动且繁重的任务。例如,科学家可能会将他们的数据集搁置一段时间,但后来想要总结这些数据。他们可以问,“给我这个特定时间、这个菌株的这个特定测定的所有结果”,Ra说。该系统应该能够理解查询和数据,足够好地满足请求,“Genentech及其母公司罗氏的许多团队”正在测试它。同样,Enable Medicine的LLM旨在允许公司代表其客户查询其生物图谱,首席执行官Kamni Vijay说,这些客户大多是肿瘤学和自身免疫疾病的制药公司。研究人员可以问这样的问题,“患者是否对治疗有反应,哪些因素区分了对治疗有反应的患者和没有反应的患者?”或者“哪些生物标志物会影响或预测疾病进展?”,Vijay说。Enable正在构建几个现有的LLM,并用来自数万个样本的数以百万计的分子和细胞数据进行训练。但他们仍在实验。“我们的一部分研究探索这种类型的界面是否可以在科学上有效和有价值。”

它们是什么样子的?

这个领域的一些工具模仿了ChatGPT流行的问答格式。例如,由马萨诸塞州波士顿布莱根妇女医院的计算病理学家Faisal Mahmood构建的PathChat,允许用户输入病理图像,如肿瘤活检结果,以及描述性数据,如“这个肿瘤对标记A、B和C呈阳性”。(M. Y. Lu等人。自然 A Multimodal Generative AI Copilot for Human Pathology | Nature (2024)。然后用户可以就这些数据提出自然语言问题,例如,“你对肿瘤的主要起源有何评估?”交流看起来像WhatsApp对话中的来回文本气泡。然而,Vijay说,Enable的系统偏离了问答格式。它是一个更复杂的自动化系统,允许自然语言查询。尽管如此,其他工具输出代码而不是文字。Mergen是由柏林马克斯·德尔布吕克中心的生物信息学家Altuna Akalin构建的基于LLM的R编程语言库。Akalin创建了这个库(或“包”),因为他的团队收到了比它能够处理的更多的分析基因组数据的请求。Mergen旨在分析预处理的基因组数据集,以回答诸如“你能给我所有在某个特定个体集合中过表达的基因吗?”这样的问题。与所有LLM一样,该工具返回的代码在使用前应该由人双重检查,Akalin警告说,因为即使代码是可执行的,它可能包含逻辑错误。

它们是如何制造的?

构建一个允许研究人员与数据对话的LLM需要什么?与所有AI系统一样,答案是大量的训练数据。但数据类型的平衡同样重要,他的团队在实现正确的平衡方面付出了相当大的努力,Ra说。“对我们来说,价值在于能够采取对Genentech的许多团队都有广泛用途的东西,并允许这些团队也微调他们自己的模型。” Genentech训练其模型使用了涵盖多个项目和领域的内部和外部信息的组合,包括组学和临床数据,Ra说。特雷维诺说,将通用LLM转变为一个系统,使用户能够与他们的数据对话,有两种主要方式。一种是使用特定领域的信息,如病理数据,对通用LLM进行微调。在这种“非常有效”的方法中,他说,模型本身“正在具体学习新东西”。另一种方法,称为上下文化,不会改变底层的通用LLM,但会在查询中给它提供定制的上下文,如医学文献数据库。特雷维诺拒绝透露Enable使用哪种方法。为了构建PathChat,Mahmood和他的团队从Meta开发的通用LLM Llama 2开始。他们将LLM连接到他们为病理学构建的两个视觉语言模型,称为UNI和CONCH,每个模型都经过了数百万病理图像和标题的训练,以制造一个多模态LLM。然后研究人员使用来自病例报告和教育文章的半百万病理对话来提炼这个多模态LLM,这些对话遵循了布里格姆妇女医院和马萨诸塞州总医院的大多数病例的完整轨迹,以产生PathChat,Mahmood说。布里格姆和妇女的一些病理学家现在正在使用该系统来解释显微镜图像并编写病理学家随后可以检查的形态学描述,他说。

它们值得信赖吗?

确认很重要:仅仅因为LLM提供了一个答案,并不意味着那个答案是正确的。LLMs可以编造答案或遗漏信息,如何最好地确保模型的响应是可验证和可复制的仍然是一个未解决的问题,特雷维诺说。“这是一个积极的研究领域,如何审查结果。” Ra说,一个关键方面是来自特定领域专家的反馈。有不同的方式来纳入这样的检查——用户可以提供一个简单的点赞或不点赞,例如,一个更详细的回应,或者可以是人与LLM之间的迭代互动。无论如何,希望随着时间的推移,模型将进化到需要更少的输入,因为这样的反馈在数据集扩展时并不可扩展。特雷维诺和Ra说,在研究特定的LLMs中,理解和信任底层模型中发生的事情尤为重要。特雷维诺说,一个挑战是“稍微打开那个黑匣子”,以更好地理解它为什么会以这种方式回答。这可能有助于最小化幻觉。事实上,Ra说,Genentech从头开始构建其LLM的一个动机是,它希望知道它能够信任和理解输入的每一个数据点。“这在处理特权信息或非常敏感的信息的环境中非常重要,”例如患者数据,他说。对于现成的“黑匣子”LLMs,它们是如何被训练的并不总是清楚,Ra解释说。“我认为这是一些商业LLM解决方案的常见批评,通常没有足够的数据透明度。” 另一个持续的挑战,就像LLM领域本身一样,是底层数据的偏见。在训练数据中代表性不足的群体将被结果模型错误表示,当前的基因组数据极大地过度代表了欧洲后裔。特雷维诺和Vijay说,解决方案是提高底层数据的多样性。但他们说,没有真正的终点,可以确定底层数据何时足够多样化。然而,如果这些挑战被克服,特雷维诺说,“这些类型的模型将带来非常真实的好处。”重要的是“确保这种好处得以实现,并最大限度地民主化,”并且收益值得所有仍在进行中的工作。

作者

Julian Nowogrodzki是马萨诸塞州波士顿的科学作家和编辑。 “在这个非常有效的方法中,模型本身正在具体学习新东西。” 自然 | 第631卷 | 2024年7月25日 | 925

这篇关于【Nature】在科研中应用ChatGPT:如何与数据对话的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1109436

相关文章

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

将Python应用部署到生产环境的小技巧分享

《将Python应用部署到生产环境的小技巧分享》文章主要讲述了在将Python应用程序部署到生产环境之前,需要进行的准备工作和最佳实践,包括心态调整、代码审查、测试覆盖率提升、配置文件优化、日志记录完... 目录部署前夜:从开发到生产的心理准备与检查清单环境搭建:打造稳固的应用运行平台自动化流水线:让部署像

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram