【Nature】在科研中应用ChatGPT:如何与数据对话

2024-08-26 19:12

本文主要是介绍【Nature】在科研中应用ChatGPT:如何与数据对话,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随着人工智能技术的迅猛发展,大型语言模型(LLMs)正逐渐成为科研领域的一种创新工具。这些模型通过自然语言处理技术,使得研究人员能够以直观的方式与数据进行交互,从而简化了数据分析和解释的过程。在《自然》杂志2024年7月25日发表的文章《CHATGPT FOR SCIENCE: HOW TO TALK TO YOUR DATA》中,作者Julian Nowogrodzki深入探讨了LLMs在科学研究中的应用现状及其潜在价值。

文章首先介绍了LLMs如何帮助科学家们以自然语言的形式查询和分析复杂的生物数据,从而减少了对传统编程技能的依赖。通过引用多家公司如Genentech和Enable Medicine在开发和应用LLMs方面的实际案例,文章展示了这些工具如何助力药物发现和临床研究。

进一步,文章探讨了LLMs在实际应用中面临的挑战,包括准确性验证、数据多样性和偏见问题,以及如何通过专家反馈和迭代改进来提高模型的可靠性。作者强调了透明度和数据质量对于确保LLMs输出结果的准确性和可信度的重要性。

本文的介绍旨在为读者提供一个关于LLMs在科学研究中应用的全面视角,同时指出了这一领域未来发展的关键方向和潜在的改进空间。通过这篇文章,我们不仅能够洞察LLMs如何改变科学研究的面貌,还能对这一技术的未来发展趋势有所预见。

以下是正文:

“计算机,分析。” 在科幻小说中,角色无需编程技能即可从数据中提取有意义的信息,他们只需询问即可。现在,越来越多的公司正尝试使用大型语言模型(LLMs)使这种虚构成为现实——某种程度上——这些功能强大但专注的人工智能(AI)工具让研究人员可以用自然语言向他们的数据提问,例如“对照组和实验组之间有什么区别?”。但与科幻小说中的同行不同,这些AI给出的答案仍然需要谨慎对待,并在使用前进行双重检查才能安全使用。想象一下,ChatGPT用于数据。这些工具的原因是简单的:筛选和优先处理生物数据是费力且具有挑战性的,需要专业技能。“生物数据已经变得越来越复杂,”加利福尼亚州旧金山Enable Medicine的科学经理亚历山德罗·特雷维诺说,该公司正在为其药物开发客户构建一个空间基因表达和蛋白质定位数据图谱。“规模已经大幅增加,这些数据集的复杂性已经增加,我认为我们已经扩大了挖掘和有效理解和解释这些数据的挑战。” 理论上,专用的LLMs允许研究人员在不了解数据的复杂性或如何编程的情况下从数据中提取见解。这些工具中的一些已经能够回答非常复杂的问题。但它们仍然是进行中的工作。像其他基于LLM的工具一样,它们可能会“幻觉”或编造答案。因此,它们的开发者表示,它们应该只在人类一定程度的监督下使用。

为什么与您的数据对话?

网上数据和查询工具并不缺乏。例如,CZ CELLxGENE数据门户提供了预构建的工具,允许研究人员查询单细胞基因表达数据集。像ChatPDF这样的实用程序允许研究人员上传PDF文件,例如科学论文,并向它们提问。但更复杂的分析需要知道底层数据的结构以及它们的变量名称和类型。为了使这种交互更容易,

CHATGPT FOR SCIENCE: 如何与您的数据对话

公司正在使用人工智能工具帮助科学家无需编程技能即可查询他们的数据。由Julian Nowogrodzki撰写 插图由The Project Twins提供 924 | 自然 | 第631卷 | 2024年7月25日 工作 / 技术和工具

生物技术公司Genentech正在从头开始构建其基于LLM的工具。由纽约市Genentech前沿研究总监Stephen Ra领导,这个LLM旨在解决“跨越药物发现和开发管道的广泛问题”,他说,“从目标识别、发现、安全性评估、优先级排序,一直到我们如何做出更好的决策,或降低某些临床试验阶段的风险,或更好地理解患者轨迹和不良结果”。Ra说,这个系统可以简化目前手动且繁重的任务。例如,科学家可能会将他们的数据集搁置一段时间,但后来想要总结这些数据。他们可以问,“给我这个特定时间、这个菌株的这个特定测定的所有结果”,Ra说。该系统应该能够理解查询和数据,足够好地满足请求,“Genentech及其母公司罗氏的许多团队”正在测试它。同样,Enable Medicine的LLM旨在允许公司代表其客户查询其生物图谱,首席执行官Kamni Vijay说,这些客户大多是肿瘤学和自身免疫疾病的制药公司。研究人员可以问这样的问题,“患者是否对治疗有反应,哪些因素区分了对治疗有反应的患者和没有反应的患者?”或者“哪些生物标志物会影响或预测疾病进展?”,Vijay说。Enable正在构建几个现有的LLM,并用来自数万个样本的数以百万计的分子和细胞数据进行训练。但他们仍在实验。“我们的一部分研究探索这种类型的界面是否可以在科学上有效和有价值。”

它们是什么样子的?

这个领域的一些工具模仿了ChatGPT流行的问答格式。例如,由马萨诸塞州波士顿布莱根妇女医院的计算病理学家Faisal Mahmood构建的PathChat,允许用户输入病理图像,如肿瘤活检结果,以及描述性数据,如“这个肿瘤对标记A、B和C呈阳性”。(M. Y. Lu等人。自然 A Multimodal Generative AI Copilot for Human Pathology | Nature (2024)。然后用户可以就这些数据提出自然语言问题,例如,“你对肿瘤的主要起源有何评估?”交流看起来像WhatsApp对话中的来回文本气泡。然而,Vijay说,Enable的系统偏离了问答格式。它是一个更复杂的自动化系统,允许自然语言查询。尽管如此,其他工具输出代码而不是文字。Mergen是由柏林马克斯·德尔布吕克中心的生物信息学家Altuna Akalin构建的基于LLM的R编程语言库。Akalin创建了这个库(或“包”),因为他的团队收到了比它能够处理的更多的分析基因组数据的请求。Mergen旨在分析预处理的基因组数据集,以回答诸如“你能给我所有在某个特定个体集合中过表达的基因吗?”这样的问题。与所有LLM一样,该工具返回的代码在使用前应该由人双重检查,Akalin警告说,因为即使代码是可执行的,它可能包含逻辑错误。

它们是如何制造的?

构建一个允许研究人员与数据对话的LLM需要什么?与所有AI系统一样,答案是大量的训练数据。但数据类型的平衡同样重要,他的团队在实现正确的平衡方面付出了相当大的努力,Ra说。“对我们来说,价值在于能够采取对Genentech的许多团队都有广泛用途的东西,并允许这些团队也微调他们自己的模型。” Genentech训练其模型使用了涵盖多个项目和领域的内部和外部信息的组合,包括组学和临床数据,Ra说。特雷维诺说,将通用LLM转变为一个系统,使用户能够与他们的数据对话,有两种主要方式。一种是使用特定领域的信息,如病理数据,对通用LLM进行微调。在这种“非常有效”的方法中,他说,模型本身“正在具体学习新东西”。另一种方法,称为上下文化,不会改变底层的通用LLM,但会在查询中给它提供定制的上下文,如医学文献数据库。特雷维诺拒绝透露Enable使用哪种方法。为了构建PathChat,Mahmood和他的团队从Meta开发的通用LLM Llama 2开始。他们将LLM连接到他们为病理学构建的两个视觉语言模型,称为UNI和CONCH,每个模型都经过了数百万病理图像和标题的训练,以制造一个多模态LLM。然后研究人员使用来自病例报告和教育文章的半百万病理对话来提炼这个多模态LLM,这些对话遵循了布里格姆妇女医院和马萨诸塞州总医院的大多数病例的完整轨迹,以产生PathChat,Mahmood说。布里格姆和妇女的一些病理学家现在正在使用该系统来解释显微镜图像并编写病理学家随后可以检查的形态学描述,他说。

它们值得信赖吗?

确认很重要:仅仅因为LLM提供了一个答案,并不意味着那个答案是正确的。LLMs可以编造答案或遗漏信息,如何最好地确保模型的响应是可验证和可复制的仍然是一个未解决的问题,特雷维诺说。“这是一个积极的研究领域,如何审查结果。” Ra说,一个关键方面是来自特定领域专家的反馈。有不同的方式来纳入这样的检查——用户可以提供一个简单的点赞或不点赞,例如,一个更详细的回应,或者可以是人与LLM之间的迭代互动。无论如何,希望随着时间的推移,模型将进化到需要更少的输入,因为这样的反馈在数据集扩展时并不可扩展。特雷维诺和Ra说,在研究特定的LLMs中,理解和信任底层模型中发生的事情尤为重要。特雷维诺说,一个挑战是“稍微打开那个黑匣子”,以更好地理解它为什么会以这种方式回答。这可能有助于最小化幻觉。事实上,Ra说,Genentech从头开始构建其LLM的一个动机是,它希望知道它能够信任和理解输入的每一个数据点。“这在处理特权信息或非常敏感的信息的环境中非常重要,”例如患者数据,他说。对于现成的“黑匣子”LLMs,它们是如何被训练的并不总是清楚,Ra解释说。“我认为这是一些商业LLM解决方案的常见批评,通常没有足够的数据透明度。” 另一个持续的挑战,就像LLM领域本身一样,是底层数据的偏见。在训练数据中代表性不足的群体将被结果模型错误表示,当前的基因组数据极大地过度代表了欧洲后裔。特雷维诺和Vijay说,解决方案是提高底层数据的多样性。但他们说,没有真正的终点,可以确定底层数据何时足够多样化。然而,如果这些挑战被克服,特雷维诺说,“这些类型的模型将带来非常真实的好处。”重要的是“确保这种好处得以实现,并最大限度地民主化,”并且收益值得所有仍在进行中的工作。

作者

Julian Nowogrodzki是马萨诸塞州波士顿的科学作家和编辑。 “在这个非常有效的方法中,模型本身正在具体学习新东西。” 自然 | 第631卷 | 2024年7月25日 | 925

这篇关于【Nature】在科研中应用ChatGPT:如何与数据对话的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1109436

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd