ChatGPT、Claude 和 Gemini 在数据分析方面的比较(第 2 部分)

2024-08-21 14:04

本文主要是介绍ChatGPT、Claude 和 Gemini 在数据分析方面的比较(第 2 部分),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

       欢迎来到雲闪世界。欢迎回到我的系列文章的第二部分,ChatGPT、Claude 和 Gemini 在数据分析方面的比较!在本系列中,我旨在比较这些 AI 工具在各种数据科学和分析任务中的表现,以帮助其他数据爱好者和专业人士根据自己的需求选择最佳的 AI 助手。如果您错过了第一篇文章(利用 OCR 和强大的 GPT-4o 迷你模型对收据进行信息提取),我比较了它们在编写和优化 SQL 查询方面的表现 — 请务必查看! 虽然 2024 年奥运会已经结束,但我们的 AI 竞赛才刚刚开始。到目前为止,Claude 3.5 Sonnet 已经领先!但它能保持自己的地位吗,还是 ChatGPT 和 Gemini 会赶上来?🏆 在第二篇文章中,我们将重点介绍他们独立进行探索性数据分析 (EDA) 的能力。作为一名数据科学家,想象一下拥有一个 AI 工具的便利性,它可以立即为新数据集提供数据洞察和建议,以指导高级分析和建模。让我们看看哪种模型可以提供最佳的 EDA。

添加图片注释,不超过 140 字(可选)

什么是 EDA 探索性数据分析 (EDA) 是检查和分析数据集以了解其主要特征的过程,通常使用视觉技术。它涉及数据清理、汇总统计数据以及识别数据中的模式、趋势和关系。目标是发现指导进一步分析或建模的见解,确保在进行更复杂的任务之前彻底了解数据。EDA 的关键组成部分包括:

  1. 数据检查:了解数据集的结构(例如,行数、列数、数据类型)并预览样本数据。

  2. 数据清理:纠正数据类型、处理缺失值和验证数据(例如,确保在必要时值是唯一的)。

  3. 单变量分析:使用可视化对单列执行描述性统计(例如平均值、中位数、分位数)。

  4. 双变量和多变量分析:探索成对或多组变量之间的关系。

  5. 见解和建议:产生见解和可行的建议,以提供进一步的分析或建模。

评估标准 我们将在“自动驾驶”模式下评估这三种工具,仅提供一个提示来进行 EDA,看看它们能走多远。评估将基于五个关键方面: 1.完整性(5分): EDA报告是否涵盖了数据检查、数据清理、单变量分析、多变量分析和洞察等五个基本方面? 2. 准确性(4 分):报告中的统计计算、可视化以及得出的见解或结论有多准确? 3. 可视化质量(4 分):可视化是否清晰、可解释且与报告相关? 4. 洞察力(4 分):报告是否根据已识别的模式、趋势或关系产生洞察力? 5. 可重复性和文档(3 分):报告是否有详尽的文档记录,以便其他人可以重复该分析? 请参阅下表中的详细评分标准:

添加图片注释,不超过 140 字(可选)

问题设置 这是我们用于本次评估的数据集:来自 Kaggle 的客户性格分析数据集(CC0:公共领域许可证)。 这是我的提示:

 
 

您是一家连锁杂货店的数据科学家。 您有一个数据集,其中包含客户的人口统计信息、 购买数据和营销活动历史记录。您今天的目标是对该数据集 进行彻底的探索性数据分析 (EDA),并提供必要的数据清理、分析和可视化、清晰的见解和可行的建议。 您的 EDA 将用于更好地了解客户、根据客户行为影响产品策略,并为进一步的客户细分分析和建模提供信息。 以下是各列的说明: 1. 人员-ID:客户的唯一标识符 -Year_Birth:客户的出生年份 -Education:客户的教育程度 -Marital_Status:客户的婚姻状况 -Income:客户的家庭年收入 -Kidhome:客户家庭中的儿童数量 -Teenhome:客户家庭中的青少年数量 -Dt_Customer:客户在公司注册的日期 -Recency:自客户上次购买以来的天数 -Complain:如果客户在过去 2 年内投诉过,则为 1,否则为 0 2. 产品 -MntWines:过去 2 年在葡萄酒上的花费 -MntFruits:过去 2 年在水果上的花费 -MntMeatProducts:过去 2 年在肉类上的花费 -MntFishProducts:过去 2 年在鱼上的花费 -MntSweetProducts:过去 2 年在糖果上的花费-MntGoldProds:过去 2 年在黄金上花费的金额3. 促销 -NumDealsPurchases:使用折扣进行的购买次数-AcceptedCmp1:如果客户接受了第一个活动中的优惠,则为 1,否则为 0 -AcceptedCmp2:如果客户接受了第二个活动中的优惠,则为 1,否则为 0 -AcceptedCmp3:如果客户接受了第三个活动中的优惠,则为 1,否则为 0 -AcceptedCmp4:如果客户接受了第四个活动中的优惠,则为1,否则为 0 -AcceptedCmp5:如果客户接受了第五个活动中的优惠,则为 1,否则为 0 -Response:如果客户接受了上一个活动中的优惠,则为 1,否则为 0 4. 地点 -NumWebPurchases:通过公司网站进行的购买次数 -NumCatalogPurchases:使用目录进行的购买次数 -NumStorePurchases:直接在商店购买的商品 -NumWebVisitsMonth:上个月访问公司网站的次数

聊天GPT-4o 总得分:19/20 1. 完整性(5/5) ChatGPT 的 EDA 响应首先概述了其将采取的步骤,涵盖了 EDA 的所有五个关键组件。

  • 数据检查:使用 ChatGPT 进行数据分析的一个优点是,它可以通过直接在界面中扩展数据集来轻松预览数据集。

添加图片注释,不超过 140 字(可选)

  • 数据清理:ChatGPT 执行了必要的步骤,包括填充缺失值和更正数据类型。对于缺失值,它仔细评估了分布,income并决定用中位数收入来填补,从而提供了合理的推理。

添加图片注释,不超过 140 字(可选)

  • 单变量分析age:ChatGPT 分析了包括、、和在内income的主要特征的分布,并提供了研究结果的摘要。marital statuseducation

添加图片注释,不超过 140 字(可选)

  • 双变量和多变量分析:ChatGPT 探索了特征对之间的关​​系,例如收入与总支出之间的相关性,以及按产品类别划分的平均支出。它再次从这些分析中得出了关键见解。

添加图片注释,不超过 140 字(可选)

  • 见解和建议:ChatGPT 在每个可视化部分之后提供了关键见解,并得出了明确且可操作的建议。

添加图片注释,不超过 140 字(可选)

2. 准确度(4/4) 所有数据清理、可视化和分析步骤均由 Python 代码支持。在手动运行代码并将其结果与 Claude 和 Gemini 的结果进行比较后,ChatGPT 的输出是准确的。它的见解也与分析结果非常吻合。 3. 可视化(3/4) ChatGPT 创建的可视化图表标记清晰,图表类型恰当,并附有见解。您还可以轻松下载图表以用于文档和演示文稿。 我唯一的抱怨是,虽然一些简单的可视化是交互式的(允许您将鼠标悬停在它们上面以查看值),但大多数都不是。因此,我扣了一分,以表示有待改进 :)

添加图片注释,不超过 140 字(可选)

4. 洞察力(4/4) 如上面的截图所示,ChatGPT 提供了超过 4 条见解,并给出了具体、可操作的建议,在此获得了满分。 5. 可重复性和文档(3/3) ChatGPT 的报告结构直观,每个部分后面都附有代码片段,以确保可重复性。因此,此处授予全部荣誉。

添加图片注释,不超过 140 字(可选)

克劳德 3.5 十四行诗 总得分:16/20 1. 完整性(4/5) Claude 的报告比 ChatGPT 短得多,主要是因为它没有显示可视化,而只显示文本报告。但它仍然涵盖了 EDA 的大部分关键组件。

  • 数据检查:虽然可以点击上传的 CSV 文件,但预览只是文本格式,不太容易理解。Claude 也没有提供任何数据结构的文本描述。因此,我认为这一步并不完整。

添加图片注释,不超过 140 字(可选)

  • 数据清理:Claude 的报告以“数据质量和清理”部分开始,包括删除缺失值、创建新列和清理分类值等步骤。您可以在附加的代码片段中清楚地看到这些步骤。与选择用中位数估算缺失收入值的 ChatGPT 不同,Claude 只是删除了有缺失值的行。考虑到只有 24 行,我认为这两种方法都是合理的。

添加图片注释,不超过 140 字(可选)

  • 单变量分析:Claude 在其 Python 脚本中包含了单变量分析代码,并在其报告中混合了见解。

添加图片注释,不超过 140 字(可选)

  • 双变量和多变量分析:同样,在下面的屏幕截图中,您可以看到 Claude 从双变量分析和相应的代码中得出的发现。

添加图片注释,不超过 140 字(可选)

  • 见解和建议:列出见解之后,克劳德提供了一套全面的可行建议以及合理的后续步骤。

添加图片注释,不超过 140 字(可选)

2. 准确度(3/4) 我查看了 Claude 生成的 Python 脚本并手动运行了它。虽然大部分代码都是准确的,但由于包含非数字列,相关矩阵部分出现了错误。我与 Claude 分享了此错误的屏幕截图,它通过df.select_dtypes(include=[np.number])仅添加数字列过滤器来纠正此问题。 这个小错误导致扣一分。

添加图片注释,不超过 140 字(可选)

3. 可视化(2/4) 与 ChatGPT 和 Gemini 不同,Claude 并不直接显示可视化效果,而是提供 Python 脚本。这是因为它无法在 UI 中执行 Python 代码。但它确实支持运行 JavaScript 和其他一些编程语言。我要求它显示可视化效果,它编写了带有图表预览的 JavaScript 代码——但脚本中的硬编码数字与数据集不一致,导致混乱…… 我手动运行了 Python 脚本,虽然它们生成了准确的可视化效果(除了上面的相关矩阵错误),但与其他工具相比,整体体验不太友好。因此,我因为这个限制扣除了两分。

添加图片注释,不超过 140 字(可选)

4. 洞察力(4/4) 尽管缺乏可视化,Claude 的建议仍然富有洞察力且可操作,涵盖产品重点战略、活动优化、高价值客户保留和交叉销售机会等领域。洞察力和建议的质量获得了满分。 5. 可重复性和文档(3/3) Claude 的回复结构清晰,要点按照数据清理、见解、建议和后续步骤的顺序列出。底层 Python 代码可通过右侧的“Artifact”窗口访问。Artifact可轻松查看和迭代代码,将其与左侧的文本报告进行协调,甚至发布代码与他人共享。

添加图片注释,不超过 140 字(可选)

双子座高级版 总得分:19/20 1. 完整性(5/5) Gemini 提供了详尽的 EDA,全面覆盖了所有关键组件。

  • 数据检查:您可以在 Gemini 中打开 CSV 文件来仔细查看数据集(尽管不像 ChatGPT 那样具有交互性)。Gemini 还包含一段描述数据结构的段落。

添加图片注释,不超过 140 字(可选)

  • 数据清理:与 Claude 类似,Gemini 纠正了数据类型,计算了新列(例如age和enrollment period),并删除了缺少值的行。

添加图片注释,不超过 140 字(可选)

  • 单变量分析:Gemini 进行了详尽的单变量分析,并打印了 10 多个直方图和箱线图来探索单个变量。

添加图片注释,不超过 140 字(可选)

  • 双变量和多变量分析:Gemini 采取了非常彻底的方法,在多个网格中生成了超过 50 个可视化效果,探索了几乎所有可能的变量对。

添加图片注释,不超过 140 字(可选)

  • 见解和建议:在展示所有可视化效果之后,Gemini 提供了清晰的见解,然后提供了结构良好的建议。

添加图片注释,不超过 140 字(可选)

2. 准确度(4/4) Gemini 附带了清晰易懂的 Python 代码。查看并运行代码后,一切都正常。其洞察也与可视化相符,准确性获得满分。 3. 可视化(3/4) 与使用经典 Python 可视化包的 ChatGPT 和 Claude 不同matplotlib,seabornGemini 使用altairJSON 格式保存图表,并将其嵌入聊天机器人 UI。这使得图表具有高度交互性。 然而,如上图所示,其相似图表数量众多(超过 50 张),再加上标签重叠,使得数据难以有效解读。因此,我在可视化方面扣了一分。 4. 洞察力(4/4) Gemini 总结了主要发现,并在“产品策略”和“客户细分和营销”两个主要类别下提供了可行的建议。这些见解切实可行,与数据高度吻合,在洞察力方面获得了满分。

添加图片注释,不超过 140 字(可选)

5. 可重复性和文档(3/3) 尽管由于可视化数量众多,Gemini 的响应比其他模型更长,但其报告结构良好,并且附带的 Python 代码确保可以轻松重现分析。这为其重现性赢得了满分。 最终结果

添加图片注释,不超过 140 字(可选)

获胜者是......🥁 ChatGPT-4o和Gemini Advanced — — 我们打平了! 三个模型的最终得分非常接近,甚至排名第三的 Claude 3.5 Sonnet 也获得了 20 分中的 16 分,占总分的 80%。值得注意的是,我只用一个提示就进行了这次比赛!在数据专业人员的指导下,这些工具的功能可以得到显著增强。

  • ChatGPT-4o和Gemini Advanced:两种模型各只丢了一分。ChatGPT-4o 因其可视化的交互性有限而被扣分,而 Gemini Advanced 则因其可视化的混乱性质而丢了一分。

  • Claude 3.5 Sonnet:Claude 的主要缺点是无法运行 Python 代码并直接显示可视化效果,并且 Python 脚本中有一个小错误。但是,由于它能够运行 JavaScript 等其他编程语言,我们可能很快就会看到它支持 Python 可视化效果!

其他注意事项 选择 EDA 助手时,还需要考虑以下几点:

  • 选择性 EDA 与详尽性 EDA:有趣的是,ChatGPT 和 Claude 倾向于专注于他们认为重要的选定列,从而提供更易理解、更集中的报告;另一方面,Gemini 提供详尽的分析,生成各种图表。每种方法都有其优缺点:选择性分析更容易理解,而详尽分析提供全面的覆盖范围,这可能会让人不知所措。所以,你喜欢哪种风格取决于你。

  • 输出稳定性:我在每个工具中使用相同的数据集运行了相同的提示三次,这样我的评估就不会偏向于单次运行——考虑到 LLM 的性质,它们的响应每次都会发生变化。这也让我注意到它们不同的输出稳定性水平。Gemini 显示出最高的方差,每次运行的报告结构和内容都不同。它在三次运行中的一次生成了相关矩阵热图,在另一次运行中,它甚至进行了 K 均值聚类。与此同时,ChatGPT 和 Claude 更加一致,尽管他们在可视化和见解的选择上也有所不同。因此,如果您依赖 LLM 来生成见解,最好多次运行相同的提示以确保获得最佳输出(当然,您可以随时跟进并明确要求提供任何缺失的内容)……

  • 响应速度:在这三者中,ChatGPT-4o 是最快的——它几乎立即开始响应。Claude 稍慢一些,大约需要 10 到 20 秒才能启动。Gemini 的启动和完成时间最长,因为它生成的图表数量巨大,但仍低于 3 分钟。

结论 如果您正在寻找快速、清晰的 EDA 报告,ChatGPT-4o是您的不二之选。但如果您更喜欢对数据集进行详尽的探索,并且可以容忍不太精致的可视化,Gemini Advanced可能是您的更好选择。

感谢关注雲闪世界。(Aws解决方案架构师vs开发人员&GCP解决方案架构师vs开发人员)

这篇关于ChatGPT、Claude 和 Gemini 在数据分析方面的比较(第 2 部分)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1093368

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU