【玩转TableAgent 数据智能分析】-- 数据分析不再是专业人士的专利

本文主要是介绍【玩转TableAgent 数据智能分析】-- 数据分析不再是专业人士的专利,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 前言
    • 一、TableAgent介绍
      • TableAgent 数据分析智能体
      • 融合创新应用的新成果
        • Table Family
    • 二、注册TableAgent
      • 访问TableAgent
      • 注册
      • 用量
    • 三、 体验TableAgent
      • 样例数据集体验
        • 选择样例数据集
        • 样例数据集进行数据分析
          • 数据图
        • 样例数据集进行数据分析规定图表格式
          • 数据图
        • 自定义数据集体验
          • 准备数据
          • 数据概览
          • 数据分析方向
          • 导入数据
          • 简单数据分析
          • 复杂数据分析

前言

在数字化时代,数据分析的重要性已经变得无处不在,就像我们生活中必不可少的空气一样。它是数字化管理和智能决策的基础,但同时也是一项高度专业化的工作。对于那些只会使用Excel的人来说,面对描述性分析、诊断性分析和预测性分析可能会感到相当头疼。然而,九章云极DataCanvas公司自主研发的TableAgent数据分析智能体的出现,让大型模型对个人生产力的提升达到了新的高度。只需要知道如何提问,你就能成为一个顶级的数据分析师,深入洞察数据的奥秘。

2023年7月9日,OpenAI发布了一款震撼全球的Code Interpreter插件,让“人人都是数据分析师”的梦想成为现实。然而,早在6月28日,九章云极DataCanvas公司就已经提前发布了TableGPT。现在,Code Interpreter已经更名为Advanced Data Analysis,而TableGPT也进行了一系列的重大升级,以TableAgent的新名字重新上线,面向全社会开放公测。

一、TableAgent介绍

TableAgent 数据分析智能体

TableAgent是一款功能强大的企业级数据分析智能体,可以实现私有化部署。它具备出色的意图理解能力、分析建模能力和深刻的洞察力。通过充分理解用户的意图,TableAgent能够自主地运用统计科学、机器学习、因果推断等高级建模技术,从海量数据中挖掘出有价值的信息。这不仅为用户提供了精准的分析观点,还能为他们制定决策提供深刻的见解。此外,凭借自有的大型模型和自主研发的T+底层体系,TableAgent能够灵活适应各行各业以及不同专业领域的需求,实现在特定领域内个性化数据分析场景下的专业化微调。
TableAgent现已开放公测 : 点击即可访问

融合创新应用的新成果

九章云极DataCanvas公司自主研发的Alaya九章元识大模型,为TableAgent提供了关键性的技术支持。通过在Alaya基础大模型上进行微调,衍生出了Alaya-ZeroX模型组,这些模型各具特色,能够协同完成复杂的分析任务。不同规模的模型参数确保了生成质量和推理性能的同时满足。
此次TableAgent的发布还带来了一项重要功能,即专业化微调。由于不同行业和企业在数据分析领域有着各自独特的语言背景和分析模型需求,通用的分析工具往往难以满足这些专业化要求。而TableAgent则能为企业提供这种专业化的微调服务。

为了实现这一目标,TableAgent特别设计了一套名为T+(Table Family)的系统。该系统能够高效地进行定制化的微调工作,并且具备自我迭代的能力。这一系统性的支持使得数据分析各个环节的升级更加高效,用户在无需感知的情况下就能享受到不断升级的数据分析体验。

image.png

Table Family

二、注册TableAgent

访问TableAgent

点击链接 体验TableAgent, 如下图所示,点击立刻体验
image.png

注册

输入手机号``验证码 登录 TableAgent
image.png

用量

注册后可以免费使用5次,次数使用完了,可以认证申请增加次数(每天15次)

image.png

三、 体验TableAgent

样例数据集体验

TableAgent 提供了 样例数据集 可以使用样例数据集快速上手 TableAgent

image.png

接下来我们使用TableAgent提供的样例数据集进行数据分析的体验

选择样例数据集

我们选择全球大学排名信息的数据集

当数据集加载成功之后, 左侧的对话框内返回了关于该数据集的信息, 并且提供了问题的可选项以供用户参考, 同时在详情的折叠面板中有这关于数据集的csv 的数据展示 ,如下图所示
image.png

样例数据集进行数据分析

**提问:**画图分析中国的前10所大学最重要的3个指标,简单总结一下他们之间的比较分析。

数据图

效果图

image.png
image.png
image.png
分析:

  1. 根据我给出的问题,并没有指定数据图的格式, 这里TableAgent 自动选择的是柱状图进行展示, 可以说是比较人性化的, 更加直观
  2. x轴数据明显重叠了, 这一点还是有待优化的。
  3. 再给出数据图表的同时,也给出了数据分析的内容,这一点简直绝了。
  4. 在详情的折叠内容中, 也会给出分析的步骤,以及代码思路, 这一点对于研发人员也是非常的友好
样例数据集进行数据分析规定图表格式

通过1.2 的问题我们可以看到, 我们并没有指定图表格式, TableAgent 给我们择优选择了柱状图, 接下来我们规定一下输出的图表格式, TableAgent 是否可以理解并执行呢?

提问: 通过折线图分析中国的前10所大学最重要的3个指标,简单总结一下他们之间的比较分析。

数据图

效果图

image.png
image.png
image.png
分析:
此时我让TableAgent 用折线图进行数据分析, 通过效果图我们发现, TableAgent 返回的数据分析图与我们的预期相符,同时TableAgent 也给了我们相应的分析过程及结果,同时也给出了接下数据分析的方向。

总结:
针对柱状图和折线图以及TableAgent 给出的分析结论我们可以得到综合的结论

  1. 教育水平、研究声誉和师生比例:
  • 从柱状图中可以观察到,北京大学和清华大学在教育水平、研究声誉和师生比例等方面处于领先地位,而其他大学如中国科学技术大学、复旦大学和上海交通大学也表现出色。
  • 数据表中显示了这些大学在不同指标下的具体得分和排名,进一步印证了柱状图的结果。
  1. 学术声誉得分、就业率和国际学生比例:
  • 通过折线图和数据表,可以发现清华大学在学术声誉得分和国际学生比例方面表现较好,而北京大学在就业率上处于较高水平。
自定义数据集体验
准备数据

如下链接为我们准备的csv数据集

online_shopping_10_cats.csv

数据概览

10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条

数据分析方向

情感/观点/评论 倾向性分析

导入数据

如下图所示, 我们清楚原有数据集, 然后导入我们准备好的数据集,进行数据分析。

image.png

注意:由于我们准备的数据是10Mb , 但是TableAgent目前允许的最大的数据量是不可以超出5Mb的,因此我们需要对数据进行裁剪,使之在5Mb 以内。

删除"cat"列中包含"洗发水"、“热水器”、“蒙牛”、“衣服”、"计算机"和"酒店"的行


import pandas as pd# 读入CSV文件到DataFrame中
df = pd.read_csv('online_shopping_10_cats.csv')# 删除"cat"列中包含"衣服"、"计算机"和"酒店"的行
df = df[~df['cat'].isin(['洗发水', '热水器', '蒙牛', '衣服', '计算机', '酒店'])]# 将结果保存到新的CSV文件中
df.to_csv('new_data.csv', index=False)

如图所示清理过后数据集大小正好符合要求, 直接导入即可

image.png

简单数据分析

首先我们进行简单的数据分析,
问题如下: 对书籍、平板、手机、水果、洗发水、热水器、蒙牛 这几个类别进行用户倾向性分析,数据集中cat代表类别,label为0代表负面评价为1为正向评价,review代表用户的评价

数据图:
image.png
image.png

分析:对于我们自己的数据集TableAgent不仅给出了图表分析,同时也给出了详细的分析结果,返回结果符合我们的预期

复杂数据分析

接下来我们将问题复杂化,看下TableAgent 是否依旧可以给出完美的分析结果
问题如下: : 对书籍、平板、手机、水果、洗发水、热水器、蒙牛 这几个类别进行用户倾向性分析,数据集中cat代表类别,label为0代表负面评价为1为正向评价,review代表用户的评价,分析数据集中 review列用户的正向评论和负向评论, 并将绘制成旭日图和散点图

数据图:
image.png
image.png
image.png
分析:从结果来看 并不符合我们的预期, 我们计划生成的是旭日图和散点图 , 但是实际上给出的结果却是柱状图, 当然这里不排除我们数据集本身的原因

五、常见问题
通过TableAgent提供的样例数据集和我么自己提供的数据集来看,存在以下问题:

  1. 用户如果导入的数据集低于5MB时, 需要自己对数据进行处理,删除多余的数据,这点显然不是很友好
  2. 过于复杂的图形(可能是数据集的原因), 理解的并不是很友好
  3. 给出的提问方向或者示例,有时并不符合数据集的内容

六、总结
TableAgent其实是九章云极之前发布的TableGPT升级后的产品形态,通过本次的体验能明显感觉到在性能方面有显著提升,以自然语言对话的方式实现结构化数据的分析工作,这对我这种数据建模的小白来说蛮友好的。它的另一个大亮点是支持企业私有化部署,做ToB企业的都知道现在企业对数据安全是多么地看重。不得不说给个大大的赞哦!!!

这篇关于【玩转TableAgent 数据智能分析】-- 数据分析不再是专业人士的专利的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/466469

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time