ChatGPT时代对大数据应用的展望

本文主要是介绍ChatGPT时代对大数据应用的展望，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言：

2022年底，科技圈有个爆炸性新闻，ChatGPT的诞生，引发了世界范围内的震惊；人工智能在与人交流上有了划时代的技术突破，可以和人深入的理解交流，让许多公司和领域对这项技术有了更多遐想。对于大数据领域，ChatGPT的出现会对这个行业产生什么影响，这是一个值得讨论和分析的话题。

一、ChatGPT提供的技术能力分析

2022年初，北京冬奥会世界瞩目；三月份，俄乌爆发了一场持续到现在的战争；然后美联储连续6次加息；梅西取得大力神杯；2022年仿佛注定是个不平凡的一年。2022年的最后一个月，科技圈发布了一个在人类历史上都算的上划时代的消息，OpenAI的ChatGPT在自然语言处理上获得了重大的突破。

1.1ChatGpt是什么？

他是一款AI技术驱动的自然语言处理工具，能够通过学习理解人类语言与人进行对话；可以依据聊天的上下文与人进行互动，像人类一样沟通交流，甚至能解决方案，代码，视频脚本等专业人才，才能做的事。为AIGC（内容自动生成）文本场景满足了极多的应用需求。（AIGC还有图片、语音、视频、3D模型等各种形式内容的发展）

1.2 实现ChatGpt需要什么？

我不是算法工程师，对其实现细节不了解；但是因为工作原因接触和自己的学习，大致理解了其实现原理；所以从自己浅显的视角分析下ChanGPT要定制化实现，需要做哪些工作。

这里就不得不提最近很火的大模型，AI技术之前无法实现大规模应用，主要因为算力无法满足大量用户的使用。大模型是使用深度学习框架和强大的计算资源，利用大量数据进行拟合训练，通过被动学习模拟人类认知的方式，而得到数亿到数万亿参数特征的模型。ChatGPT通过深度学习训练了一个大语言模型，将文本信息输入ChatGPT系统后，能通过训练好的模型，返回符合人类语言习惯的回答。

所以想要训练好一个新的大模型或者符合特定应用场景的小模型；

需要以下几个基础的东西：

有特定含义的数据：大量用于应用场景的大模型训练数据，或者已经训练好特征的大模型数据；
调好的算法模型：Transformer预训练语言模型，涉及神经网络、深度学习等算法用于处理数据；
模型训练资源：存储训练数据量级的磁盘，处理数据的内存，以及大量的计算资源，高性能GPU；

所以现阶段想要训练特殊的大模型有两种方式：

一种是基于已有的大模型，按照原有的训练方式添加自己处理好的数据，微调基础大模型，用以适应新的应用场景；

另外一种是有实力的公司，可以按照大模型训练方式，从数据处理到各个阶段设计，重新跑一个全新的模型出来。

二、大模型在大数据领域应用分析

2.1 大数据领域应用需求分析

大数据领域的全生命周期，可以总结为如下三个阶段：

首先搭建大数据基础生态，存算、处理组件；

其次数据处理周期，从采集、处理、分析到数据应用；

最后是定制化的数据应用。

2.2 分析大数据每个阶段人工智能应用的可能

2.2.1 ChatGPT在搭建大数据基础生态的可能性分析

这是一个什么需求场景呢？

比如当你想要安装HADOOP生态的插件，你告诉ChatGpt，然后它就自己网上找安装资源，自动安装，然后遇到异常情况或不能解决的问题，将它需要的条件和需求告诉你，或把原因反馈给你寻求帮助。

分析一下，这个跟问界的智能停车不就是一样的需求场景吗，你告诉车载智能系统“停车”，它就调用这个功能去执行这个功能。

如何实现呢？

在大数据基础组件安装这个场景中，在ChatGpt之上包装一层语音文字转换系统，在ChatGpt之下构建一套智能安装运维系统；然后将各种大数据组件的安装功能，集成到安装运维系统之中，通过chatGPT理解需求，将需求对接安装运维系统，理论上是能实现基础生态的安装运维驱动；只是需要构建一套智能安装运维系统，然后将功能接口对接ChatGPT接口，在运维系统之上做需求识别。

2.2.2 ChatGPT在数据处理周期的可能性分析

这个场景需要做什么呢？

现在这个阶段需要大数据开发工程师理解数据模型和业务需求，然后使用大数据工具，采集，构建模型，处理，存储，分析结果；这个过程核心的是对数据的理解和需求的理解，对需求的理解，通过语言模型是能实现的，但是对数据的理解，从原始数据到需求转换的这个过程，因为数据的不确定性，无法使用大模型训练出一个标准的处理方式。

无法处理的痛点能否解决？

因为原始数据字段的定义没有特定的含义，所以无法通过大模型，训练出标准的处理方式，理解数据成为大模型的难点。

那有什么方式能解决呢？

我能想到的，ChatGPT对于数据识别这个环节，先整理下大数据可能的字段含义，然后将所有含义做一张映射表，大模型自定义数据场景语义字段，通过大模型训练的自定义标准字段，构建初始的详情数据；

让大模型能理解详情数据，当有需求时，可以这样对chatGPT说：“将kafka中app1的数据，构建一个按用户、性别、省份维度分钟级聚合的任务，索引为index_app1写入ES，并部署”。

好像也能解决，但是这里需要多个操作，第一是自定义字段和语言模型的映射，让语言模型能识别数据scheme；第二有任务自定义（SQL语义自动生成能力）；第三任务cicd部署能力；这是基础的三种功能，其他维护，优化监控等。这个周期需要极大的工作周期，基本要从零到一构建。

2.2.3 ChatGPT在数据应用的可能性分析

数据应用有哪几种？

数据分析，告警驱动，搜索，推荐，异常检测等。

对于不同的应用有不同的方案思路，这里选数据分析这个场景做分析；

ChatGPT要实现数据分析，需要做什么呢？

分析数据应用，默认将数据处理完成，只是宽表数据；

首先依旧是对数据scheme的理解，
然后将语音转换成文字，
之后将文字需求转换成SQL执行；
最后将计算结果返回给前端用户形成报表。

这种方式也是最简单大数据应用能接入chatGPT的场景，应为宽表字段可以很简单的更改和定义，可以构建这样一个系统，将语言的中的信息和字段在这个系统入口处分类；然后包装查询统计SQL，将语言里提到的维度填充到SQL里，获取执行返回结果，前端用BI报表渲染就可以实现应用的跨用户使用。

这种方式是目前最简单能落地的应用，虽然通过语音系统构建也可以简单构建，但是引入chatGPT，可以增加识别能力。

三、结语

ChatGPT依靠训练的语言大模型，极大的提升了语言类AIGC的应用。在大数据领域，期盼的愿望是可以通过语言就能实现大数据开发到应用，将chatGPT当作自己的私人管家，大数据工作者只需要去维护解决ChatGPT运维下的系统异常就行。这将极大释放大数据领域工作者的生产力，可以将精力聚焦在更有价值的地方。

工作不是存量市场，就像电脑刚出现的时候以为好多人将没有工作，但是围绕电脑的工作却创造出更多价值，提供了更多的工作岗位；大数据也如此，到目前为止，大数据行业对于数据的应用如同老牛犁地，应用只是加速传统技术的处理能力和有限的大数据挖掘应用，当释放了数据领域者的生产力，相信大数据领域的工作者可以挖掘出更多有价值的数据黄金。

这篇关于ChatGPT时代对大数据应用的展望的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！