数据质量与策略:解锁生成式AI潜力的关键步骤

2024-04-21 00:44

本文主要是介绍数据质量与策略:解锁生成式AI潜力的关键步骤,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

虽然不太花哨,但根据对334名数据领导者的调查,AI的准备工作归根到底还是一些基础问题——企业数据的格式和质量。

许多组织对生成式AI兴奋异常,正积极布局以利用此技术。董事会正在举办教育研讨会并鼓励公司采取行动。高级管理团队在思考开发哪些用例。个人和部门也在试验这项技术如何提高他们的生产力和效率。

然而,真正关键的工作却落在了首席数据官(CDO)、数据工程师和知识策展人身上。不幸的是,许多人甚至还没开始做这些必要的工作。2023年下半年的一项调查显示,尽管这些数据领导者对生成式AI的热情与其他人一样高涨,他们还有很多准备工作要做。

特别是在数据准备方面,许多公司尚未创建新的数据战略,或开始以利用生成式AI所需的方式管理数据。

我们将描述这项调查的结果以及这意味着对数据的下一步操作。

最大化价值

AI历史上处理的是结构化数据,通常是行和列中的数字。但生成式AI使用非结构化数据——文本、图片甚至视频——来生成新的或重新组合的非结构化数据形式。它为人类内容创作者提供了帮助,也带来了竞争。CDO和数据领导者对这项技术的热情相同:80%的人同意它最终会改变他们组织的商业环境,62%的人说他们的组织计划增加在生成式AI上的投入。这项技术也让他们的角色受到了很多关注。

然而,调查参与者表示,大多数人尚未从他们的生成式AI使用中获得实质性经济价值。当被问及他们的组织如何处理生成式AI时,近三分之一的人表示他们在“个人层面上进行实验”,而不是为企业创建用例。另外21%的人表示他们在进行实验,但对员工使用有指导方针。略少的比例,19%,在部门或业务单元层面进行实验。

最重要的是,只有6%的人将生成式AI应用投入生产部署。

令人惊讶的是,有16%的人指出他们的组织禁止员工使用,尽管随着公司处理数据隐私问题和企业版生成式AI模型的出现,这种做法正在减少。

使用生成式AI的实验应该涉及业务的核心方面。一家积极用生成式AI进行研发实验的公司是环球音乐。公司对这项技术的浓厚兴趣并不奇怪,因为生成式AI可以创作音乐、编写歌词、模仿艺术家的声音。环球正在探索如何在保护艺术家知识产权的同时使用生成式AI。它还在进行另一个实验,使用环球艺术家的声音(得到他们的许可和参与)创作AI版本的歌曲。公司还对一个AI提供商采取了法律行动,以保护其艺术家的版权。

政策和概念验证可以有用,但它们不产生经济价值。

为了让生成式AI对公司真正有价值,它们需要用自己的数据定制供应商的语言或图像模型,并做好内部数据准备工作以便整合。

数据准备是成功的关键

生成式AI使用的相对非结构化数据需要精心策划,确保其准确性、新颖性、独特性和其他属性,如果使用这些数据的生成式AI模型才会非常有用。内部数据质量差将导致生成式AI模型反馈的质量差。

我们调查中的许多数据领导者都反映了这一挑战:46%的人将“数据质量”确定为实现生成式AI潜力的最大挑战。

摩根士丹利财富管理的首席数据、分析和创新官杰夫·麦克米伦描述了一些涉及的问题:

“每一份研究内容都必须由注册合规人员审查,所以我们知道培训内容的质量非常高。即使在非研究内容中,我们也有一个团队对单个提交评分,涉及标签要求、链接是否损坏、是否有前言总结等,我们会给每份文档打分。

我们还必须花很多时间考虑不同的内容集和优化结果……这些大型语言模型不能解决不同数据来源的问题。公司需要在尝试使用生成式AI获取数据之前,解决数据整合和掌握的问题。”

大多数数据领导者尚未开始在他们的数据策略中进行必要的改变。尽管93%的调查应答者同意数据策略对从生成式AI中获得价值至关重要,但57%的人表示他们的组织的数据迄今为止没有变化。只有37%的人同意——且只有11%的人强烈同意——他们的组织拥有适合生成式AI的正确数据基础。换句话说,

大多数组织在广泛应用生成式AI方面还有大量工作要做。

那些开始进行变革的数据领导者专注于几项具体任务。四分之一的组织正在进行数据整合或清理数据集。18%的人正在调查可能支持使用生成式AI的数据。还有17%的人在策划文档或文本以准备用于特定领域的生成式AI模型。

默克集团的集团首席数据和AI官瓦利德·梅汉纳强调了几种类型的数据准备的重要性:“如果我们要做AI,我们需要在混凝土上建造,而不是流沙上。我们正在使流程和数据供应处于良好状态。我们正在处理数据清单和目录、具有新数据结构和元数据层的数据织物、数据管道以及临时自助服务洞察生成。我们相信生成式AI将是未来从数据中创造洞察力的关键方式。”

赛诺菲的研发首席数据官拉杰·尼玛加达也表示,公司正在为生成式AI准备数据,并告诉我们

成功的生成式AI“取决于高质量、‘业务就绪’的数据,这些数据是由坚实的数据基础、数据治理和标准指导的。”他说,赛诺菲目前正在投资构建这些核心能力,以支持其研发。

就像数据转换一般,对大多数组织而言,策划、清理和整合所有非结构化数据以用于生成式AI应用将是一项巨大的努力。因此,大多数公司应该专注于他们预期将在不久的将来实施生成式AI的特定数据领域。公司可能需要较长时间才能使用生成式AI并从中创造价值。

在调查中,数据领导者优先发展生成式AI的商业领域依次是:客户操作(如客服或聊天机器人)、软件工程/代码生成、营销和销售活动(如个性化营销活动或销售优惠)以及研发/产品设计和开发。许多组织还在追求整体个人生产力应用的生成式AI,但这不太可能涉及特定的数据领域。

现在就是开始的时候

虽然我们认为数据领导者应该加快准备他们的数据以用于生成式AI的步伐,但我们也认识到还有其他重要的数据项目,包括改进交易数据和使数据可用于传统分析和机器学习应用。事实上,这种步伐有些缓慢的一个原因可能是71%的CDO同意“生成式AI很有趣,但我们更专注于其他数据计划以提供更有形的价值”。

鉴于对生成式AI的高度热情,这一调查结果有些令人惊讶。在2022年的调查中,CDO面临迅速交付价值的压力,但也需要促进生成式AI的实施。我们怀疑他们从管理和改进结构化数据到非结构化内容的转变有些缓慢。此外,关于谁应该领导公司内生成式AI的竞争也存在;CDO正在与CIO、CTO和首席数字官争夺这项新兴技术的领导权。

如果生成式AI将改变组织,那么等待开始准备数据是没有意义的。我们——以及大多数调查应答者——都同意生成式AI是一项变革性能力。让一个大组织的重要数据为AI做好准备可能需要几年时间。现在就是开始的时候。

这篇关于数据质量与策略:解锁生成式AI潜力的关键步骤的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/921765

相关文章

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

Python 中 requests 与 aiohttp 在实际项目中的选择策略详解

《Python中requests与aiohttp在实际项目中的选择策略详解》本文主要介绍了Python爬虫开发中常用的两个库requests和aiohttp的使用方法及其区别,通过实际项目案... 目录一、requests 库二、aiohttp 库三、requests 和 aiohttp 的比较四、requ

Idea调用WebService的关键步骤和注意事项

《Idea调用WebService的关键步骤和注意事项》:本文主要介绍如何在Idea中调用WebService,包括理解WebService的基本概念、获取WSDL文件、阅读和理解WSDL文件、选... 目录前言一、理解WebService的基本概念二、获取WSDL文件三、阅读和理解WSDL文件四、选择对接

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编