数据质量与策略:解锁生成式AI潜力的关键步骤

2024-04-21 00:44

本文主要是介绍数据质量与策略:解锁生成式AI潜力的关键步骤,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

虽然不太花哨,但根据对334名数据领导者的调查,AI的准备工作归根到底还是一些基础问题——企业数据的格式和质量。

许多组织对生成式AI兴奋异常,正积极布局以利用此技术。董事会正在举办教育研讨会并鼓励公司采取行动。高级管理团队在思考开发哪些用例。个人和部门也在试验这项技术如何提高他们的生产力和效率。

然而,真正关键的工作却落在了首席数据官(CDO)、数据工程师和知识策展人身上。不幸的是,许多人甚至还没开始做这些必要的工作。2023年下半年的一项调查显示,尽管这些数据领导者对生成式AI的热情与其他人一样高涨,他们还有很多准备工作要做。

特别是在数据准备方面,许多公司尚未创建新的数据战略,或开始以利用生成式AI所需的方式管理数据。

我们将描述这项调查的结果以及这意味着对数据的下一步操作。

最大化价值

AI历史上处理的是结构化数据,通常是行和列中的数字。但生成式AI使用非结构化数据——文本、图片甚至视频——来生成新的或重新组合的非结构化数据形式。它为人类内容创作者提供了帮助,也带来了竞争。CDO和数据领导者对这项技术的热情相同:80%的人同意它最终会改变他们组织的商业环境,62%的人说他们的组织计划增加在生成式AI上的投入。这项技术也让他们的角色受到了很多关注。

然而,调查参与者表示,大多数人尚未从他们的生成式AI使用中获得实质性经济价值。当被问及他们的组织如何处理生成式AI时,近三分之一的人表示他们在“个人层面上进行实验”,而不是为企业创建用例。另外21%的人表示他们在进行实验,但对员工使用有指导方针。略少的比例,19%,在部门或业务单元层面进行实验。

最重要的是,只有6%的人将生成式AI应用投入生产部署。

令人惊讶的是,有16%的人指出他们的组织禁止员工使用,尽管随着公司处理数据隐私问题和企业版生成式AI模型的出现,这种做法正在减少。

使用生成式AI的实验应该涉及业务的核心方面。一家积极用生成式AI进行研发实验的公司是环球音乐。公司对这项技术的浓厚兴趣并不奇怪,因为生成式AI可以创作音乐、编写歌词、模仿艺术家的声音。环球正在探索如何在保护艺术家知识产权的同时使用生成式AI。它还在进行另一个实验,使用环球艺术家的声音(得到他们的许可和参与)创作AI版本的歌曲。公司还对一个AI提供商采取了法律行动,以保护其艺术家的版权。

政策和概念验证可以有用,但它们不产生经济价值。

为了让生成式AI对公司真正有价值,它们需要用自己的数据定制供应商的语言或图像模型,并做好内部数据准备工作以便整合。

数据准备是成功的关键

生成式AI使用的相对非结构化数据需要精心策划,确保其准确性、新颖性、独特性和其他属性,如果使用这些数据的生成式AI模型才会非常有用。内部数据质量差将导致生成式AI模型反馈的质量差。

我们调查中的许多数据领导者都反映了这一挑战:46%的人将“数据质量”确定为实现生成式AI潜力的最大挑战。

摩根士丹利财富管理的首席数据、分析和创新官杰夫·麦克米伦描述了一些涉及的问题:

“每一份研究内容都必须由注册合规人员审查,所以我们知道培训内容的质量非常高。即使在非研究内容中,我们也有一个团队对单个提交评分,涉及标签要求、链接是否损坏、是否有前言总结等,我们会给每份文档打分。

我们还必须花很多时间考虑不同的内容集和优化结果……这些大型语言模型不能解决不同数据来源的问题。公司需要在尝试使用生成式AI获取数据之前,解决数据整合和掌握的问题。”

大多数数据领导者尚未开始在他们的数据策略中进行必要的改变。尽管93%的调查应答者同意数据策略对从生成式AI中获得价值至关重要,但57%的人表示他们的组织的数据迄今为止没有变化。只有37%的人同意——且只有11%的人强烈同意——他们的组织拥有适合生成式AI的正确数据基础。换句话说,

大多数组织在广泛应用生成式AI方面还有大量工作要做。

那些开始进行变革的数据领导者专注于几项具体任务。四分之一的组织正在进行数据整合或清理数据集。18%的人正在调查可能支持使用生成式AI的数据。还有17%的人在策划文档或文本以准备用于特定领域的生成式AI模型。

默克集团的集团首席数据和AI官瓦利德·梅汉纳强调了几种类型的数据准备的重要性:“如果我们要做AI,我们需要在混凝土上建造,而不是流沙上。我们正在使流程和数据供应处于良好状态。我们正在处理数据清单和目录、具有新数据结构和元数据层的数据织物、数据管道以及临时自助服务洞察生成。我们相信生成式AI将是未来从数据中创造洞察力的关键方式。”

赛诺菲的研发首席数据官拉杰·尼玛加达也表示,公司正在为生成式AI准备数据,并告诉我们

成功的生成式AI“取决于高质量、‘业务就绪’的数据,这些数据是由坚实的数据基础、数据治理和标准指导的。”他说,赛诺菲目前正在投资构建这些核心能力,以支持其研发。

就像数据转换一般,对大多数组织而言,策划、清理和整合所有非结构化数据以用于生成式AI应用将是一项巨大的努力。因此,大多数公司应该专注于他们预期将在不久的将来实施生成式AI的特定数据领域。公司可能需要较长时间才能使用生成式AI并从中创造价值。

在调查中,数据领导者优先发展生成式AI的商业领域依次是:客户操作(如客服或聊天机器人)、软件工程/代码生成、营销和销售活动(如个性化营销活动或销售优惠)以及研发/产品设计和开发。许多组织还在追求整体个人生产力应用的生成式AI,但这不太可能涉及特定的数据领域。

现在就是开始的时候

虽然我们认为数据领导者应该加快准备他们的数据以用于生成式AI的步伐,但我们也认识到还有其他重要的数据项目,包括改进交易数据和使数据可用于传统分析和机器学习应用。事实上,这种步伐有些缓慢的一个原因可能是71%的CDO同意“生成式AI很有趣,但我们更专注于其他数据计划以提供更有形的价值”。

鉴于对生成式AI的高度热情,这一调查结果有些令人惊讶。在2022年的调查中,CDO面临迅速交付价值的压力,但也需要促进生成式AI的实施。我们怀疑他们从管理和改进结构化数据到非结构化内容的转变有些缓慢。此外,关于谁应该领导公司内生成式AI的竞争也存在;CDO正在与CIO、CTO和首席数字官争夺这项新兴技术的领导权。

如果生成式AI将改变组织,那么等待开始准备数据是没有意义的。我们——以及大多数调查应答者——都同意生成式AI是一项变革性能力。让一个大组织的重要数据为AI做好准备可能需要几年时间。现在就是开始的时候。

这篇关于数据质量与策略:解锁生成式AI潜力的关键步骤的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/921765

相关文章

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

鸿蒙中Axios数据请求的封装和配置方法

《鸿蒙中Axios数据请求的封装和配置方法》:本文主要介绍鸿蒙中Axios数据请求的封装和配置方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.配置权限 应用级权限和系统级权限2.配置网络请求的代码3.下载在Entry中 下载AxIOS4.封装Htt

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S