入选Gartner全球AI魔力象限,阿里云解读AI工程化为什么需具备这三大基础能力?...

本文主要是介绍入选Gartner全球AI魔力象限,阿里云解读AI工程化为什么需具备这三大基础能力?...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:机器之心本文约3600字,建议阅读8分钟本文针对 AI 工程化落地的实践经验,阿里云给出了需要具备的三大基础能力:平台云原生化、模型超大规模化、AI 服务场景化。

 

2021 年,AI 工程化的未来令人充满期待。

Gartner 将「AI 工程化」列为 2021 年度九大重要战略科技趋势之一。在 Gartner 看来,只有 53% 的项目能够从 AI 原型转化为生产。AI 要成为企业生产力,就必须以工程化的技术来解决模型开发、部署、管理、预测等全链路生命周期管理的问题。

也就是说,如果没有 AI 工程,企业无法将 AI 项目从概念证明和原型转移到全面生产。那么对需要用到 AI 的企业来说,该选择什么样的方式和服务商来获得 AI 工程化能力?

 

权威市场报告是一份不错的参考。Gartner 最新发布了两份 AI 魔力象限《Magic Quadrant for Data Science and Machine Learning Platforms(数据科学与机器学习平台)》(下称 「DSML 报告」)和《Magic Quadrant for Cloud AI Developer Services(云 AI 开发者服务)》(下称「CAIDS」 报告),对全球厂商进行了年度评估。这两份报告可以看作是 AI 工程化领域的盘点,给予希望选择正确的 DSML 和 CAIDS 解决方案,并提升 AI 生产力的企业以权威的参考。

从厂商分布格局来看,阿里云成为 DSML 报告 4 年历史以来首个入选的中国厂商;CAIDS 报告中,阿里云、百度云、腾讯云都进入报告,其中阿里云成为唯一跻身远见者象限的中国厂商。

 

这意味着,阿里云凭借产品矩阵、技术实力、商业化能力以及开发者服务等优势,在帮助企业建设 AI 工程化这件事上取得了先机。

 

针对 AI 工程化落地的实践经验,阿里云给出的答案是具备三大基础能力:平台云原生化、模型超大规模化、AI 服务场景化。

平台云原生化

 

AI 工程化落地的首个基础能力就是平台云原生化。其实 AI 平台的构建有很多实现方法,但云原生是目前最普适的方法。因为云原生门槛不高,没有具体限制技术选型,尤其是它所倡导的开放、弹性和生态等原则可以迅速拉低 AI 平台的实现门槛。 

  • 开放意味着需要把 OpenAPI 放到产品的第一优先级来考虑,支持用户和其他云产品通过 OpenAPI 访问产品所有功能,可以被第二方和第三方厂商工具自由集成;同时能够擅于调用其他云上产品来构建自己的服务,比如云上数据库 RDS、云日志服务 SLS 等。

  • 弹性是在设计之初就要设想产品的规模大小,物理资源尽量不要自建,充分利用云的弹性。

  • 生态有两层含义,一是与业界开源社区保持合作,尽量不要重复造轮子和发明新规范,二是开放的内容生态,能够吸引个人开发者和企业共同建设 AI 平台,繁荣生态。

接着再来看机器学习领域,特别是现在热门的深度学习,平台需要的大算力主要依靠异构计算硬件来完成。典型例子就是 NVIDIA GPU 卡,但是自建 GPU 机房成本很高,并且配套的软件环境也会非常复杂,不易运维。

 

这个时候,云原生可以很好地解决这个问题:基于开放的容器化技术,仅需开发一次,就可以批量复制软件环境,灵活部署,有利于 DevOps 的实践。同时,机器学习中的 MLOps 强调模型效果的可复现性,容器技术一键打包所有配置和参数,确保环境的一致性,大大提高了开发效率。

 

从应用角度来看,机器学习模型构建和训练只是业务系统中的一环,需要与企业的其他系统集成,这就对机器学习平台的 OpenAPI 服务部署提出了更高的要求。

也就是说,云原生强调的统一部署、标准化、OpenAPI、弹性等要素都非常契合当下机器学习平台的环境复杂、需要快速迭代等特点,AI 平台云原生化是技术发展和市场发展的需求。

阿里云机器学习 PAI 已经全面拥抱云原生,通过与阿里云 IaaS 的产品无缝对接,充分利用云资源的弹性能力,遵循阿里云 OpenAPI 规范,开放 API、SDK 和命令行,保证 GPU 卡的弹性调度,降低客户自建 GPU 环境的复杂度和成本,为其提供灵活、易用和功能丰富的机器学习全栈产品。

 

依托云原生技术,PAI 平台陆续完善 EAS 云原生弹性推理服务平台、DSW 云原生交互式建模平台、DLC 云原生 AI 基础平台后,可实现 100% 兼容开源的轻量化、小型化灵活输出。一个典型的例子是 PAI-DSW 的用户可以轻松拿到一个完全配置好的机器学习环境,并且每次登录环境都保持一致。

模型超大规模化

机器学习平台对超大规模模型的支持能力一定程度反应了其自身的成熟程度,是其支持 AI 业务模型和能力升级的体现。这也是模型超大规模化成为 AI 工程化落地第二个基础能力的主要因素。

 

2021 年初,阿里云机器学习 PAI、达摩院智能计算实验室联合清华大学共同开发了业界最大规模的中文多模态预训练模型 M6。该模型参数规模超千亿,具备超越传统 AI 的文本、图像的理解和生成能力,图像设计效率超越人类,可应用于产品设计、信息检索、机器人对话、文学创作等领域。以图像生成为例,模型可设计包括服饰、鞋类、家具等 30 多个物品类别的图像,最短可以在一分钟内完成作品创作。

 

千亿多模态预训练模型对当前深度学习框架提出来很多挑战,包括模型计算效率、模型分布式训练性能、数据 IO、模型训练收敛性等。针对这些挑战,PAI 团队自研了 Whale 分布式训练框架,在计算效率、通信效率、显存消耗等多个方面进行了深度优化,从而帮助千亿多模态预训练模型快速迭代训练。

这背后的技术实现是:Whale 分布式训练框架基于 Graph IR,针对数据并行、模型并行、流水并行、混合并行等多种并行模型进行了统一架构设计,并对用户提供并行策略原语,用户在仅仅添加几行 API 调用的情况下就可以实现丰富的分布式并行策略。同时,Whale 实现了包括自动 Gradient Checkpointing、Optimizer 峰值显存优化、通信分组和线程池技术、混合精度、编译优化等优化技术。算法同学不需要修改模型代码,只需添加简单几行的 API 调用就可以快速构建高效的分布式训练任务。

 

在千亿多模态预训练模型这个任务上,PAI 团队和算法建模同学进行了紧密的合作。模型结构上,借鉴近期 Gshard 和 switch transformer 等工作,M6 模型实现中加入了 Gshard 的 Mixture-of-Experts 设计。

 

借助 Whale 分布式训练框架,M6 首次在 2 天以内完成 1 亿样本的预训练,相比于 OpenAI 整个任务训练成本大幅下降;在语言模型实验上,M6 对比同等 flops 的非 MoE 模型能够实现语言模型困惑度(PPL)的显著降低;在中文图文描述的下游任务实验上,M6 生成的准确率对比 baseline 取得 19.2% 的提升,对比百亿 M6 还能取得约 12.1% 的提升。 

稠密模型的复杂度急剧提升,直观的表现是模参数越来越多,规模越来越大,需要的硬件资源(内存、GPU)越来越多,不利于模型的部署和应用推广,因此需要更小、更精炼的模型。

模型蒸馏是一种优化的思路,能将训练好的复杂模型迁移到结构更为简单的网络中。PAI-EasyTexMiner 知识蒸馏具备了将大规模预训练模型蒸馏到小模型上的能力,且在阿里不同的场景业务中取得了不错的效果。例如,大家每天都使用的淘宝客服机器人“阿里小蜜“,在热线意图识别方面,通过知识蒸馏,在效果基本一致的前提下,模型大幅简化,推理效率提升了 8.5 倍。

和稠密模型蒸馏出小模型不同,超大规模稀疏模型备受关注是训练能力。PAI-TensorFlow 超大规模分布式训练能力,支持万亿样本、千亿特征规模的模型训练。针对稀疏模型场景,PAI 团队在通信、图优化、算子、Runtime 等方面进行了深度性能优化,提供稀疏场景下的动态弹性特征、特征淘汰及准入、增量模型加载及更新等能力,支撑阿里巴巴核心的搜索、推荐、广告业务场景的同时,支持了大量公共云稀疏场景下的模型训练及预测。在某公共云业务场景中,PAI-TensorFlow 对比开源 TensorFlow 训练性能提升 10 倍以上,并基于动态弹性特征及增量模型更新的能力,实现了稀疏场景下 Online DeepLearning 秒级模型更新的能力。

可以看到,无论是业界最大规模的中文多模态预训练模型 M6 还是超大规模稀疏模型领先于业界数倍的训练能力,阿里云通过不同方式将稠密模型和稀疏模型的工程化能力输出给用户。

AI 服务场景化

AI 工程化如何把 AI 转化为生产力?行业 AI 落地是第三条必不可少的能力。也就是说,AI 服务要与场景结合,你不仅要懂 AI、更要懂行业。

 

只是,行业 AI 想要做好落地,并没有那么简单。

 

企业一般有定制 AI 模型和通用 AI 模型两种选择,前者购买后无法实现自我迭代,行业数据复杂度高、专家知识难以有效传承等因素导致相似项目难以简单复用;后者具有局限性,不支持行业特定业务需求。

 

针对这些问题,依托阿里巴巴内部电商、金融、游戏、直播等多个业务场景,PAI 在推荐、广告、用户增长、金融风控、音视频文本多模态等个性化场积累了丰富的实战经验及企业级 AI 解决方案。同时,也沉淀了大量成熟算法、框架及工程化组件。在阿里云,这些能力称之为原子能力。PAI 平台提供的这些原子能力,可以帮助用户更快地孵化和构建新场景业务。

如今,PAI 的行业场景化服务通过阿里云开放给所有企业。通过场景化插件,企业只需要按标准的数据接口接入就可以轻松完成整个建模链路,带来业务效率的快速提升。

例如在众多互联网客户中被广泛应用的 PAI 智能推荐解决方案,可以帮助企业开发者 10 天左右快速搭建企业级智能推荐系统。平台提供了 GraphSage、DeepFM、DIN 等业内经典推荐类算法,企业客户可以获得从召回到排序的全链路白盒化推荐能力,自主可控的掌握推荐业务的全部核心技术环节。

除了互联网行业之外,PAI 还支持金融、教育、城市管理等行业场景,提供专家服务,贴身结合企业业务场景和痛点提供定制 AI 方案。通过 PAI 模型的持续迭代优化,某城市大脑成功地完成了企业变更风险预测、食品抽检风险预测、执法人员画像、职业打假预警等市场监管模型,提升了市场监管的效率,有效降低各个场景的风险。

总结来说,平台云原生化、模型超大规模化、AI 服务场景化是 AI 工程化落地具备的三大基础能力,阿里云依托云原生能力,提供灵活组合的机器学习平台,提升 AI 工程效率的同时,帮助企业将 AI 转化为生产力。

编辑:王菁

校对:林亦霖

这篇关于入选Gartner全球AI魔力象限,阿里云解读AI工程化为什么需具备这三大基础能力?...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901200

相关文章

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

MySQL中的锁和MVCC机制解读

《MySQL中的锁和MVCC机制解读》MySQL事务、锁和MVCC机制是确保数据库操作原子性、一致性和隔离性的关键,事务必须遵循ACID原则,锁的类型包括表级锁、行级锁和意向锁,MVCC通过非锁定读和... 目录mysql的锁和MVCC机制事务的概念与ACID特性锁的类型及其工作机制锁的粒度与性能影响多版本

Redis过期键删除策略解读

《Redis过期键删除策略解读》Redis通过惰性删除策略和定期删除策略来管理过期键,惰性删除策略在键被访问时检查是否过期并删除,节省CPU开销但可能导致过期键滞留,定期删除策略定期扫描并删除过期键,... 目录1.Redis使用两种不同的策略来删除过期键,分别是惰性删除策略和定期删除策略1.1惰性删除策略

MySQL中my.ini文件的基础配置和优化配置方式

《MySQL中my.ini文件的基础配置和优化配置方式》文章讨论了数据库异步同步的优化思路,包括三个主要方面:幂等性、时序和延迟,作者还分享了MySQL配置文件的优化经验,并鼓励读者提供支持... 目录mysql my.ini文件的配置和优化配置优化思路MySQL配置文件优化总结MySQL my.ini文件

Redis与缓存解读

《Redis与缓存解读》文章介绍了Redis作为缓存层的优势和缺点,并分析了六种缓存更新策略,包括超时剔除、先删缓存再更新数据库、旁路缓存、先更新数据库再删缓存、先更新数据库再更新缓存、读写穿透和异步... 目录缓存缓存优缺点缓存更新策略超时剔除先删缓存再更新数据库旁路缓存(先更新数据库,再删缓存)先更新数

C#反射编程之GetConstructor()方法解读

《C#反射编程之GetConstructor()方法解读》C#中Type类的GetConstructor()方法用于获取指定类型的构造函数,该方法有多个重载版本,可以根据不同的参数获取不同特性的构造函... 目录C# GetConstructor()方法有4个重载以GetConstructor(Type[]

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统