入选Gartner全球AI魔力象限,阿里云解读AI工程化为什么需具备这三大基础能力?...

本文主要是介绍入选Gartner全球AI魔力象限,阿里云解读AI工程化为什么需具备这三大基础能力?...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:机器之心本文约3600字,建议阅读8分钟本文针对 AI 工程化落地的实践经验,阿里云给出了需要具备的三大基础能力:平台云原生化、模型超大规模化、AI 服务场景化。

 

2021 年,AI 工程化的未来令人充满期待。

Gartner 将「AI 工程化」列为 2021 年度九大重要战略科技趋势之一。在 Gartner 看来,只有 53% 的项目能够从 AI 原型转化为生产。AI 要成为企业生产力,就必须以工程化的技术来解决模型开发、部署、管理、预测等全链路生命周期管理的问题。

也就是说,如果没有 AI 工程,企业无法将 AI 项目从概念证明和原型转移到全面生产。那么对需要用到 AI 的企业来说,该选择什么样的方式和服务商来获得 AI 工程化能力?

 

权威市场报告是一份不错的参考。Gartner 最新发布了两份 AI 魔力象限《Magic Quadrant for Data Science and Machine Learning Platforms(数据科学与机器学习平台)》(下称 「DSML 报告」)和《Magic Quadrant for Cloud AI Developer Services(云 AI 开发者服务)》(下称「CAIDS」 报告),对全球厂商进行了年度评估。这两份报告可以看作是 AI 工程化领域的盘点,给予希望选择正确的 DSML 和 CAIDS 解决方案,并提升 AI 生产力的企业以权威的参考。

从厂商分布格局来看,阿里云成为 DSML 报告 4 年历史以来首个入选的中国厂商;CAIDS 报告中,阿里云、百度云、腾讯云都进入报告,其中阿里云成为唯一跻身远见者象限的中国厂商。

 

这意味着,阿里云凭借产品矩阵、技术实力、商业化能力以及开发者服务等优势,在帮助企业建设 AI 工程化这件事上取得了先机。

 

针对 AI 工程化落地的实践经验,阿里云给出的答案是具备三大基础能力:平台云原生化、模型超大规模化、AI 服务场景化。

平台云原生化

 

AI 工程化落地的首个基础能力就是平台云原生化。其实 AI 平台的构建有很多实现方法,但云原生是目前最普适的方法。因为云原生门槛不高,没有具体限制技术选型,尤其是它所倡导的开放、弹性和生态等原则可以迅速拉低 AI 平台的实现门槛。 

  • 开放意味着需要把 OpenAPI 放到产品的第一优先级来考虑,支持用户和其他云产品通过 OpenAPI 访问产品所有功能,可以被第二方和第三方厂商工具自由集成;同时能够擅于调用其他云上产品来构建自己的服务,比如云上数据库 RDS、云日志服务 SLS 等。

  • 弹性是在设计之初就要设想产品的规模大小,物理资源尽量不要自建,充分利用云的弹性。

  • 生态有两层含义,一是与业界开源社区保持合作,尽量不要重复造轮子和发明新规范,二是开放的内容生态,能够吸引个人开发者和企业共同建设 AI 平台,繁荣生态。

接着再来看机器学习领域,特别是现在热门的深度学习,平台需要的大算力主要依靠异构计算硬件来完成。典型例子就是 NVIDIA GPU 卡,但是自建 GPU 机房成本很高,并且配套的软件环境也会非常复杂,不易运维。

 

这个时候,云原生可以很好地解决这个问题:基于开放的容器化技术,仅需开发一次,就可以批量复制软件环境,灵活部署,有利于 DevOps 的实践。同时,机器学习中的 MLOps 强调模型效果的可复现性,容器技术一键打包所有配置和参数,确保环境的一致性,大大提高了开发效率。

 

从应用角度来看,机器学习模型构建和训练只是业务系统中的一环,需要与企业的其他系统集成,这就对机器学习平台的 OpenAPI 服务部署提出了更高的要求。

也就是说,云原生强调的统一部署、标准化、OpenAPI、弹性等要素都非常契合当下机器学习平台的环境复杂、需要快速迭代等特点,AI 平台云原生化是技术发展和市场发展的需求。

阿里云机器学习 PAI 已经全面拥抱云原生,通过与阿里云 IaaS 的产品无缝对接,充分利用云资源的弹性能力,遵循阿里云 OpenAPI 规范,开放 API、SDK 和命令行,保证 GPU 卡的弹性调度,降低客户自建 GPU 环境的复杂度和成本,为其提供灵活、易用和功能丰富的机器学习全栈产品。

 

依托云原生技术,PAI 平台陆续完善 EAS 云原生弹性推理服务平台、DSW 云原生交互式建模平台、DLC 云原生 AI 基础平台后,可实现 100% 兼容开源的轻量化、小型化灵活输出。一个典型的例子是 PAI-DSW 的用户可以轻松拿到一个完全配置好的机器学习环境,并且每次登录环境都保持一致。

模型超大规模化

机器学习平台对超大规模模型的支持能力一定程度反应了其自身的成熟程度,是其支持 AI 业务模型和能力升级的体现。这也是模型超大规模化成为 AI 工程化落地第二个基础能力的主要因素。

 

2021 年初,阿里云机器学习 PAI、达摩院智能计算实验室联合清华大学共同开发了业界最大规模的中文多模态预训练模型 M6。该模型参数规模超千亿,具备超越传统 AI 的文本、图像的理解和生成能力,图像设计效率超越人类,可应用于产品设计、信息检索、机器人对话、文学创作等领域。以图像生成为例,模型可设计包括服饰、鞋类、家具等 30 多个物品类别的图像,最短可以在一分钟内完成作品创作。

 

千亿多模态预训练模型对当前深度学习框架提出来很多挑战,包括模型计算效率、模型分布式训练性能、数据 IO、模型训练收敛性等。针对这些挑战,PAI 团队自研了 Whale 分布式训练框架,在计算效率、通信效率、显存消耗等多个方面进行了深度优化,从而帮助千亿多模态预训练模型快速迭代训练。

这背后的技术实现是:Whale 分布式训练框架基于 Graph IR,针对数据并行、模型并行、流水并行、混合并行等多种并行模型进行了统一架构设计,并对用户提供并行策略原语,用户在仅仅添加几行 API 调用的情况下就可以实现丰富的分布式并行策略。同时,Whale 实现了包括自动 Gradient Checkpointing、Optimizer 峰值显存优化、通信分组和线程池技术、混合精度、编译优化等优化技术。算法同学不需要修改模型代码,只需添加简单几行的 API 调用就可以快速构建高效的分布式训练任务。

 

在千亿多模态预训练模型这个任务上,PAI 团队和算法建模同学进行了紧密的合作。模型结构上,借鉴近期 Gshard 和 switch transformer 等工作,M6 模型实现中加入了 Gshard 的 Mixture-of-Experts 设计。

 

借助 Whale 分布式训练框架,M6 首次在 2 天以内完成 1 亿样本的预训练,相比于 OpenAI 整个任务训练成本大幅下降;在语言模型实验上,M6 对比同等 flops 的非 MoE 模型能够实现语言模型困惑度(PPL)的显著降低;在中文图文描述的下游任务实验上,M6 生成的准确率对比 baseline 取得 19.2% 的提升,对比百亿 M6 还能取得约 12.1% 的提升。 

稠密模型的复杂度急剧提升,直观的表现是模参数越来越多,规模越来越大,需要的硬件资源(内存、GPU)越来越多,不利于模型的部署和应用推广,因此需要更小、更精炼的模型。

模型蒸馏是一种优化的思路,能将训练好的复杂模型迁移到结构更为简单的网络中。PAI-EasyTexMiner 知识蒸馏具备了将大规模预训练模型蒸馏到小模型上的能力,且在阿里不同的场景业务中取得了不错的效果。例如,大家每天都使用的淘宝客服机器人“阿里小蜜“,在热线意图识别方面,通过知识蒸馏,在效果基本一致的前提下,模型大幅简化,推理效率提升了 8.5 倍。

和稠密模型蒸馏出小模型不同,超大规模稀疏模型备受关注是训练能力。PAI-TensorFlow 超大规模分布式训练能力,支持万亿样本、千亿特征规模的模型训练。针对稀疏模型场景,PAI 团队在通信、图优化、算子、Runtime 等方面进行了深度性能优化,提供稀疏场景下的动态弹性特征、特征淘汰及准入、增量模型加载及更新等能力,支撑阿里巴巴核心的搜索、推荐、广告业务场景的同时,支持了大量公共云稀疏场景下的模型训练及预测。在某公共云业务场景中,PAI-TensorFlow 对比开源 TensorFlow 训练性能提升 10 倍以上,并基于动态弹性特征及增量模型更新的能力,实现了稀疏场景下 Online DeepLearning 秒级模型更新的能力。

可以看到,无论是业界最大规模的中文多模态预训练模型 M6 还是超大规模稀疏模型领先于业界数倍的训练能力,阿里云通过不同方式将稠密模型和稀疏模型的工程化能力输出给用户。

AI 服务场景化

AI 工程化如何把 AI 转化为生产力?行业 AI 落地是第三条必不可少的能力。也就是说,AI 服务要与场景结合,你不仅要懂 AI、更要懂行业。

 

只是,行业 AI 想要做好落地,并没有那么简单。

 

企业一般有定制 AI 模型和通用 AI 模型两种选择,前者购买后无法实现自我迭代,行业数据复杂度高、专家知识难以有效传承等因素导致相似项目难以简单复用;后者具有局限性,不支持行业特定业务需求。

 

针对这些问题,依托阿里巴巴内部电商、金融、游戏、直播等多个业务场景,PAI 在推荐、广告、用户增长、金融风控、音视频文本多模态等个性化场积累了丰富的实战经验及企业级 AI 解决方案。同时,也沉淀了大量成熟算法、框架及工程化组件。在阿里云,这些能力称之为原子能力。PAI 平台提供的这些原子能力,可以帮助用户更快地孵化和构建新场景业务。

如今,PAI 的行业场景化服务通过阿里云开放给所有企业。通过场景化插件,企业只需要按标准的数据接口接入就可以轻松完成整个建模链路,带来业务效率的快速提升。

例如在众多互联网客户中被广泛应用的 PAI 智能推荐解决方案,可以帮助企业开发者 10 天左右快速搭建企业级智能推荐系统。平台提供了 GraphSage、DeepFM、DIN 等业内经典推荐类算法,企业客户可以获得从召回到排序的全链路白盒化推荐能力,自主可控的掌握推荐业务的全部核心技术环节。

除了互联网行业之外,PAI 还支持金融、教育、城市管理等行业场景,提供专家服务,贴身结合企业业务场景和痛点提供定制 AI 方案。通过 PAI 模型的持续迭代优化,某城市大脑成功地完成了企业变更风险预测、食品抽检风险预测、执法人员画像、职业打假预警等市场监管模型,提升了市场监管的效率,有效降低各个场景的风险。

总结来说,平台云原生化、模型超大规模化、AI 服务场景化是 AI 工程化落地具备的三大基础能力,阿里云依托云原生能力,提供灵活组合的机器学习平台,提升 AI 工程效率的同时,帮助企业将 AI 转化为生产力。

编辑:王菁

校对:林亦霖

这篇关于入选Gartner全球AI魔力象限,阿里云解读AI工程化为什么需具备这三大基础能力?...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901200

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/