5G时代下端侧AI势必大火!阿里技术专家在线解读

2024-03-17 04:18

本文主要是介绍5G时代下端侧AI势必大火!阿里技术专家在线解读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

嘉宾|吕承飞(吕行) 

出品|InfoQ&阿里巴巴新零售淘系技术部

嘉宾简介:吕承飞(花名:吕行),阿里巴巴资深无线开发专家。2013 年加入淘宝,经历手机淘宝超级 App 技术演化完整过程,主导手淘 iOS 架构升级、架构治理、稳定性以及性能等相关工作。2017 年开始端侧 AI 方向探索,现负责端智能团队,构建开源端侧推理引擎 MNN,淘宝 AR 技术框架和美妆 AR 等创新应用,端计算技术框架和搜索推荐等创新应用。

前言


人工智能发展已进入“落地为王”阶段,端侧 AI 相比云侧 AI,具有低延时、保护数据隐私、节省云端计算资源等优势,现已成为端侧技术新热点,并且紧贴用户在 AR 特效、搜索推荐等方面有诸多创新应用。近日,阿里巴巴淘系技术部资深无线开发专家吕承飞(吕行)受 InfoQ 邀约,为大家介绍端侧 AI 的现状以及在阿里的实践。本文将回顾端侧 AI 的发展过程,以阿里端侧 AI 发展为例展望端侧 AI 的未来。

在将于 7 月份举行的 GMTC 北京 2020 上,吕承飞(吕行)老师作为“端侧 AI ”的专题出品人,策划了端侧 AI 专题的方向,将为大家介绍前沿的端侧 AI 创新应用、端侧 AI 技术、端侧 AI 开放能力,让大家在听完之后能结合自己业务快速上手,创造无限可能。

端侧 AI 介绍和发展回顾


▐  端侧 AI 正从尝试应⽤变成驱动业务创新的核⼼推动⼒之⼀

AI 在智能⼿机和智能设备中应⽤越来越广泛,⽐如短视频 App 中的 AR 特效、⼈脸⻔禁等。

随着端上算⼒不断增强和算法快速发展,特别是模型压缩技术和⼩模型算法设计不断成熟,在端侧运⾏算法模型成为可能。

端侧 AI 简单说就是在终端设备做机器学习算法应⽤,这⾥“终端设备”主要是指⼿机,当然也包括不断出现的各种智能设备和 IoT 设备。⽬前,端侧 AI 主要是推理运⾏,当然也慢慢出现了在终端设备做训练,⽐如联合学习、迁移学习等。相较于云侧 AI,端侧 AI 具有低延时、兼顾数据隐私、节省云端计算资源,以及不依赖⽹络提供稳定服务等显著优势。

自 2017 年以来,端侧 AI 在底层技术和业务应⽤等⽅⾯都取得了快速发展,逐渐从尝试性应⽤变成驱动业务创新的核⼼推动⼒之⼀。

基于端侧 AI 的⼈脸检测、⼈体姿态、⼿势等算法补⻬了 AR 特效中的交互能⼒,从⽽可以实现各种有趣好玩的 AR 应⽤,且在短视频 App 中⼴泛应⽤。基于端侧 AI 的实时⽤户感知和理解能⼒,对于搜索推荐、安全⻛控、系统优化等业务都有帮助。在智能硬件 IoT 领域、⼈脸考勤机、 智能⻔禁锁,以及⻋载 ADAS 等应⽤也都跟端侧 AI 相关。

从技术发展来看:

  • 端侧推理引擎逐步成熟,基本解决了算法模型在端侧能不能跑的问题,⽽且国内框架相⽐国外具有普遍的优势。国内开源的 NCNN、MNN、MACE 以及 Paddle-Lite 等经过不断打磨优化已经做的⾮常不错。国外 TFLite 和 Pytorch 也开始重视端侧推理,重点投⼊,性能等提升明显。

  • 除推理引擎之外,端侧 AI 应⽤和部署仍存在较⾼⻔槛,⾏业公司逐步有⼀些尝试。⽐如,阿⾥淘系在 2020 年 3 ⽉开放 MNNKit,包含⼈脸检测、⼿势识别等算法能⼒。百度和⼩⽶也有计划开源多种算法模型,⽐如,百度最近开源的含⼝罩⼈脸检测及分类模型。另外,华为通过⼀站式开发平台 ModelArts 希望实现端、边、云全场景的 AI 部署。

总的来说,虽然端侧 AI ⽬前仍处于发展初期,但是相关应⽤已经展示出其巨⼤潜⼒,希望更多⼈能够了解和应⽤这项技术。这也是我们本次⼤会端侧 AI 专题的价值,通过介绍端侧 AI 最新技术进展和⾏业案例,给⼴⼤开发人员提供参考,从⽽使他们能结合⾃⼰业务场景进⾏探索和尝试,获得业务突破。

阿⾥端侧 AI 发展状况


▐  端侧 AI 业务应⽤场景逐步增多并取得明确价值,开源推理引擎 MNN

最早从 2016 年开始公司内部就有业务尝试端侧 AI 能⼒,并在 2017 年开始有计划的建设和探索端侧 AI ⽅向,包括我⾃⼰和所在的 MNN 团队,也是从那个时候开始尝试端侧 AI ,经过这⼏年的发展,端侧 AI 已经成为移动 App 的基础能⼒,助⼒业务发展和创新突破,并且也取得了不错的业务结果。

⽬前,公司⾥绝⼤多数移动 App 都有使⽤端侧 AI,2019 年初统计使⽤ MNN 的 App 就超过 20 个。以⼿淘为例分享⼏个数据:10 多个场景应⽤,超过 25 个模型运⾏,每天运⾏机器学习和深度学习算法次数超过 500 亿次。

应⽤场景

  • ⼿淘信息流推荐

基于端侧 AI 技术可以实现更加实时的⽤户意图识别,做出更加精准的内容推荐,甚⾄在端上训练实现“千⼈千模”,有效提升了原有个性化推荐技术,该技术已在 2019 年双 11 中⼤规模应⽤并取得不错业务结果。对信息流的点击量和 GMV 都带来了明显提升。

  • ⼿淘美妆 AR

基于端侧 AI 的⼈脸检测能⼒结合 AR 应⽤可以给消费者更加真实的购物体验。2019 年双 11 美妆⾏业推出的 AR 在线试妆功能,能够让⽤户模拟上妆,有效提升了线上购物体验。

除此之外,⽀付宝扫福、⼿淘拍⽴淘、智能 Push 以及闲⻥智能发布等都是端侧 AI 的典型应⽤。

技术建设

总体来说,因为我们起步早,体系也相对完整,技术结果显著。基本已经解决算法模型在端侧能不能跑以及跑得好、跑得快等问题,现在我们正在解决规模化应⽤和业务创新快速验证的问题。具体从如下⼏⽅⾯简单来说:

  • 端侧推理引擎

我们有开源推理引擎  MNN,以及⽀付宝定制化引擎 xNN,在性能优化、 异构多机型适配,模型压缩等⽅⾯有⽐较多积累,⽬前也已具备训练能⼒并⽀撑业务端上训练任务。

  • 端 AI 算法能⼒

公司各算法团队已经沉淀⼈脸检测、⼿势识别、⼈体⻣骼、OCR 等常⽤能⼒,并且构建统⼀开箱即⽤算法集⽀撑业务快速接⼊应⽤。

  • 端 AI ⼯作台和研发体系

淘系技术团队正在探索和建设⼀站式端侧 AI ⼯作平台"MNN⼯作台",降低端侧 AI 应⽤⻔槛,实现业务快速创新试错。

端侧 AI 未来展望


▐  端侧 AI 仍处于⼤规模应⽤爆发前夜,未来结合 AR、IoT 等技术迎来更⼤发展

端侧 AI 的应⽤会向更⼤范围、更多领域铺开并切实给业务带来价值。从⼤公司尝鲜到普通公司逐步推开,它会真正成为⼀项基础能⼒;从视觉算法到⼤数据、⾃然语⾔处理、语⾳等更多算法领域的应用,例如:⾕歌发布的 ALBERT 在移动端部署应⽤已经成为可能;从智能硬件到 IoT 设备,近来 TinyML 技术也在不断成熟,正在成为新的蓝海,具体可以参⻅ TinyML2020 有关内容。

端侧 AI 相⽐云侧 AI ⼀站式机器学习平台整体技术体系还不够完善,针对⾮专业算法同学如何能够⾃主解决数据和算法问题产出模型,针对⼤前端和算法同学如何提⾼协同效率等些问题的解决势必会进⼀步推动整个端侧 AI 的发展。淘系内部基于 MNN 正在构建端侧 AI 的完整研发体系,包括端 AI 运⾏时 +⼯作台 + 服务端,后续也会逐步向业界开放,⼀起让端侧 AI 获得更⼤发展。

5G 技术已经到来,我觉得 5G 技术的发展也会促进端侧 AI 的发展。举例来说,5G 来了,⾳视频数据会进⼀步膨胀,当⽹络不是瓶颈,服务端算⼒就会成为瓶颈,那么本地的视频内容理解、预处理就显得尤为重要,更实时、更低成本的⽅案肯定会被应⽤,业界有些公司已经开始⾏动。结合 AR 来说,端侧 AI 补充了 AR 的交互能⼒,5G 补充了 AR ⽹络传输能⼒,让⾼质量的 AR 素材传输变成可能。那么,结合 5G + 端侧 AI + AR 技术可能会出现⼀些有意思的应⽤。

总的来说,端侧 AI 经过⼏年发展,虽然在技术建设和业务应⽤都有了⼀些进展,但仍处于⼤规模应⽤爆发前夜。随着算⼒和算法不断进步,应⽤⻔槛的不断降低,结合 AR、视频、5G 以及 IoT 等技术,端侧 AI 必将迎来更⼤的发展。

We are hiring

淘宝基础平台部-端智能团队欢迎移动端计算优化工程师和推理引擎架构师的加入。对新技术感兴趣,善于创新突破,渴望用新技术给用户带来创新体验的同学请联系我们。

简历投递至吕行:chengfei.lcf@alibaba-inc.com

扫描下方二维码了解详情

END

了解 MNN 

点击下方图片即可阅读

火爆专场 干货来袭 | 淘宝端智能演进和思考

重磅| 淘宝轻量级的深度学习端侧推理引擎 MNN 开源

这篇关于5G时代下端侧AI势必大火!阿里技术专家在线解读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/817772

相关文章

Redis与缓存解读

《Redis与缓存解读》文章介绍了Redis作为缓存层的优势和缺点,并分析了六种缓存更新策略,包括超时剔除、先删缓存再更新数据库、旁路缓存、先更新数据库再删缓存、先更新数据库再更新缓存、读写穿透和异步... 目录缓存缓存优缺点缓存更新策略超时剔除先删缓存再更新数据库旁路缓存(先更新数据库,再删缓存)先更新数

C#反射编程之GetConstructor()方法解读

《C#反射编程之GetConstructor()方法解读》C#中Type类的GetConstructor()方法用于获取指定类型的构造函数,该方法有多个重载版本,可以根据不同的参数获取不同特性的构造函... 目录C# GetConstructor()方法有4个重载以GetConstructor(Type[]

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

电力系统中的A类在线监测装置—APView400

随着电力系统的日益复杂和人们对电能质量要求的提高,电能质量在线监测装置在电力系统中得到广泛应用。目前,市场上的在线监测装置主要分为A类和B类两种类型,A类和B类在线监测装置主要区别在于应用场景、技术参数、通讯协议和扩展性。选择时应根据实际需求和应用场景综合考虑,并定期维护和校准。电能质量在线监测装置是用于实时监测电力系统中的电能质量参数的设备。 APView400电能质量A类在线监测装置以其多核

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推