使用自动设备插件提高 AI 应用程序的性能和可移植性

本文主要是介绍使用自动设备插件提高 AI 应用程序的性能和可移植性,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:Shen, Wanglei     编译: 李翊玮

 

英特尔® OpenVINO™ 工具包中的新功能使您能轻松优化吞吐量或延迟,并帮助您一次编写,随处部署

人工智能的挑战之一是迎合各种能用于推理的各种计算设备。OpenVINO™工具包通过时序优化, 可充分利用各种处理器的优势如CPUGPU或视觉处理单元(VPU)并整合最终加快AI应用程序的速度。它降低不同架构编写导致其复杂性的门槛,同时使开发人员能够充分释放其目标平台的性能。

现在,随着OpenVINO2022.1版本,自动设备插件(AUTO)可以轻松定位不同的目标设备。自动选择最合适的目标设备,并对其进行适当配置,并确定延迟或吞吐量的优先级。新插件还加入了加速首次推理延迟的功能。

OpenVINO 工具包中的AUTO是什么?

自动设备插件(Automatic Device Plugin或简称AUTO)是OpenVINO中的新虚拟代理设备,不会直接绑定到特定类型的硬件设备。

当您选择AUTO作为目标推理平台时,OpenVINO会自动找出平台的加速器和硬件功能,并自动选择使用哪一个加速器和硬件来实现您的目标。您可以在配置 API 中提供提示,以告知 OpenVINO 根据应用程序优化延迟或吞吐量。

使用 AUTO 插件的好处包括:

  • 更快的开发出应用程序:使用 AUTO,应用程序无需包含用于检测、选择或配置计算设备的逻辑。
  • 改进的应用程序可移植性:由于应用程序不需要包含特定设备的专用代码,甚至不需要从列表中选择设备,因此应用程序的可移植性更高。如今,在其他平台上运行应用程序不仅更容易,而且还使应用程序能够在新一代硬件出来时立即迁移并马上使用其优势。
  • 更快的启动应用程序:AUTO 使应用程序能够使用 CPU 快速启动,而让其他目标平台(如 GPU)同步在加载 AI 网络。加载AI网络完毕后,AUTO 可以将推理切换到 GPU
  • 使用性能倾向性 (hints)而不是配置(configuration)使用 AUTO,无需提供特定设备的配置。反而,您可以体现性能提示以确定延迟或吞吐量的优先级。AUTO负责选择最佳设备。OpenVINO提供配置供开发人员选择,例如并行使用多个内核或使用大型任务队列。

如何在OpenVINO中配置AUTO

AUTOOpenVINO核心功能的一部分。要使用它,请选择“AUTO”作为设备名称,或者省略设备名称。

C++示例:

// 使用默认的设备候选列表将网络加载到 AUTO. // 
The following lines are equivalent:ov::CompiledModel model0 =
core.compile_model(model);ov::CompiledModel model1 = 
core.compile_model(model, “AUTO”);

 Python 示例:

compiled_model0 = core.compile_model(model=model)
compiled_model1 = core.compile_model(model=model, device_name="AUTO")

指定要使用的设备

AUTO有一个选项可以从您的首选设备中进行选择。例如,以下代码演示了只有CPU GPU AI网络执行可接受的唯一两个设备的方案。

C++示例:

// 指定 AUTO 在其选择过程中要使用的设备和优先级。// 
The following lines are equivalent (GPU is 1st priority to be 
used):ov::CompiledModel model3 = core.compile_model(model, 
“AUTO:GPU,CPU”);
ov::CompiledModel model4 = core.compile_model(model, “AUTO”, 
ov::device::priorities (“GPU,CPU”));

 Python 示例:

compiled_model3 = core.compile_model(model=model, device_name="AUTO:GPU,CPU")
compiled_model4 = core.compile_model(model=model, device_name="AUTO", config={"MULTI_DEVICE_PRIORITIES": "GPU,CPU"})

提供性能倾向功能

您还可以选择为 AUTO 提供延迟(Lantency)”吞吐量(Throughput)性能倾向性功能。然后,AUTO选择最佳的硬件设备和配置来实现您的目标。

C++示例:

//将网络加载到启用了性能提示的 AUTO。// 要使用 “吞吐量” 倾向模式
:ov::CompiledModel compiled_model = core.compile_model(model, “AUTO:GPU,CPU”, ov::hint::performance_mode(
ov::hint::PerformanceMode::THROUGHPUT));
// 或 “延迟” 倾向模式
:ov::CompiledModel compiledModel1 = core.compile_model(model, “AUTO:GPU,CPU”, ov::hint::performance_mode (
ov::hint::PerformanceMode::LATENCY));

 Python 示例:

# 使用 “吞吐量” 倾向模式:
compiled_model = core.compile_model(model=model, device_name="AUTO", config={"PERFORMANCE_HINT":"THROUGHPUT"})
# 使用“延迟” 倾向模式:
compiled_model = core.compile_model(model=model, device_name="AUTO", config={"PERFORMANCE_HINT":"LATENCY"})

在英特尔®酷睿TM i7处理器上使用googlenet-v1模型,我们发现,与延迟倾向¹相比,在集成GPU上使用吞吐量倾向可提供两倍的每秒帧数(FPS)性能。相比之下,在 GPU上使用延迟倾向的延迟比吞吐量倾向¹ 10 倍以上。

请注意,性能倾向不需要特定于设备的设置,并且在计算设备之间也可以完全移植。这意味着更高的性能,更少的代码更改,以及所需的专业知识更少。

为实现增大吞吐量方案,设备配置为具有更高的利用率,例如,增加批大小以及更多的线程和流。对于降低延迟方案,减小了任务队列的大小和并行化,以实现更快的周转时间。

带有性能倾向的AUTO用法的完整Python示例在此OpenVINO笔记本中可用

自动设备插件如何选择设备?

当您使用OpenVINO2022.1版本时,AUTO会按照表1所示的顺序选择设备,具体取决于设备是否可用以及是否可以支持AI模型的精度。加载 AI 网络时,仅做选择一次设备。CPU 是默认的备选设备。

1AUTO 如何根据设备的可用性和 AI 网络的精度,确定计算设备与 AI 网络的优先级

1 显示了 AUTO 如何充当代理设备,并为 AI 网络选择最合适的设备。

1AUTO 充当应用程序和设备之间的代理设备。

加速首次推理延迟

使用AUTO 的主要好处之一是加速首次推理延迟FILFirst Inference Latency)。

OpenCL 图编译为 GPU 优化的内核需要几秒钟。对于某些应用程序(如基于人脸的身份验证),这几秒钟的初始化时间可能无法容忍。

使用CPU将提供最短的FIL,因为OpenVINO图形表示可以为CPU快速做JIT编译。但是,CPU 可能不是在启动后满足开发人员的吞吐量或延迟目标的最佳平台。

为了加快 FIL 的速度,AUTO 使用 CPU 作为第一个推理设备,直到 GPU 准备就绪(参见图 2)。带有 AUTO FIL 接近 CPU 设备的 FIL(绿色),即使 CPU 除了 GPU 的网络编译之外还执行推理。使用 AUTO,与仅使用 GPU1 相比(蓝色),我们看到 FIL 减少了 10 倍以上。

但请注意,CPU 上的吞吐量可能比 GPU 更差。对于需要满足吞吐量目标的实时应用程序,缓慢推理的初始阶段可能不可接受。最好等待模型在 GPU 上加载。在许多情况下,建议使用模型/内核缓存来加快模型加载速度。

  2:通过在 CPU 上运行推理来自动减少首次推理延迟 FIL),直到 GPU 准备就绪。

Information AUTO进行Debugging

如果遇到执行问题,AUTO 将提供有关异常和错误值的信息。如果返回的数据不足以用于调试目的,可以使用ov::log::Level获取更多信息。

Runtime AUTO 的所有主要性能调用都使用检测和跟踪技术 ITT API 进行检测。有关更多信息,请参阅有关 OpenVINO 分析的文档英特尔® VTune™ Profiler 用户指南

AUTO未来版本

在未来的版本中,AUTO将提供更多的性能倾向功能,并将在系统级别平衡工作负载,例如,通过将一个神经网络的推理卸载到多个硬件设备(类似于多设备插件)。

总结

总而言之,在OpenVINO中使用新的AUTO设备插件:

  • 开发人员无需更新其应用程序逻辑即可使用英特尔新平台和新版本 OpenVINO 提供的高级特性和功能。
  • 开发人员可以享受优化的性能和更快的上市时间。

有关详细信息,请参阅 AUTO 文档

通知和免责声明:

性能因使用情况、配置和其他因素而异。在 www.intel.com/PerformanceIndex“www.intel.com/PerformanceIndex 了解更多信息

性能结果基于截至配置中显示的日期的测试,可能无法反映所有公开可用的更新。有关配置详细信息,请参阅备份。没有任何产品或组件是绝对安全的。​​​

英特尔技术可能需要支持的硬件、软件或服务激活。

所描述的产品可能包含勘误表中已知的设计缺陷或错误,这可能会导致产品与公布的规格有所偏差。当前已确定的勘误表可根据要求提供。​​

¹测试配置:

配置一:英特尔®酷睿™ i7–10710U处理器,带DDR4 2 * 16 GB@2666MHz,集成GPU,操作系统:Windows 10企业版10.0.19042 Build 19042Microsoft Visual Studio Community 2019版本16.11.8IntelRUHD显卡驱动程序版本30.0.101.1191OpenVINO 2022.1(zip文件下载)googlenet-v1网络模型。已使用笔记本 106 自动设备进行测试

配置二:英特尔®酷睿™ i7–1165G7 处理器,带 DDR4 2*16 GB4266 MHz,集成 GPU,英特尔® Iris® Xe MAX 显卡,操作系统:Windows 10 企业版 10.0.19042 内部版本 19042Microsoft Visual Studio Community 2019 版本 16.11.10,英特尔(R Iris® Xe 显卡驱动程序 30.0.101.1003 版(集成 GPU),英特尔(R Iris® Xe MAX 显卡驱动程序 30.0.101.1340 版(独立 GPU), OpenVINO 2022.1(zip文件下载),googlenet-v1网络模型。在OpenVINO 2022.1中用CPP benchmark_app进行测试。

这些测试由英特尔于 2022 4 20 日进行。

这篇关于使用自动设备插件提高 AI 应用程序的性能和可移植性的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/366566

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文