AOE性能调优问题案例

2023-11-05 23:20
文章标签 问题 性能 案例 调优 aoe

本文主要是介绍AOE性能调优问题案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AOE(Ascend Optimization Engine)是一款自动性能调优工具,目的是为了充分利用有限的硬件资源,满足算子和整网的性能要求。

本期就分享几个关于AOE性能调优问题的典型案例,并给出原因分析及解决方法。

  1. 调优过程中进程异常退出
  2. 无法命中调优生成的知识库
  3. 参数设置不合理,导致报错内存不足

01调优过程进程异常退出

问题现象描述

在调优过程中,可能会出现如下类似报错。

现象1:调优直接异常终止,出现类似下面的信息:

现象2:触发进程退出,调优日志中出现类似下面红框的信息:

原因分析

可能原因是内存不足,可以通过如下步骤进行分析。

使用dmesg命令确认操作系统是否触发"Out of memory"导致进程退出。

dmesg |grep "Out of memory"

系统显示如下类似信息,表示触发了"Out of memory"。

[519308.099433] Out of memory: Killed process 994362 (aoe) total-vm:23064888kB, anon-rss:16472380kB, file-rss:0kB, shmem-rss:0kB, UID:0 pgtables:35352kB oom_score_adj:0

处理步骤

更换为有更大Host内存的调优环境。

02 无法命中调优生成的知识库

现象描述

使用AOE完成调优后,生成了知识库,但在ATC转模型时却无法命中生成的知识库。

可能原因

AOE性能调优和ATC模型转换时,存在一些相同的参数,这些参数可能会影响网络的shape、网络中部分算子的dtype、网络结构等,所以这些参数在AOE性能调优和ATC模型转换/AOE再次调优时需要保持一致。参数范围及具体影响如下。

  • input_format:影响输入数据格式。
  • input_shape:影响模型输入数据的shape。
  • output_type:影响网络输出数据类型或影响某个输出节点的数据类型。
  • insert_op_conf、fusion_switch_file、enable_scope_fusion_passes、enable_small_channel:影响网络结构。
  • out_nodes:影响网络中的输出节点。
  • input_fp16_nodes:影响输入节点的数据类型。
  • is_input_adjust_hw_layout:影响网络的输入数据类型和格式。
  • is_output_adjust_hw_layout:影响网络的输出数据类型和格式。
  • precision_mode、op_precision_mode、modify_mixlist、keep_dtype、op_select_implmode、optypelist_for_implmode:影响网络部分算子的dtype。
  • dynamic_batch_size、dynamic_image_size、dynamic_dims:影响网络的shape。

处理步骤

在AOE性能调优和ATC模型转换/AOE再次调优时,可能原因中的参数取值需要保持一致。

03参数设置不合理,导致报错内存不足

现象描述

TensorFlow训练场景下调优时,可能会出现如下类似报错。

第一种报错

[ERROR] GE(685297,python3):2022-04-06-07:15:09.383.996 [graph_var_manager.cc:402]687614 AssignVarMem: ErrorNo: 1343225857(Parameter's invalid!) [COMP][MEM_ALLOC][Check][Param] Out of memory: current var size[13962468864] exceeds total var size[13958643712] 

第二种报错

[ERROR] GE(685297,python3):2022-04-06-07:15:09.383.996 [graph_var_manager.cc:402]687614 AssignVarMem: ErrorNo: 1343225857(Parameter's invalid!) [COMP][MEM_ALLOC][Check][Param] Out of memory: current graph size[13962468864] exceeds total graph size[13958643712] 

可能原因

报错内存不足的可能原因是:TensorFlow训练脚本中的内存相关参数(graph_memory_max_size网络静态内存和最大动态内存、variable_memory_max_size变量内存)设置不合理,当调优过程中内存超过这些参数取值时,系统报错。

处理步骤

针对分析的可能原因,请参考以下方法处理:

修改sess.run模式下的session配置项或者Estimator模式下的npu_bridge.estimator.npu.npu_config。具体步骤如下。

  • 第一种报错处理办法:修改variable_memory_max_size的取值为报错信息中的current var size + 1GB,修改graph_memory_max_size的取值为31GB - variable_memory_max_size。
  • 第二种报错处理办法:修改graph_memory_max_size的取值为报错信息中的current graph size + 1GB,修改variable_memory_max_size的取值为31GB - graph_memory_max_size。

修改示例如下:

sess.run模式

custom_op.parameter_map["graph_memory_max_size"].s = tf.compat.as_bytes(str(26*1024 * 1024 * 1024))

Estimator模式

config = NPURunConfig(graph_memory_max_size=str(26*1024 * 1024 * 1024)) 
variable_memory_max_size

04 更多介绍 

[1]昇腾文档中心:昇腾社区-官网丨昇腾万里 让智能无所不及

[2]昇腾社区在线课程:开发者主页-昇腾社区

[3]昇腾论坛:https://www.hiascend.com/forum

这篇关于AOE性能调优问题案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/353116

相关文章

Nginx启动失败:端口80被占用问题的解决方案

《Nginx启动失败:端口80被占用问题的解决方案》在Linux服务器上部署Nginx时,可能会遇到Nginx启动失败的情况,尤其是错误提示bind()to0.0.0.0:80failed,这种问题通... 目录引言问题描述问题分析解决方案1. 检查占用端口 80 的进程使用 netstat 命令使用 ss

mybatis和mybatis-plus设置值为null不起作用问题及解决

《mybatis和mybatis-plus设置值为null不起作用问题及解决》Mybatis-Plus的FieldStrategy主要用于控制新增、更新和查询时对空值的处理策略,通过配置不同的策略类型... 目录MyBATis-plusFieldStrategy作用FieldStrategy类型每种策略的作

linux下多个硬盘划分到同一挂载点问题

《linux下多个硬盘划分到同一挂载点问题》在Linux系统中,将多个硬盘划分到同一挂载点需要通过逻辑卷管理(LVM)来实现,首先,需要将物理存储设备(如硬盘分区)创建为物理卷,然后,将这些物理卷组成... 目录linux下多个硬盘划分到同一挂载点需要明确的几个概念硬盘插上默认的是非lvm总结Linux下多

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

Python Jupyter Notebook导包报错问题及解决

《PythonJupyterNotebook导包报错问题及解决》在conda环境中安装包后,JupyterNotebook导入时出现ImportError,可能是由于包版本不对应或版本太高,解决方... 目录问题解决方法重新安装Jupyter NoteBook 更改Kernel总结问题在conda上安装了

pip install jupyterlab失败的原因问题及探索

《pipinstalljupyterlab失败的原因问题及探索》在学习Yolo模型时,尝试安装JupyterLab但遇到错误,错误提示缺少Rust和Cargo编译环境,因为pywinpty包需要它... 目录背景问题解决方案总结背景最近在学习Yolo模型,然后其中要下载jupyter(有点LSVmu像一个

解决jupyterLab打开后出现Config option `template_path`not recognized by `ExporterCollapsibleHeadings`问题

《解决jupyterLab打开后出现Configoption`template_path`notrecognizedby`ExporterCollapsibleHeadings`问题》在Ju... 目录jupyterLab打开后出现“templandroidate_path”相关问题这是 tensorflo

如何解决Pycharm编辑内容时有光标的问题

《如何解决Pycharm编辑内容时有光标的问题》文章介绍了如何在PyCharm中配置VimEmulator插件,包括检查插件是否已安装、下载插件以及安装IdeaVim插件的步骤... 目录Pycharm编辑内容时有光标1.如果Vim Emulator前面有对勾2.www.chinasem.cn如果tools工

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

Java多线程父线程向子线程传值问题及解决

《Java多线程父线程向子线程传值问题及解决》文章总结了5种解决父子之间数据传递困扰的解决方案,包括ThreadLocal+TaskDecorator、UserUtils、CustomTaskDeco... 目录1 背景2 ThreadLocal+TaskDecorator3 RequestContextH