寒武纪及瑞芯微平台调用加速调研

2024-05-06 21:28

本文主要是介绍寒武纪及瑞芯微平台调用加速调研,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1 寒武纪加速平台简介
      • 1.1 加速平台简介
        • 1.1.1 算力硬件
        • 1.1.2 配套软件
      • 1.2 部署流程简介
      • 1.3 部署环境搭建
          • 1.3.1 安装驱动
          • 1.3.2 安装CNToolKit
          • 1.3.3 配置模型移植开发环境
      • 1.4 模型部署
        • 1.4.1 模型转换旧文件格式
        • 1.4.2 量化模型生成
        • 1.4.3 验证结果
        • 1.4.4 离线模型生成

1 寒武纪加速平台简介

1.1 加速平台简介

1.1.1 算力硬件
系列推理训练应用类型备注
MLU220☑️边缘端INT8 8T算力+8.25W功耗; INT8 16T算力+16.5W;CPU计算能力较弱需要其他主控例如瑞芯微3588
MLU270☑️服务器端部署服务端的智能分析算法;模型移植硬件平台;
MLU290☑️☑️训练卡应用在各云厂商、机房和服务中心等,主要用于训练
1.1.2 配套软件

在这里插入图片描述

主要组成为:

  • 驱动
  • 运行库插件
  • 开源框架

推理部分包括两个开源部分:

EasyDK:基于其运行时库封装的一些常用和简易接口,对我们来说,可能最常用的就是关于离线模型推理部分。相关介绍请参见其官网: https://github.com/Cambricon/easydk

CNStream:基于EasyDK封装的一套应用层库,类似于deepstreamMediaPipe。相关介绍请参见其官网:https://github.com/Cambricon/CNStream

1.2 部署流程简介

寒武纪平台的部署流程有一条主线是将一个原始模型转为一个离线模型。基本流程如下:

  1. 得到算法的原始模型,如caffe/pytorch/tensorflow等框架的模型。
  2. 配置对应框架模型的模型转换环境,手动配置/docker。
  3. 使用对应的框架模型转换环境。
  4. 进行模型量化、转换得到离线模型。
  5. 开发支持离线模型的程序应用。
  6. 调用离线模型进行推理并做其他处理。

1.3 部署环境搭建

推荐系统:ubuntu 18.04,ubuntu 20.04 , ubuntu 22.04

推理模式:一个是cnrt,一个是easydk。easydk是基于cnrt封装的api,大大简化了离线模型推理的开发流程。

主体流程:初始化mlu设备,加载模型,预处理,模型推理,后处理,处理结果。

寒武纪还提供了CNStream程序框架,基于EasyDk开发,以pipeline+observer的方式,提供了一个简单易用的框架,如果有兴趣,请查看其官网 https://github.com/Cambricon/CNStream 。其实要用的是EasyDK+CNRT的这种开发方式,构造一个类似CNStream这样的程序。

1.3.1 安装驱动

两个系列的os

  • ubuntu/debian
  • centos

下载得到驱动包名:neuware-mlu270-driver-dkms_xxx_all.deb

sudo dpkg -i neuware-mlu270-driver-dkms_xxx_all.deb

查看显卡命令,类似于nvidia-smi:

cnmon
1.3.2 安装CNToolKit

方法1:查看官网

sudo dpkg -i cntoolkit_xxx.deb
sudo apt update
sudo apt-get install cnas cncc cncodec cndev cndrv cnlicense cnpapi cnperf cnrt cnrtc cnstudio

野路子:

  • 解压cntoolkit_xxx.deb。
  • 找到里面的所有deb文件,选择自己需要的,直接解压安装。
  • 注意,野路子在边缘端环境配置的时候、边缘端程序生成的时候有奇效。

配置相关环境变量:

export NEUWARE_HOME="/usr/local/neuware"
export PATH="${NEUWARE_HOME}/bin:${PATH}"
1.3.3 配置模型移植开发环境

寒武纪官方支持3种常见框架的模型移植,分别是caffe/tensorflow/pytorch,官方资料如下:

caffe: https://www.cambricon.com/docs/caffe/index.html
tensorflow: https://www.cambricon.com/docs/tensorflow/user_guide/index.html
pytorch: https://www.cambricon.com/docs/pytorch/index.html

1.4 模型部署

1.4.1 模型转换旧文件格式
# 存在一个模型test.pth(zip格式)
# 存在一个获取的模型网络结构类:TestModel
import torchmodel = TestModel()
state_dict = torch.load('test.pth', map_location=torch.device('cpu'))
model.load_state_dict(state_dict, strict=True)           torch.save(model, 'new_test.pth', _use_new_zipfile_serialization=False)
# 得到了旧版本的pth文件。方便pytorch 1.6以下进行加载
1.4.2 量化模型生成
# 存在一个模型new_test.pth(非zip格式)
# 存在一个获取的模型网络结构类:TestModel
import torch
import torch_mlu.core.mlu_quantize as mlu_quantizemodel = TestModel()
state_dict = torch.load('new_test.pth', map_location=torch.device('cpu'))
model.load_state_dict(state_dict, False)          
mean=[]
std=[] 
# 注意此接口,这里不使用firstconv优化,它的作用是将归一化放到第一层去一起加速做,但是有些模型的前处理是不需要这样做的,具体信息,请参考寒武纪官方文档。
net_quantization = mlu_quantize.quantize_dynamic_mlu(model, {'mean':mean, 'std':std, 'firstconv':False}, dtype='int8', gen_quant=True)
torch.save(net_quantization.state_dict(), 'test_quantization.pth')# 得到了INT8的量化模型文件test_quantization.pth
1.4.3 验证结果
# 存在一个INT8的量化模型文件test_quantization.pth
# 存在一个获取的模型网络结构类:TestModel
import torch_mlu
import torch_mlu.core.mlu_model as ct
import torch_mlu.core.mlu_quantize as mlu_quantizemodel = TestModel()# step 1
net = mlu_quantize.quantize_dynamic_mlu(model)
# step 2
net.load_state_dict(torch.load('test_quantization.pth'))
# 这里是
input_data=torch.randn((1,3,480,480))
# step 3
net_mlu = net.to(ct.mlu_device())
input_mlu = input_data.to(ct.mlu_device())
# step 4
output=net_mlu(input_mlu)
print(output.cpu())
# output的shape是480*480
1.4.4 离线模型生成
# 存在一个INT8的量化模型文件test_quantization.pth
# 存在一个获取的模型网络结构类:TestModel
import torch_mlu
import torch_mlu.core.mlu_model as ct
import torch_mlu.core.mlu_quantize as mlu_quantizemodel = TestModel()# step 1
net = mlu_quantize.quantize_dynamic_mlu(model)
# step 2
net.load_state_dict(torch.load('test_quantization.pth'))
# 
input_data=torch.randn((1,3,480,480))
# step 3
net_mlu = net.to(ct.mlu_device())
input_mlu = input_data.to(ct.mlu_device())# 详细查看文档,一般4
core_number = 4
ct.set_core_number(core_number)
ct.set_core_version('MLU220')
# torch_mlu.core.mlu_model.set_input_format(input_format)
ct.save_as_cambricon('test')net_trace = torch.jit.trace(net_mlu, input_mlu, check_trace=False)net_trace(input_mlu) torch_mlu.core.mlu_model.save_as_cambricon("")# 最终,我们得到了test.cambricon 和 test.cambricon_twins。test.cambricon_twins是离线模型的说明文件,包含输入数据格式通道等信息,也包含输出相关的信息。

上文的第三四五步其实对应的是

  • EasyInfer下面的ModelLoader模块

  • 初始化ModelLoader模块

  • 传参给EasyInfer实例

  • 为模型在cpu和mlu上申请相关的内存空间。在EasyDk中有对应的接口直接完成内存申请

  • 图像数据预处理,到图像数据类型转换,再到图像数据输入到mlu内存

  • 推理准备参数

  • 开始推理

  • mlu内存中拷贝出推理结果到cpu内存,然后进行后处理

  • 清理环境

  • EasyInfer下面的ModelLoader模块

  • 初始化ModelLoader模块

  • 传参给EasyInfer实例

  • 为模型在cpu和mlu上申请相关的内存空间。在EasyDk中有对应的接口直接完成内存申请

  • 图像数据预处理,到图像数据类型转换,再到图像数据输入到mlu内存

  • 推理准备参数

  • 开始推理

  • mlu内存中拷贝出推理结果到cpu内存,然后进行后处理

  • 清理环境

这篇关于寒武纪及瑞芯微平台调用加速调研的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/965424

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

如何在页面调用utility bar并传递参数至lwc组件

1.在app的utility item中添加lwc组件: 2.调用utility bar api的方式有两种: 方法一,通过lwc调用: import {LightningElement,api ,wire } from 'lwc';import { publish, MessageContext } from 'lightning/messageService';import Ca

如何解决线上平台抽佣高 线下门店客流少的痛点!

目前,许多传统零售店铺正遭遇客源下降的难题。尽管广告推广能带来一定的客流,但其费用昂贵。鉴于此,众多零售商纷纷选择加入像美团、饿了么和抖音这样的大型在线平台,但这些平台的高佣金率导致了利润的大幅缩水。在这样的市场环境下,商家之间的合作网络逐渐成为一种有效的解决方案,通过资源和客户基础的共享,实现共同的利益增长。 以最近在上海兴起的一个跨行业合作平台为例,该平台融合了环保消费积分系统,在短

Android平台播放RTSP流的几种方案探究(VLC VS ExoPlayer VS SmartPlayer)

技术背景 好多开发者需要遴选Android平台RTSP直播播放器的时候,不知道如何选的好,本文针对常用的方案,做个大概的说明: 1. 使用VLC for Android VLC Media Player(VLC多媒体播放器),最初命名为VideoLAN客户端,是VideoLAN品牌产品,是VideoLAN计划的多媒体播放器。它支持众多音频与视频解码器及文件格式,并支持DVD影音光盘,VCD影

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud

业务协同平台--简介

一、使用场景         1.多个系统统一在业务协同平台定义协同策略,由业务协同平台代替人工完成一系列的单据录入         2.同时业务协同平台将执行任务推送给pda、pad等执行终端,通知各人员、设备进行作业执行         3.作业过程中,可设置完成时间预警、作业节点通知,时刻了解作业进程         4.做完再给你做过程分析,给出优化建议         就问你这一套下