首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
ascend专题
OrangePi AIpro 香橙派 昇腾 Ascend C 算子开发 与 调用 - Tiling实现 2
OrangePi AIpro 香橙派 昇腾 Ascend C 算子开发 与 调用 - Tiling实现 2 flyfish 前置知识 1 前置知识 2 Host侧CPU和Device侧NPU的主要区别 不同的硬件资源 CPU是为了执行通用计算任务而设计的,但在处理大量的并行计算(如矩阵乘、批数据处理)时效率不高。NPU是为了加速机器学习和深度学习任务而设计的,它擅长执行大量的并行计算。N
阅读更多...
OrangePi AIpro 香橙派 昇腾 Ascend C 算子开发 与 调用 - Tiling实现
OrangePi AIpro 香橙派 昇腾 Ascend C 算子开发 与 调用 - Tiling实现 flyfish 前置知识 基于Kernel直调工程的算子开发流程图 其中有一个Tiling实现 什么是Tiling、Tiling实现 计算API,包括标量计算API、向量计算API、矩阵计算API,分别实现调用Scalar计算单元、Vector计算单元、Cube计算单元执行计算的功
阅读更多...
Ascend显卡创建虚拟vgpu实例
当你使用 npu-smi 工具来创建虚拟 NPU(Virtual NPU,简称 vNPU)时,你可以指定虚拟 NPU 的显存大小。然而,npu-smi 命令的具体参数可能会有所不同,取决于你使用的 NPU 硬件和驱动程序版本。 根据你的需求,你希望创建一个具有 2GB 显存的虚拟 NPU。以下是详细的步骤和命令示例: 1. 确认 NPU 驱动支持虚拟化 首先,确保你的 NPU 驱动支持虚拟化
阅读更多...
OrangePi AIpro 香橙派 昇腾 Ascend C算子开发 - HelloWorld
OrangePi AIpro 香橙派 昇腾 Ascend C算子开发 - HelloWorld flyfish Ascend C算子编程是SPMD(Single-Program Multiple-Data)编程 假设,从输入数据到输出数据需要经过3个阶段任务的处理(T1、T2、T3)。如下图所示,SPMD会启动一组进程,并行处理待处理的数据。对待处理数据切分,把切分后数据分片分发给不同进程处理
阅读更多...
昇腾 Ascend 概念澄清 Host、Device、AI core、AI CPU、DVPP、AIPP、AscendCL、AscendC
昇腾 Ascend 概念澄清 Host、Device、AI core、AI CPU、DVPP、AIPP、AscendCL、AscendC flyfish Ascend C开发算子,偏低。AscendCL开发应用,偏高。AI core、AI CPU、DVPP都属于计算资源。Ascend C开发的算子运行在AI Core上。AIPP用于在AI Core上完成图像预处理。 DVPP AI
阅读更多...
Ascend C算子开发(入门)—— 算子开发环境搭建
文章目录 Ascend C算子开发(入门)—— 算子开发环境搭建在CPU上部署开发环境准备工作步骤配置环境变量配置pip源pip安装依赖包安装开发套件包添加配置验证是否安装成功下载samples代码包测试算子 Ascend C算子开发(入门)—— 算子开发环境搭建 安装包解读 Ascend-cann-功能-版本-平台.tar/run nnrt 推理amct
阅读更多...
Ascend C算子开发(入门)——什么是Ascend C?
Ascend C算子开发(入门)——什么是Ascend C? 一、CANN与Ascend C CANN的全称是Computer Architecture For Neural Network,适用于为神经网络加速计算,Ascend C是主要编程模块,可实现图开发、算子开发、应用开发等,MindStudio是全流程开发的工具链。 二、昇腾(Ascend)AI处理器 进程运行
阅读更多...
Ascend C算子性能优化实用技巧01——流水优化
Ascend C是CANN针对算子开发场景推出的编程语言,原生支持C和C++标准规范,兼具开发效率和运行性能。使用Ascend C,开发者可以基于昇腾AI硬件,高效的实现自定义的创新算法。 目前已经有越来越多的开发者使用Ascend C,我们将通过几期“Ascend C算子性能优化”专题分享,围绕开发者最为关心的算子性能优化环节,介绍Ascend C算子常用的优化技巧,帮助开发者自主构建出更优
阅读更多...
Ascend C Add算子样例代码详解
核函数定义 核函数(Kernel Function)是Ascend C算子设备侧实现的入口。在核函数中,需要为在一个核上执行的代码规定要进行的数据访问和计算操作,当核函数被调用时,多个核都执行相同的核函数代码,具有相同的参数,并行执行。 // 实现核函数extern "C" __global__ __aicore__ void add_custom(GM_ADDR x, GM_ADDR y,
阅读更多...
“华为Ascend 910B AI芯片挑战NVIDIA A100:效能比肩,市场角逐加剧“
华为自主研发的人工智能芯片——Ascend 910B,近期在世界半导体大会及南京国际半导体博览会上由华为ICT基础设施管理委员会执行董事、主任王涛发表声明称,该芯片在训练大规模语言模型时的效率高达80%,与NVIDIA的A100相比毫不逊色,且在具体测试性能上更是超出NVIDIA A100 AI GPU约20%之多。这表明华为在AI芯片领域取得了重大突破,直接挑战行业领军企业NVIDIA。 As
阅读更多...
一文教你如何调用Ascend C算子
Ascend C是CANN针对算子开发场景推出的编程语言,原生支持C和C++标准规范,兼具开发效率和运行性能。基于Ascend C编写的算子程序,通过编译器编译和运行时调度,运行在昇腾AI处理器上。使用Ascend C,开发者可以基于昇腾AI硬件高效实现自定义的创新算法。 本文重点介绍基于Ascend C算子编程语言完成自定义算子的开发和部署后,如何调用自定义算子验证算子功能。 三种常见的算子调
阅读更多...
Atlas 200I DK A2安装MindSpore Ascend版本
一、参考资料 mindspore快速安装 二、重要说明 经过博主多次尝试多个版本,Atlas 200I DK A2无法安装MindSpore Ascend版本。 也有其他博主测试,也未尝成功,例如:【MindSpore易点通·漫游世界】在Atlas 200I DK A2 (CANN6.2.RC2)上安装MindSpore Ascend版的踩坑记录 mindspore 1.5.2 报错无
阅读更多...
Atlas 200 DK(Model 3000)安装MindSpore Ascend版本
一、参考资料 mindspore快速安装 二、重要说明 经过博主多次尝试多个版本,Atlas 200 DK(Model 3000)无法安装MindSpore Ascend版本。 三、准备工作 1. 测试环境 设备型号:Atlas 200 DK(Model: 3000)Operating System + Version: Ubuntu 18.04.6 LTSCPU Type: 8核
阅读更多...
【NPU】A800-9000服务器8*Ascend 910 B的HCCS测试
HCCS集合通信带宽数据 HCCS集合通信带宽数据timeline信息在msprof_*.json文件的HCCS层级展示 summary信息在hccs_*.csv文件汇总。 支持的型号 Atlas 训练系列产品 Atlas A2训练系列产品 测试命令 npu-smi info -t topo 结果展示 NPU0 NPU1 NPU2
阅读更多...
Ascend 310 推理流程
转载地址:https://bbs.huaweicloud.com/forum/thread-136365-1-1.html 作者: MapleStory train:在Ascend 910使用train dataset训练网络模型,并保存checkpoint。export:将训练得到的checkpoint加载到对应的network中,导出MINDIR/AIR格式文件。preprocess:
阅读更多...
pip方式安装MindSpore Ascend 910版本
转载地址:https://bbs.huaweicloud.com/forum/thread-139738-1-1.html 作者:升级失败 环境信息:A300T训练卡 ubuntu18.04 ubuntu基础环境 vim /etc/ssh/sshd_configLoginGraceTime的值设为0,默认为2m,TCPKeepAlive 设为yesPermitRootLogin 设为y
阅读更多...
一文掌握Ascend C孪生调试
1 What,什么是孪生调试 Ascend C提供孪生调试方法,即CPU域模拟NPU域的行为,相同的算子代码可以在CPU域调试精度,NPU域调试性能。孪生调试的整体方案如下:开发者通过调用Ascend C类库编写Ascend C算子kernel侧源码,kernel侧源码通过通用的GCC编译器进行编译,编译生成通用的CPU域的二进制,可以通过gdb通用调试工具等调试手段进行调试;kernel
阅读更多...
在Ascend昇腾硬件用npu加速paddleLite版本ocr(nnadapter)
在Ascend昇腾硬件用npu加速paddleLite版本ocr(nnadapter) 参考文档* nnadapter参考文档地址* 华为昇腾 NPU参考文档地址* PaddleLite的C++API参考文档 一.确保cpu版本运行正常二.编译Ascend上npu加速库三.跑通npu加速版本Demo1.Demo下载地址2.参考手册网址3.改脚本run.sh(1).改参数HUAWEI_ASCE
阅读更多...
【昇腾CANN技术月刊】2023.11-Ascend C在线课程上新;CANN 7.0大模型推理部署技术解密;特邀名校老师面对面分享Ascend C开发经验
【好课推荐】昇腾Ascend C算子开发入门课程,新手零基础入门 摘要:本课程是Ascend C算子开发的初级教程,通过课程讲解及样例实操,帮助你学习如何使用Ascend C开发矢量算子。 1、了解并行计算架构、并行计算方法等基本概念 2、理解Ascend C算子编程模型 3、掌握核函数的编写使用 4、掌握矢量算子的开发和基础调用。 【好课推荐】昇腾Ascend C算子开发进阶课程
阅读更多...
CANN体验官第四期——Ascend 310P 推理应用开发体验(CC++)随笔
活动介绍 CANN体验官第四期,是基于 Ascend 310P 进行推理应用开发体验,体验尝鲜 Ascend 310 → Ascend 310P 的应用迁移及Ascend 310P 的新特性:媒体数据处理V2版本接口! 注: Ascend 310P 应该就是Ascend 710,如果执行如下命令: npu-smi info 可得 环境说明 华为官方提供了硬件和指导书,可以远程登
阅读更多...
Ascend CL两种数据预处理的方式:AIPP和DVPP
摘要:本文介绍了昇腾CANN提供的两种数据预处理的方式:DVPP和AIPP,介绍了两者的功能、差别及联系,并以具体代码示例介绍了如何使用DVPP和AIPP的功能。 本文分享自华为云社区《了解AscendCL数据预处理的两种方式:AIPP和DVPP》,作者:昇腾CANN。 数据预处理的典型使用场景 受网络结构和训练方式等因素的影响,绝大多数神经网络模型对输入数据都有格式上的限制。在计算机
阅读更多...
【环境配置】YOLOX-华为Ascend-Pytorch模型离线推理【项目复盘】
文章目录 推理流程导出ONNX文件转换om模型测试集预处理前处理脚本生成预处理数据,得到对应的info文件 离线推理精度统计后处理脚本 性能对比npugpu 前言 本文基于下面的参考 Ascend PyTorch模型离线推理指导 推理流程 导出ONNX文件 这一步参考官方教程 转换om模型 激活环境source env.sh env.sh内容见下
阅读更多...
【环境部署系列 05】Ascend 310P3(推理)Centos系统环境部署
一、推荐基础开发环境配置 软件/硬件说明推荐配置/版本获取方式硬件ARM / X86Atlas 500 Pro / Atlas800-3000 / Atlas800-3010/操作系统Centos / OpenEulerCentOS 7.6 / CentOS 8.2 / OpenEuler 20.03官网Driver驱动Atlas 300V Pro / Atlas 300I Pro官网CANN针
阅读更多...
Ascend多卡训练报错davinci_model : load task fail, return ret xxx
在Ascend上进行多机/多卡训练时,经常会遇到这种报错: 报这种错误的原因是该卡在最大等待时长内,没有收到其他卡的同步消息。 而没有收到其他卡的同步消息,有很多种可能: 其他卡挂了;其他卡还在执行编译,且编译时间略长,超出了该卡的最大等待时长; 对于第一种情况,需要检查是否存在某张卡有问题无法正常使用的情况,可能是硬件问题,也可能是软件问题,可以通过查看每张卡的plog得知进一步的信
阅读更多...
Ascend多卡训练报错davinci_model : load task fail, return ret xxx
在Ascend上进行多机/多卡训练时,经常会遇到这种报错: 报这种错误的原因是该卡在最大等待时长内,没有收到其他卡的同步消息。 而没有收到其他卡的同步消息,有很多种可能: 其他卡挂了;其他卡还在执行编译,且编译时间略长,超出了该卡的最大等待时长; 对于第一种情况,需要检查是否存在某张卡有问题无法正常使用的情况,可能是硬件问题,也可能是软件问题,可以通过查看每张卡的plog得知进一步的信
阅读更多...