oneAPI 数学核心函数库 (oneMKL):加速数学处理例程 提高应用程序性能 缩短开发时间

本文主要是介绍oneAPI 数学核心函数库 (oneMKL):加速数学处理例程 提高应用程序性能 缩短开发时间,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 在 CPU 和 GPU 上进行数值计算的高性能
  • 为什么选择oneMKL?
  • 最新消息
  • 所需条件
  • 特征
    • 线性代数
    • 稀疏线性代数函数
    • 快速傅里叶变换 (FFT)
    • 随机数生成器函数 (RNG)
    • 数据拟合
    • 矢量数学
    • 汇总统计

英特尔® oneAPI 数学核心函数库 (oneMKL)可以加速数学处理例程,提高应用程序性能,并缩短开发时间。

在 CPU 和 GPU 上进行数值计算的高性能

快速、高效、易于使用的数学库
针对 Intel® CPU、GPU 和其他加速器进行了优化
多功能、强大的功能,用于:密集线性代数稀疏线性代数快速傅里叶变换 (FFT)矢量数学 (VM)随机数生成器 (RNG)汇总统计

为什么选择oneMKL?

适用于基于英特尔®的系统的最快和最常用的数学库。†
更快地创建高性能应用程序。
充分利用面向 AI、HPC 和数据科学的英特尔硬件功能。
从以前的解决方案(英特尔® MKL)无缝升级。
使用 NumPy、SciPy、MATLAB* 等数学解决方案实现高性能。
对 BLAS、LAPACK 和 FFTW 的全面标准接口支持。

最新消息

对 SYCL* 的 oneMKL 库进行了分区,以便为 oneMKL 的开发人员和用户提供更小的二进制占用空间
提高了英特尔 CPU 和 GPU 上的 CUDA* 库函数 API 兼容性覆盖率
提供针对英特尔®至强® CPU Max 系列和英特尔®数据中心 GPU Max 系列优化的高性能 LINPACK (HPL) 和 HPL-AI 基准测试
BLAS的
改进了英特尔数据中心 GPU Max 系列上 GEMV 和多个 BLAS 1 级例程的一般性能
DFT型
在英特尔数据中心 GPU Max 系列上支持大于 4 GiB(高达 64 GiB 数据)的 FFT
改进了英特尔数据中心 GPU Max 系列的 FFT 性能
拉包
引入 SYCL API,用于计算具有 C 和 Fortran OpenMP* 卸载支持的非枢轴 LU 分解
引入 SYCL API 来计算一组通用矩阵的批处理矩阵逆
矢量数学
将矢量数学优化集成到随机数生成器中,以实现高性能计算
支持 Intel GPU 上 FP16 数据类型的矢量数学运算
添加了 OpenMP 5.1 以支持 C 卸载

所需条件

首先为您的应用程序选择最佳接口:
C 接口
Fortran 接口
SYCL 接口

oneMKL 作为英特尔® oneAPI Base Toolkit 的一部分提供。
将 oneMKL 与英特尔® MPI 库或英特尔® Fortran 编译器结合使用需要英特尔® HPC 工具包。
在这里插入图片描述

特征

线性代数

使用对向量和矩阵进行操作的低级例程加速线性代数计算,并与以下行业标准的 BLAS 和 LAPACK 操作兼容:

第 1 级:向量-向量操作
第 2 级:矩阵向量运算
第 3 级:矩阵-矩阵运算

稀疏线性代数函数

使用低级和 inspector-executor 例程对稀疏矩阵执行各种操作,包括:

将稀疏矩阵与密集向量相乘
将稀疏矩阵乘以密集矩阵
使用三角稀疏矩阵求解线性系统
使用一般稀疏矩阵求解线性系统

快速傅里叶变换 (FFT)

将信号从其原始域(通常是时间或空间)转换为频域中的表示并返回。在一维、二维或三维中使用 FFT 函数,并支持混合 radice。支持的功能包括单精度和双精度任意长度的复数到复数和实数到复数的变换。

随机数生成器函数 (RNG)

使用常见的伪随机、准随机和非确定性随机数引擎来求解连续分布和离散分布。

数据拟合

提供基于样条的插值功能,可用于近似函数、函数导数或积分,以及执行单元格搜索操作。

矢量数学

通过基于矢量的基本函数平衡精度和性能。使用传统的代数和三角函数操作值。

汇总统计

计算单精度和双精度多维数据集的基本统计估计值(例如原始或中心总和矩)。

这篇关于oneAPI 数学核心函数库 (oneMKL):加速数学处理例程 提高应用程序性能 缩短开发时间的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/779877

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof