[C#] .NET8增加了Arm架构的多寄存器的查表函数(VectorTableLookup/VectorTableLookupExtension)

本文主要是介绍[C#] .NET8增加了Arm架构的多寄存器的查表函数(VectorTableLookup/VectorTableLookupExtension),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

发现.NET8增加了Arm架构的多寄存器的查表函数(VectorTableLookup/VectorTableLookupExtension),这给编写SIMD向量化算法带来了方便。

一、指令说明

在学习Arm的AdvSimd(Neon)指令集时,发现它的Lookup(查表)功能,类似X86的Sse系列指令集中的字节Shuffle(换位。如 _mm_shuffle_epi8 )功能。
而且Arm的Lookup不仅支持单个向量的查表,且支持多个向量的查表。具体来说,是2~4个向量。
单个向量查表(如 vqvtbl1q_u8)时,只能在 16字节(128位)的范围内进行查表。而使用4个向量查表(如 vqtbl4q_u8 )时,能在 16*4=64字节(512位)的范围内进行查表。

.NET 5.0开始支持Arm的内在函数,但当时仅支持单个向量查表。
现在 .NET 8.0 补上了这个空缺。

二、API文档的变化

对于AdvSimd.Arm64.VectorTableLookup 方法,.NET 5.0 的文档是只有2个重载。

VectorTableLookup(Vector128<SByte>, Vector128<SByte>)    // int8x16_t vqvtbl1q_s8(int8x16_t t, uint8x16_t idx)
VectorTableLookup(Vector128<Byte>, Vector128<Byte>)    // uint8x16_t vqvtbl1q_u8(uint8x16_t t, uint8x16_t idx)

到了.NET 8.0 ,文档多了6个重载。

VectorTableLookup(ValueTuple<Vector128<Byte>,Vector128<Byte>,Vector128<Byte>,Vector128<Byte>>, Vector128<Byte>)        // uint8x16_t vqtbl4q_u8 (uint8x16x4_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<Byte>,Vector128<Byte>,Vector128<Byte>>, Vector128<Byte>)    // uint8x16_t vqtbl3q_u8 (uint8x16x3_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<Byte>,Vector128<Byte>>, Vector128<Byte>)    // uint8x16_t vqtbl2q_u8 (uint8x16x2_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<SByte>,Vector128<SByte>,Vector128<SByte>,Vector128<SByte>>, Vector128<SByte>)    // int8x16_t vqtbl4q_s8 (int8x16x4_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<SByte>,Vector128<SByte>,Vector128<SByte>>, Vector128<SByte>)    // int8x16_t vqtbl3q_s8 (int8x16x3_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<SByte>,Vector128<SByte>>, Vector128<SByte>)    // int8x16_t vqtbl2q_s8 (int8x16x2_t t、uint8x16_t idx)

可见,2、3、4个向量的查表功能都加上了了。随后再区分一下 Byte/SByte 这2种类型,于是共增加了 3*2=6 个重载。

三、官方说明

查了一下,发现在官方博文《Arm64 Performance Improvements in .NET 8》(.NET 8 中的 Arm64 性能改进)里有说明。
这一段内容的机器翻译如下。

VectorTableLookup 和 VectorTableLookupExtension
在 .NET 8 中,我们在System.Runtime.Intrinsics.Arm命名空间下添加了两组新的 API:VectorTableLookup和 VectorTableLookupExtension。public static Vector64<byte> VectorTableLookup((Vector128<byte>, Vector128<byte>) table, Vector64<byte> byteIndexes);public static Vector64<byte> VectorTableLookup(Vector64<byte> defaultValues, (Vector128<byte>, Vector128<byte>) table, Vector64<byte> byteIndexes);让我们看一下每个 API 的示例。// Vector128<byte> a = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16
// Vector128<byte> b = 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160
// Vector64<byte> index = 3, 31, 4, 40, 18, 19, 30, 1Vector64<byte> ans = VectorTableLookup((a, b), index);// ans = 4, 160, 5, 0, 30, 40, 150, 2在上面的示例中,向量 a 和 b 被视为一个表,共有 32 个条目(16 个来自 a,16 个来自 b),索引从 0 开始。如果索引超出范围,例如在我们的示例中试图访问索引 40,API 将返回该超出范围索引的值 0。// Vector64<byte> d = 100, 200, 300, 400, 500, 600, 700, 800
// Vector128<byte> a = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16
// Vector128<byte> b = 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160
// Vector64<byte> index = 3, 31, 4, 40, 18, 19, 30, 1Vector64<byte> ans = VectorTableLookupExtension(d, (a, b), index);// ans = 4, 160, 5, 400, 30, 40, 150, 2与 VectorTableLookup相反,当使用VectorTableLookupExtension方法时,如果索引超出有效范围,则结果中的相应元素将由参数中提供的defaultValues值确定。值得注意的是,这些 API 还有其他变体,它们也在 3 实体和 4 实体元组上运行,为各种用例提供了灵活性。在 dotnet/runtime#85189 中,@MihaZupan 利用此 API 优化了 IndexOfAny,显著提高了 30% 的性能。同样,在 dotnet/runtime#87126 中,@SwapnilGaikwad 显著增强了 Guid 格式化器的性能,实现了高达 40% 的性能提升。这些优化表明,利用这一强大的 API 可以大幅提高性能。

四、X86平台的对应

X86的Sse、Avx系列指令集,仅支持单个向量查表。
直到Avx512系列指令集的出现,它增加了2个向量查表的指令 VPERMI2B

.NET8.0也增加了对Avx512系列指令集的支持,便支持了该指令。

对于512位向量,可以使用 Avx512Vbmi 类中的方法。

PermuteVar64x8x2(Vector512<Byte>, Vector512<Byte>, Vector512<Byte>)    // __m512i _mm512_permutex2var_epi8 (__m512i a, __m512i idx, __m512i b)
PermuteVar64x8x2(Vector512<SByte>, Vector512<SByte>, Vector512<SByte>)    // __m512i _mm512_permutex2var_epi8 (__m512i a, __m512i idx, __m512i b)

对于128、256位向量,可以使用 Avx512Vbmi.VL 类中的方法。

PermuteVar16x8x2(Vector128<Byte>, Vector128<Byte>, Vector128<Byte>)    // __m128i _mm_permutex2var_epi8 (__m128i a,__m128i idx,__m128i b)
PermuteVar16x8x2(Vector128<SByte>, Vector128<SByte>, Vector128<SByte>)    // __m128i _mm_permutex2var_epi8 (__m128i a,__m128i idx,__m128i b)PermuteVar32x8x2(Vector256<Byte>, Vector256<Byte>, Vector256<Byte>)    // __m256i _mm256_permutex2var_epi8 (__m256i a, __m256i idx, __m256i b)
PermuteVar32x8x2(Vector256<SByte>, Vector256<SByte>, Vector256<SByte>)    // __m256i _mm256_permutex2var_epi8 (__m256i a, __m256i idx, __m256i b)

参考文献

  • 《AdvSimd.Arm64.VectorTableLookup 方法》. https://learn.microsoft.com/zh-cn/dotnet/api/system.runtime.intrinsics.arm.advsimd.arm64.vectortablelookup?view=net-8.0
  • 《Avx512Vbmi.PermuteVar64x8x2 方法》. https://learn.microsoft.com/zh-cn/dotnet/api/system.runtime.intrinsics.x86.avx512vbmi.permutevar64x8x2?view=net-8.0
  • 《Avx512Vbmi.VL 类》. https://learn.microsoft.com/zh-cn/dotnet/api/system.runtime.intrinsics.x86.avx512vbmi.vl?view=net-8.0
  • Kunal Pathak《Arm64 Performance Improvements in .NET 8》. https://devblogs.microsoft.com/dotnet/this-arm64-performance-in-dotnet-8/

这篇关于[C#] .NET8增加了Arm架构的多寄存器的查表函数(VectorTableLookup/VectorTableLookupExtension)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/840211

相关文章

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使

Kotlin 作用域函数apply、let、run、with、also使用指南

《Kotlin作用域函数apply、let、run、with、also使用指南》在Kotlin开发中,作用域函数(ScopeFunctions)是一组能让代码更简洁、更函数式的高阶函数,本文将... 目录一、引言:为什么需要作用域函数?二、作用域函China编程数详解1. apply:对象配置的 “流式构建器”最

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

C#数据结构之字符串(string)详解

《C#数据结构之字符串(string)详解》:本文主要介绍C#数据结构之字符串(string),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录转义字符序列字符串的创建字符串的声明null字符串与空字符串重复单字符字符串的构造字符串的属性和常用方法属性常用方法总结摘

C#如何动态创建Label,及动态label事件

《C#如何动态创建Label,及动态label事件》:本文主要介绍C#如何动态创建Label,及动态label事件,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C#如何动态创建Label,及动态label事件第一点:switch中的生成我们的label事件接着,

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

Java异常架构Exception(异常)详解

《Java异常架构Exception(异常)详解》:本文主要介绍Java异常架构Exception(异常),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. Exception 类的概述Exception的分类2. 受检异常(Checked Exception)

C#基础之委托详解(Delegate)

《C#基础之委托详解(Delegate)》:本文主要介绍C#基础之委托(Delegate),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 委托定义2. 委托实例化3. 多播委托(Multicast Delegates)4. 委托的用途事件处理回调函数LINQ

在C#中调用Python代码的两种实现方式

《在C#中调用Python代码的两种实现方式》:本文主要介绍在C#中调用Python代码的两种实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C#调用python代码的方式1. 使用 Python.NET2. 使用外部进程调用 Python 脚本总结C#调