使用SSE指令集来优化程序

2024-06-18 05:38

本文主要是介绍使用SSE指令集来优化程序,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

     SSE和SSE2的指令系统非常相似,SSE2比SSE多的仅是少量的额外浮点处理功能、64位浮点数运算支持和64位整数运算支持。

    SSE为什么会比传统的浮点运算更快呢?因为它使用了128位的存储单元,这对于32位的浮点数来讲,是可以存下4个的,也就是说,SSE中的所有计算都是一次性针对4个浮点数来完成的。

    虽然SSE从理论上来讲要比传统的浮点运算会快,但是所受的限制也很多,首先,虽然它执行一次相当于四次,会比传统的浮点运算执行4次的速度要快,但是它执行一次的速度却并没有想象中的那么快,所以要体现SSE的速度,必须有Stream做前提,就是大量的流数据,这样才能发挥SIMD的强大作用。其次,SSE支持的数据类型是4个32位(共计128位)浮点数集合,就是C、C++语言中的float[4],并且必须是以16位字节边界对齐的。因此这也给输入和输出带来了不少的麻烦,实际上主要影响SSE发挥性能的就是不停地对数据进行复制以适用应它的数据格式。

    如果你是一个C++程序员,对汇编并不很熟,但又想用SSE来优化程序,该怎么做呢?幸好VC++为我们提供了很方便的指令C函数级的封装和C格式数据类型,我们只需像平时写C++代码一样定义变量、调用函数就可以很好地应用SSE指令了。

 

    当然了,我们需要包含一个头文件,这里面包括了我们需要的数据类型和函数的声明:

 #include <xmmintrin.h>

 

SSE运算的标准数据类型只有一个,就是:__m128,它是这样定义的:

 typedef struct __declspec(intrin_type) __declspec(align(16)) __m128{float m128_f32[4];} __m128;

 

简化一下,就是:

struct __m128{float m128_f32[4];};

 

比如要定义一个__m128变量,并为它赋四个float整数,可以这样写:

__m128 S1 = { 1.0f, 2.0f, 3,0f, 4,0f };

 

要改变其中第2个(基数为0)元素时可以这样写:

 S1.m128_f32[2] = 6.0f;

 

令外我们还会用到几个赋值的指令,它可以让我们更方便的使用这个数据结构:

 S1 = _mm_set_ps1( 2.0f );

 

它会让S1.m128_f32中的四个元素全部赋予2.0f,这样会比你一个一个赋值要快的多。

S1 = _mm_setzero_ps();

这会让S1中的所有4个浮点数都置零。

 

还有一些其它的赋值指令,但执行起来还没有自己逐个赋值来的快,只作为一些特殊用途,如果想了解更多的信息,可以参考MSDN -> Visual Studio -> Reference -> C/C++Language -> Compiler Intrinsics -> MMX, SSE, and SSE2 Intrinsics -> Stream SIMD Extensions(SSE)章节。

 

    一般来讲,所有SSE指令函数都有3个部分组成,中间用下划线隔开:

  _mm_set_ps1

  •  mm表示多媒体扩展指令集
  •  set表示此函数的含义缩写

 

ps1表示该函数对结果变量的影响,由两个字母组成,第一个字母表示对结果变量的影响方式,p表示把结果作为指向一组数据的指针,每一个元素都将参与运算,S表示只将结果变量中的第一个元素参与运算;第二个字母表示参与运算的数据类型。s表示32位浮点数,d表示64位浮点数,i32表示32位定点数,i64表示64位定点数。

 

接下来举一个例子来说明SSE的指令函数是如何使用的,必须要说明的是我以下的代码都是在VC7.1的平台上写的,不保证对其它如Dev-C++、Borland C++等开发平台的完全兼容。

       为了方便对比速度,会用常规方法和SSE优化两种写法写出,并会用一个测试速度的类CTimer来进行计时。

 

这个算法是对一组float值进行放大,函数ScaleValue1是使用SSE指令优化的,函数ScaleValue2则没有。我们用10000个元素的float数组数据来测试这两个算法,每个算法运算10000遍,下面是测试程序和结果:

#include <xmmintrin.h>
#include <windows.h>class CTimer
{
public:__forceinline CTimer( void ){QueryPerformanceFrequency( &m_Frequency );QueryPerformanceCounter( &m_StartCount );}__forceinline void Reset( void ){QueryPerformanceCounter( &m_StartCount );}__forceinline double End( void ){static __int64 nCurCount;QueryPerformanceCounter( (PLARGE_INTEGER)&nCurCount );return double( nCurCount * ( *(__int64*)&m_StartCount ) ) / double( *(__int64*)&m_Frequency );}private:LARGE_INTEGER m_Frequency;LARGE_INTEGER m_StartCount;
};void ScaleValue1( float *pArray, DWORD dwCount, float fScale )
{DWORD dwGroupCount = dwCount / 4;__m128 e_Scale = _mm_set_ps1( fScale );for ( DWORD i = 0; i < dwGroupCount; i++ ){*(__m128*)( pArray + i * 4 ) = _mm_mul_ps( *(__m128*)( pArray + i * 4 ), e_Scale );}
}void ScaleValue2( float *pArray, DWORD dwCount, float fScale )
{for ( DWORD i = 0; i < dwCount; i++ ){pArray[i] *= fScale;}
}#define ARRAYCOUNT 10000int __cdecl main()
{float __declspec(align(16)) Array[ARRAYCOUNT];memset( Array, 0, sizeof(float) * ARRAYCOUNT );CTimer t;double dTime;t.Reset();for ( int i = 0; i < 100000; i++ ){ScaleValue1( Array, ARRAYCOUNT, 1000.0f );}dTime = t.End();cout << "Use SSE:" << dTime << "秒" << endl;t.Reset();for ( int i = 0; i < 100000; i++ ){ScaleValue2( Array, ARRAYCOUNT, 1000.0f );} dTime = t.End();cout << "Not Use SSE:" << dTime << "秒" << endl;system( "pause" );return 0;
}

Use SSE:0.997817

Not Use SSE:2.84963

         这里要注意一下,此处使用了__declspec(align(16))作为数组定义的修释符,这表示该数组是以16字节为边界对齐的,因为SSE指令只能支持这种格式的内存数据。

 

  • SSE
    • CVTSI2SS – 把一个64位的有符号整型转换为一个浮点值,并把它插入到一个128位的参数中。内部指令:_mm_cvtsi64_ss
    • CVTSS2SI – 取出一个32位的浮点值,并取整(四舍五入)为一个64位的整型。内部指令:_mm_cvtss_si64
    • CVTTSS2SI – 取出一个32位的浮点值,并截断为一个64位的整型。内部指令:_mm_cvttss_si64
  • SSE2
    • CVTSD2SI – 取出最低位的64位浮点值,并取整为一个整型。内部指令:_mm_cvtsd_si64
    • CVTSI2SD – 取出最低位的64位整型,并将其转换为一个浮点值。内部指令:_mm_cvtsi64_sd
    • CVTTSD2SI – 取出一个64位的浮点值,并截断为一个64位的整型。内部指令:_mm_cvttsd_si64
    • MOVNTI – 写64位数据到特定内存位置。内部指令:_mm_stream_si64
    • MOVQ – 移动一个64位的整型到一个128位的参数中,或从128位的参数中移动一个64位的整型。内部指令:_mm_cvtsi64_si128、_mm_cvtsi128_si64
  • SSSE3
    • PABSB / PABSW / PABSD – 取有符号整型的绝对值。内部指令:_mm_abs_epi8、_mm_abs_epi16、_mm_abs_epi32、_mm_abs_pi8、_mm_abs_pi16、_mm_abs_pi32
    • PALIGNR – 结合两个参数并右移结果。内部指令:_mm_alignr_epi8、_mm_alignr_pi8
    • PHADDSW – 将两个包含16位有符号整型的参数相加,并尽量使结果为16位可表示的最大值。内部指令:_mm_hadds_epi16、_mm_hadds_pi16
    • PHADDW / PHADDD – 将两个包含有符号整型的参数相加。内部指令:_mm_hadd_epi16、_mm_hadd_epi32、_mm_hadd_pi16、_mm_hadd_pi32
    • PHSUBSW – 将两个包含16位有符号整型的参数相减,并尽量使结果为16位可表示的最大值。内部指令:_mm_hsubs_epi16、_mm_shubs_pi16
    • PHSUBW / PHSUBD – 将两个包含有符号整型的参数相减。内部指令:_mm_hsub_epi16、_mm_hsub_epi32、_mm_hsub_pi16、_mm_hsub_pi32
    • PMADDUBSW – 相乘并相加8位整型。内部指令:_mm_maddubs_epi16、_mm_maddubs_pi16
    • PMULHRSW – 乘以16位有符号整型,并右移结果。内部指令:_mm_mulhrs_epi16、_mm_mulhrs_pi16
    • PSHUFB – 从一个128位的参数中选取并乱序其中8位的数据块。内部指令:_mm_shuffle_epi8、_mm_shuffle_pi8
    • PSIGNB / PSIGNW / PSIGND – 求反(取非)、取零、或保留有符号整型。内部指令:_mm_sign_epi8、_mm_sign_epi16、_mm_sign_epi32、_mm_sign_pi8、_mm_sign_pi16、_mm_sign_pi32
  • SSE4A
    • EXTRQ – 从参数中取特定位。内部指令:_mm_extract_si64、_mm_extracti_si64
    • INSERTQ – 插入特定位到给定参数中。内部指令:_mm_insert_si64、_mm_inserti_si64
    • MOVNTSD / MOVNTSS – 不使用缓存,直接把数据位写到特定内存位置。内部指令:_mm_stream_sd、_mm_stream_ss
  • SSE4.1
    • DPPD / DPPS – 计算两参数的点结果。内部指令:_mm_dp_pd、_mm_dp_ps
    • EXTRACTPS – 从参数中取出一个特定的32位浮点值。内部指令:_mm_extract_ps
    • INSERTPS – 把一个32位整型插入到一个128位参数中,并把某些位置零。内部指令:_mm_insert_ps
    • MOVNTDQA – 从特定内存位置加载128位数据。内部指令:_mm_stream_load_si128
    • MPSADBW – 计算绝对差分的八个偏移总和。内部指令:_mm_mpsadbw_epu8
    • PACKUSDW – 使用16位饱和度,把32位有符号整型转换为有符号16位整型。内部指令:_mm_packus_epi32
    • PBLENDW / BLENDPD / BLENDPS / PBLENDVB / BLENDVPD / BLENDVPS – 把两个不同块大小的参数混合在一起。内部指令:_mm_blend_epi16、_mm_blend_pd、_mm_blend_ps、_mm_blendv_epi8、_mm_blendv_pd、_mm_blendv_ps
    • PCMPEQQ - 比较64位整型是否相等。内部指令:_mm_cmpeq_epi64
    • PEXTRB / PEXTRW / PEXTRD / PEXTRQ - 从输入的参数中取出一个整型。内部指令:_mm_extract_epi8、_mm_extract_epi16、_mm_extract_epi32、_mm_extract_epi64
    • PHMINPOSUW - 选择最小的16位无符号整型并确定它的下标。内部指令:_mm_minpos_epu16
    • PINSRB / PINSRD / PINSRQ - 把一个整型插入到一个128位参数中。内部指令:_mm_insert_epi8、_mm_insert_epi32、_mm_insert_epi64
    • PMAXSB / PMAXSD - 接受两个参数中的有符号整型,并选择其中的最大者。内部指令:_mm_max_epi8、_mm_max_epi32
    • PMAXUW / PMAXUD - 接受两个参数中的无符号整型,并选择其中的最大者。内部指令:_mm_max_epu16、_mm_max_epu32
    • PMINSB / PMINSD - 接受两个参数中的有符号整型,并选择其中的最小者。内部指令:_mm_min_epi8、_mm_min_epi32
    • PMINUW / PMINUD - 接受两个参数中的无符号整型,并选择其中的最小者。内部指令:_mm_min_epu16、_mm_min_epu32
    • PMOVSXBW / PMOVSXBD / PMOVSXBQ / PMOVSXWD / PMOVSXWQ / PMOVSXDQ - 把一有符号整型转换到更大的尺寸。内部指令:_mm_cvtepi8_epi16、_mm_cvtepi8_epi32、_mm_cvtepi8_epi64、_mm_cvtepi16_epi32、_mm_cvtepi16_epi64、_mm_cvtepi32_epi64
    • PMOVZXBW / PMOVZXBD / PMOVZXBQ / PMOVZXWD / PMOVZXWQ / PMOVZXDQ - 把一无符号整型转换到更大的尺寸。内部指令:_mm_cvtepu8_epi16、_mm_cvtepu8_epi32、_mm_cvtepu8_epi64、_mm_cvtepu16_epi32、_mm_cvtepu16_epi64、_mm_cvtepu32_epi64
    • PMULDQ - 32位有符号整型相乘,并把结果存储为64位有符号整型。内部指令:_mm_mul_epi32
    • PMULLUD - 32位有符号整型相乘。内部指令:_mm_mullo_epi32
    • PTEST - 按位计算两个128位参数,并基于CC标志寄存器的CF与ZF位返回值。内部指令:_mm_testc_si128、_mm_testnzc_si128、_mm_testz_si128
    • ROUNDPD / ROUNDPS - 取整浮点数值。内部指令:_mm_ceil_pd、_mm_ceil_ps、_mm_floor_pd、_mm_floor_ps、_mm_round_pd、_mm_round_ps
    • ROUNDSD / ROUNDSS - 结合两个参数,从其一取整到一个浮点数值。内部指令:_mm_ceil_sd、_mm_ceil_ss、_mm_floor_sd、_mm_floor_ss、_mm_round_sd、_mm_round_ss
  • SSE4.2
    • CRC32 - 计算参数的CRC-32C检验和。内部指令:_mm_crc32_u8、_mm_crc32_u16、_mm_crc32_u32、_mm_crc32_u64
    • PCMPESTRI / PCMPESTRM -比较特定长度的两个参数。内部指令:_mm_cmpestra、_mm_cmpestrc、_mm_cmpestri、_mm_cmpestrm、_mm_cmpestro、_mm_cmpestrs、_mm_cmpestrz
    • PCMPGTQ - 比较两个参数。内部指令:_mm_cmpgt_epi64
    • PCMPISTRI / PCMPISTRM - 比较两个参数。内部指令:_mm_cmpistra、_mm_cmpistrc、_mm_cmpistri、_mm_cmpistrm、_mm_cmpistro、_mm_cmpistrs、_mm_cmpistrz
    • POPCNT - 统计位集中1的数量。内部指令:_mm_popcnt_u32、_mm_popcnt_u64、__popcnt16、__popcnt、__popcnt64
  • 高级位操纵
    • LZCNT - 统计参数中零的数量。内部指令:__lzcnt16、 __lzcnt、__lzcnt64
    • POPCNT - 统计位集中1的数量。内部指令:_mm_popcnt_u32、_mm_popcnt_u64、__popcnt16、__popcnt、__popcnt64
  • 其他新指令
    • _InterlockedCompareExchange128 - 对比两个参数。
    • _mm_castpd_ps / _mm_castpd_si128 / _mm_castps_pd / _mm_castps_si128 / _mm_castsi128_pd / _mm_castsi128_ps - 对32位浮点值(ps)、64位浮点值(pd)及32位整型值(si128)重新解释。
    • _mm_cvtsd_f64 - 从参数中取出最低的64位浮点值。
    • _mm_cvtss_f32 - 取出一个32位的浮点值。
    • _rdtscp - 生成RDTSCP。把TSC AUX[31:0]写到内存,并返回64位时间戳计数器结果。

 

本文转载于:https://blog.csdn.net/xieqidong/article/details/2612847

这篇关于使用SSE指令集来优化程序的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1071447

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]