C++ SIMD性能优化

2024-06-18 03:04
文章标签 c++ 优化 性能 simd

本文主要是介绍C++ SIMD性能优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

// 使用SIMD指令优化的向量加法
//<mmintrin.h> MMX
//<xmmintrin.h>	SSE
//<emmintrin.h>	SSE2
//<pmmintrin.h>	SSE3
//<tmmintrin.h>	SSSE3
//<smmintrin.h>	SSE4.1
//<nmmintrin.h> SSE4.2
//<wmmintrin.h> AES
//<immintrin.h>	AVX, AVX2, FMA, BMI, POPCNT, AVX512
//<x86intrin.h>	Auto(GCC)
//<intrin.h> Auto(MSVC)
#include <emmintrin.h> // 包含SSE2指令集
#include <valarray>
#include <iostream>
#include <chrono>
#include <vector>__m128i vector_add(__m128i a, __m128i b) {return _mm_add_epi32(a, b);
}void add_vectors(int* a, int* b, int* c, int size) {for (int i = 0; i < size; i += 4) {__m128i va = _mm_load_si128((__m128i*)(a + i));__m128i vb = _mm_load_si128((__m128i*)(b + i));__m128i vc = _mm_add_epi32(va, vb);_mm_store_si128((__m128i*)(c + i), vc);}
}int test() {std::valarray<float> a = { 1.0, 2.0, 3.0, 4.0 };std::valarray<float> b = { 5.0, 6.0, 7.0, 8.0 };std::valarray<float> c = a + b;for (auto& element : c) {std::cout << element << " ";}std::cout << std::endl;// 数据量小std::vector<int> a1(10);std::vector<int> b1(10);for (size_t i = 0; i < 10; i++){a1[i] = i;b1[i] = i + 1;}std::vector<int> c1(10);std::chrono::steady_clock::time_point t1 = std::chrono::steady_clock::now();add_vectors(&a1[0], &b1[0], &c1[0], 4);std::chrono::steady_clock::time_point t2 = std::chrono::steady_clock::now();std::cout << "simd cost " << (t2 - t1).count() << std::endl;std::chrono::steady_clock::time_point t3 = std::chrono::steady_clock::now();for (size_t i = 0; i < c1.size(); ++i)c1.at(i) = a1.at(i) + b1.at(i);std::chrono::steady_clock::time_point t4 = std::chrono::steady_clock::now();std::cout << "cost " << (t4 - t3).count() << std::endl;// 数据量大std::vector<int> a2(10000);std::vector<int> b2(10000);for (size_t i = 0; i < 10000; i++){a2[i] = i;b2[i] = i + 1;}std::vector<int> c2(10000);t1 = std::chrono::steady_clock::now();add_vectors(&a2[0], &b2[0], &c2[0], 4);t2 = std::chrono::steady_clock::now();std::cout << "simd cost " << (t2 - t1).count() << std::endl;t3 = std::chrono::steady_clock::now();for (size_t i = 0; i < c2.size(); ++i)c2.at(i) = a2.at(i) + b2.at(i);t4 = std::chrono::steady_clock::now();std::cout << "cost " << (t4 - t3).count() << std::endl;//for (const auto& ele : c1)//    std::cout << ele << " ";return 0;
}

输出

6 8 10 12
simd cost 500
cost 400
simd cost 5700
cost 49200


总结: 数据运算量小无效果,数据运算量大效果提升显著

参考

GitHub - parallel101/simdtutor: x86-64 SIMD矢量优化系列教程

GitHub - google/highway: Performance-portable, length-agnostic SIMD with runtime dispatch


创作不易,小小的支持一下吧!

这篇关于C++ SIMD性能优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1071132

相关文章

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

一文详解SpringBoot响应压缩功能的配置与优化

《一文详解SpringBoot响应压缩功能的配置与优化》SpringBoot的响应压缩功能基于智能协商机制,需同时满足很多条件,本文主要为大家详细介绍了SpringBoot响应压缩功能的配置与优化,需... 目录一、核心工作机制1.1 自动协商触发条件1.2 压缩处理流程二、配置方案详解2.1 基础YAML

C++ 中的 if-constexpr语法和作用

《C++中的if-constexpr语法和作用》if-constexpr语法是C++17引入的新语法特性,也被称为常量if表达式或静态if(staticif),:本文主要介绍C++中的if-c... 目录1 if-constexpr 语法1.1 基本语法1.2 扩展说明1.2.1 条件表达式1.2.2 fa

MySQL中慢SQL优化的不同方式介绍

《MySQL中慢SQL优化的不同方式介绍》慢SQL的优化,主要从两个方面考虑,SQL语句本身的优化,以及数据库设计的优化,下面小编就来给大家介绍一下有哪些方式可以优化慢SQL吧... 目录避免不必要的列分页优化索引优化JOIN 的优化排序优化UNION 优化慢 SQL 的优化,主要从两个方面考虑,SQL 语

MySQL中慢SQL优化方法的完整指南

《MySQL中慢SQL优化方法的完整指南》当数据库响应时间超过500ms时,系统将面临三大灾难链式反应,所以本文将为大家介绍一下MySQL中慢SQL优化的常用方法,有需要的小伙伴可以了解下... 目录一、慢SQL的致命影响二、精准定位问题SQL1. 启用慢查询日志2. 诊断黄金三件套三、六大核心优化方案方案

C++中::SHCreateDirectoryEx函数使用方法

《C++中::SHCreateDirectoryEx函数使用方法》::SHCreateDirectoryEx用于创建多级目录,类似于mkdir-p命令,本文主要介绍了C++中::SHCreateDir... 目录1. 函数原型与依赖项2. 基本使用示例示例 1:创建单层目录示例 2:创建多级目录3. 关键注

C++从序列容器中删除元素的四种方法

《C++从序列容器中删除元素的四种方法》删除元素的方法在序列容器和关联容器之间是非常不同的,在序列容器中,vector和string是最常用的,但这里也会介绍deque和list以供全面了解,尽管在一... 目录一、简介二、移除给定位置的元素三、移除与某个值相等的元素3.1、序列容器vector、deque

C++常见容器获取头元素的方法大全

《C++常见容器获取头元素的方法大全》在C++编程中,容器是存储和管理数据集合的重要工具,不同的容器提供了不同的接口来访问和操作其中的元素,获取容器的头元素(即第一个元素)是常见的操作之一,本文将详细... 目录一、std::vector二、std::list三、std::deque四、std::forwa