本文主要是介绍NEON + OpenMP测试,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
在嵌入式的开发中,一直有在使用OpenMP和NEON加速,这次对二者的加速效果做了一个对比,包括二者的组合效果,因为只测试了加法的情况,其他的运行逻辑需要再实际使用中评估。
具体的测试代码如下:
#include <QCoreApplication>
#include <omp.h>
#include <arm_neon.h>
#include <QTime>
#include <QDebug>int test(uint n)
{uint sum = 0;for(uint i=0;i<n;++i){sum+=1;}return sum;
}uint testNeon(uint n)
{uint sum = 0;uint array[10000];for(uint i=0;i<10000;i++){array[i]=1;}uint32x4_t in1,in2;in1 = vld1q_u32(array);for(uint j=0;j<100;j++){uint i=0;if(j==0)i=1;for(;i<(10000/4);++i){uint * temp = (array+4*i);in2 = vld1q_u32(temp);in1 = vaddq_u32(in1,in2);}}sum = vaddvq_u32(in1);return sum;
}int main(int argc, char *argv[])
{QCoreApplication a(argc, argv);uint n = 1000000,sum=0;qDebug("********NO ACC TEST********");QTime timer = QTime::currentTime();for(int i =0;i<1000;i++){sum+=test(n);}qDebug("NO ACC TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);sum=0;qDebug("********OpenMP(2) TEST********");timer = QTime::currentTime();#pragma omp parallel for reduction(+:sum) num_threads(2)for(int i =0;i<1000;i++){sum+=test(n);}qDebug("OpenMP(2) TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);sum=0;qDebug("********OpenMP(4) TEST********");timer = QTime::currentTime();#pragma omp parallel for reduction(+:sum) num_threads(4)for(int i =0;i<1000;i++){sum+=test(n);}qDebug("OpenMP(4) TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);sum=0;qDebug("********NEON TEST********");timer = QTime::currentTime();for(int i =0;i<1000;i++){sum+=testNeon(n);}qDebug("NEON TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);sum=0;qDebug("********NEON+OpenMP(2) TEST********");timer = QTime::currentTime();#pragma omp parallel for reduction(+:sum) num_threads(2)for(int i =0;i<1000;i++){sum+=testNeon(n);}qDebug("NEON+openmp(2) COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);sum=0;qDebug("********NEON+openmp(4) TEST********");timer = QTime::currentTime();#pragma omp parallel for reduction(+:sum) num_threads(4)for(int i =0;i<1000;i++){sum+=testNeon(n);}qDebug("NEON+openmp(4) TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);return a.exec();
}
最终的运行结果如下:
********NO ACC TEST********
NO ACC TEST COST: 1171 ms, sum=1000000000
********OpenMP(2) TEST********
OpenMP(2) TEST COST: 560 ms, sum=1000000000
********OpenMP(4) TEST********
OpenMP(4) TEST COST: 437 ms, sum=1000000000
********NEON TEST********
NEON TEST COST: 489 ms, sum=1000000000
********NEON+OpenMP(2) TEST********
NEON+openmp(2) COST: 222 ms, sum=1000000000
********NEON+openmp(4) TEST********
NEON+openmp(4) TEST COST: 205 ms, sum=1000000000
加速 方式 | NO | OpenMP(2) | OpenMP(4) | NEON | NEON + OpenMP(2) | NEON + OPENMP(4) |
结果 | 正确 | 正确 | 正确 | 正确 | 正确 | 正确 |
时间 | 1171 | 560 | 437 | 489 | 222 | 205 |
可以看到同时使用两者的方式,加速效果最好,但是当OpenMP使用的核数增多时,加速效果降低。在并行计算量比较小的时候,有限使用NEON加速。
这篇关于NEON + OpenMP测试的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!