SIMD——请不要妄图优化opencv的函数

2023-11-21 15:10

本文主要是介绍SIMD——请不要妄图优化opencv的函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大纲

  • ORB-SLAM特征提取之SIMD优化
    • 一、优化手段
      • 1、NEON
      • 2、SSE
    • 二、cv::gaussianblur函数优化
    • 三、cv::FAST函数优化
    • 四、原因分析

ORB-SLAM特征提取之SIMD优化

一、优化手段

1、NEON

NEON是基于ARM架构的一种128位的SIMD(Single Instruction, Multiple Data,单指令、多数据)的拓展结构,具体的细节在这里不做过多的介绍,我们来讨论NEON在实际工程中的两种使用方式:

(1)汇编

相信学习过单片机的朋友对汇编语言一定都是又恨又怕,复杂的指令与奇怪的逻辑令人望而却步,我们来看一小段基于汇编的NEON指令:

 "vld1.8       {d8,d9}, [%[in0]]\n\t""add          %[in0], %[step]\n\t""vld1.8       {d10,d11}, [%[in1]]\n\t""add          %[in1], %[step]\n\t""vld1.8       {d12,d13}, [%[in0]]\n\t""add          %[in0], %[step]\n\t""vld1.8       {d14,d15}, [%[in1]]\n\t"

什么东西?这是什么东西!说实话,我也看不太懂,所以基于汇编的NEON指令难度大,可移植性差,但是由于汇编语言的特性,决定了它具有很高的效率。Anyway,我们来看下一种方式。

(2)使用arm提供的Intrinsics函数
可以认为是内联函数,但是在编译时编译器会将函数转化为neon指令。调用该函数需要包含头文件arm_neon.h,该头文件包含了neon各种操作函数。当然,我在这里同样来展示一段代码:

 for(; j < img.cols - 16 - 3; j += 16, ptr += 16){uint8x16_t m0,m1;uint8x16_t v0 = vld1q_u8((const uint8_t*)ptr);uint8x16_t v1 = vqsubq_u8(v0,t);v0 = vqaddq_u8(v0,t);

了解过NEON的同学这段代码应该不难看懂,就是简单的加减法,我们可以看到,这种内联方式的NEON代码指令难度低,可移植行也就比汇编形式的高很多。

2、SSE

SSE是Intel x86架构CPU的SIMD指令的简称,与NEON一样具有汇编和内联函数两种形式。

二、cv::gaussianblur函数优化

由于本次实验的电脑是intel的CPU,所以采用SSE优化的方式对高斯模糊函数进行优化,在优化之前,记录了cv::gaussianblur函数的效率如下图所示:在这里插入图片描述9.41ms,在我的认知领域内,应该不是具有很高效率的时常,所以我对该函数进行了SSE优化,对gaussainblur函数的源码进行了修改,执行时间如下:在这里插入图片描述惊人的148ms。当然,如果你需要的源码,可以私信我,我发给你自己run一下。总的来说,这并不是一次非常愉快的优化过程,同样的,接下来的SSE优化也令我大跌眼镜。

三、cv::FAST函数优化

FAST提取图像中的特征点是ORB-SLAM系列中使用的一种方法,具体原理不再赘述,因为这毕竟不是一篇介绍SLAM算法的blog,我们来看opencv实现的FAST函数耗时如何:在这里插入图片描述
结果是2.65ms,不得不说opencv优化的已经很好了。注意!!!这里使用了和ORBSLAM2中相同的阈值:20。在ORBSLAM2中该函数在网格的循环遍历中被调用,ORBSLAM2将图像分为30x30个网格,在每个网格中进行FAST角点检测,经过测量,每个网格中耗时约为0.02ms,为什么差异这么大呢,首先于ORBSLAM中独特的网格划分有关系,其次与图像的大小也有关系。接下来,我们来看我进行了SSE优化的代码,相关代码已经有NEON实现,你需要做的只是将NEON转化为SSE即可:在这里插入图片描述50ms。。唉,当我看到这个结果的时候,心里有一种说不出的酸楚…

四、原因分析

实验失败不可怕,可怕的是不分析为什么失败,经过资料的查询与文献的阅读我大概的掌握了其中的奥义。

(1)OpenCV的函数自带SIMD加速,无论是gaussainblur还是FAST都自带了SMID的并行加速,并且OpenCV代码结构和顺序更加合理,能够更好的发挥CPU的全部性能
(2)OpenCV的优化是按照运行环境中CPU的架构来决定的,我们知道到INTEL的SIMD指令集avx512是高于SSE的,由于我运行的环境中支持avx512,所以使用该指令集的优化代码效率必然高于SSE。
(3)最终的建议是:别动OpenCV的源码为好,除非用汇编…,这得是神人来写了。

这篇关于SIMD——请不要妄图优化opencv的函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/403146

相关文章

opencv实现像素统计的示例代码

《opencv实现像素统计的示例代码》本文介绍了OpenCV中统计图像像素信息的常用方法和函数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 统计像素值的基本信息2. 统计像素值的直方图3. 统计像素值的总和4. 统计非零像素的数量

正则表达式高级应用与性能优化记录

《正则表达式高级应用与性能优化记录》本文介绍了正则表达式的高级应用和性能优化技巧,包括文本拆分、合并、XML/HTML解析、数据分析、以及性能优化方法,通过这些技巧,可以更高效地利用正则表达式进行复杂... 目录第6章:正则表达式的高级应用6.1 模式匹配与文本处理6.1.1 文本拆分6.1.2 文本合并6

C++11的函数包装器std::function使用示例

《C++11的函数包装器std::function使用示例》C++11引入的std::function是最常用的函数包装器,它可以存储任何可调用对象并提供统一的调用接口,以下是关于函数包装器的详细讲解... 目录一、std::function 的基本用法1. 基本语法二、如何使用 std::function

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

hdu1171(母函数或多重背包)

题意:把物品分成两份,使得价值最接近 可以用背包,或者是母函数来解,母函数(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v) 其中指数为价值,每一项的数目为(该物品数+1)个 代码如下: #include<iostream>#include<algorithm>

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

opencv 滚动条

参数介绍:createTrackbar( trackbarname , "hello" , &alpha_slider ,alpha_max ,  on_trackbar )  ;在标签中显示的文字(提示滑动条的用途) TrackbarName创建的滑动条要放置窗体的名字 “hello”滑动条的取值范围从 0 到 alpha_max (最小值只能为 zero).滑动后的值存放在