Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践

2024-01-27 06:12

本文主要是介绍Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景:在某个嵌入式上的图像处理项目功能开发告一段落,进入性能优化阶段。尝试从多线程上对图像处理过程进行加速。经过初步调研后,可以从OPENMP,TBB这两块进行加速,当前项目中有些算法已采用多线程加速,这次主要是对比以上两个加速模块与多线程加速效果的对比。现在PC上实验,然后再移植相关库。

环境准备:WIN11 ,VS2022 ,Debug 64
1、编译OPENCV。
经测试,编译过程是否选择TBB,MP相关选项对加载对应库和使用不影响。
2、安装TBB。(https://www.intel.com/content/www/us/en/developer/tools/oneapi/base-toolkit-download.html)
VS配置之打开相关模块。打开TBB支持
打开openmp支持

对比过程:实验对比的对象包括:
1、基础FOR循环。
2、多线程。
3、原数据相同的TBB。
4、原数据独立的TBB。
5、原数据相同的OPENMP;
6、原数据独立的OPENMP;
测试数据为960*600的图像,测试内容为对该图进行大尺寸滤波操作。

测试代码:

#include <fstream>
#include <iostream>
#include <vector>
#include <opencv2/opencv.hpp>
#include <omp.h>
#include <future>
#include <thread>
#include <tbb/parallel_for.h>
#include <tbb/blocked_range.h>int main()
{const static int iCnt = 50;//循环次数Mat imori = imread("ori.png");cvtColor(imori, imori, COLOR_BGR2GRAY);Mat imoriMt, imoriMP, imoriTbb, imoriAMP[iCnt], imoriATBB[iCnt];imori.copyTo(imoriMt);imori.copyTo(imoriMP);imori.copyTo(imoriTbb);for (size_t i = 0; i < iCnt; i++){imori.copyTo(imoriAMP[i]);imori.copyTo(imoriATBB[i]);}Mat imRslt[iCnt], imRsltMt[iCnt], imRsltMP[iCnt], imRsltAMP[iCnt],imRsltTbb[iCnt], imRsltATBB[iCnt];std::vector<std::future<void>> vFutures(iCnt);double start1 = omp_get_wtime();{for (int i = 0; i < iCnt; i++){Mat kealMN = Mat::ones(25, 25, CV_32F);filter2D(imori, imRslt[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}}double end1 = omp_get_wtime();cout << " cv Normal Time = " << (end1 - start1) << endl;double startMt = omp_get_wtime();int i = 0;for (auto iter = vFutures.begin(); iter != vFutures.end(); iter++, i++)*iter = std::async([](cv::Mat* imRslt, Mat imori, int i) {Mat kealMN = Mat::ones(33, 33, CV_32F); filter2D(imori, imRslt[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101); }, imRsltMt, imoriMt, i);for (auto iter = vFutures.begin(); iter != vFutures.end(); iter++)iter->get();double endMt = omp_get_wtime();cout << " cv MThread Time = " << (endMt - startMt) << endl;double startMP = omp_get_wtime();
#pragma omp parallel num_threads(iCnt){
#pragma omp forfor (int i = 0; i < iCnt; i++){Mat kealMN = Mat::ones(33, 33, CV_32F);filter2D(imoriMP, imRsltMP[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}}double endMP = omp_get_wtime();cout << " cv MP Time = " << (endMP - startMP) << endl;double startAMP = omp_get_wtime();
#pragma omp parallel num_threads(iCnt){
#pragma omp forfor (int i = 0; i < iCnt; i++){Mat kealMN = Mat::ones(33, 33, CV_32F);filter2D(imoriAMP[i], imRsltAMP[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}}double endAMP = omp_get_wtime();cout << " cv AMP Time = " << (endAMP - startAMP) << endl;double startTbb = omp_get_wtime();tbb::parallel_for(tbb::blocked_range<size_t>(0, iCnt),[&](tbb::blocked_range<size_t> r) {for (size_t i = r.begin(); i < r.end(); i++){Mat kealMN = Mat::ones(33, 33, CV_32F);filter2D(imoriTbb, imRsltTbb[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}});double endTbb = omp_get_wtime();cout << " cv Tbb Time = " << (endTbb - startTbb) << endl;double startATbb = omp_get_wtime();tbb::parallel_for(tbb::blocked_range<size_t>(0, iCnt),[&](tbb::blocked_range<size_t> r) {for (size_t i = r.begin(); i < r.end(); i++){Mat kealMN = Mat::ones(33, 33, CV_32F);filter2D(imoriATBB[i], imRsltATBB[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}});double endATbb = omp_get_wtime();cout << " cv Atbb Time = " << (endATbb - startATbb) << endl;getchar();return 0;}

实验结果:
处理结果

实验结论:
1、OPENMP,TBB可以有效对并行处理进行加速,其效果与多线程处理基本持平。
2、OPENMP,TBB的优势在于代码编写相对简单,也不用考虑线程数的设置。
3、OPENMP,TBB的基础数据独立与否,对测试速度基本不影响(待定,有的同学说会导致各线程等待访问同一数据,引起耗时增加),也可能和PC的性能较好有关。但尽量去保证数据独立性,避免处理结果错误。

ARM实践 TODO

这篇关于Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/649295

相关文章

全面掌握 SQL 中的 DATEDIFF函数及用法最佳实践

《全面掌握SQL中的DATEDIFF函数及用法最佳实践》本文解析DATEDIFF在不同数据库中的差异,强调其边界计算原理,探讨应用场景及陷阱,推荐根据需求选择TIMESTAMPDIFF或inte... 目录1. 核心概念:DATEDIFF 究竟在计算什么?2. 主流数据库中的 DATEDIFF 实现2.1

c++ 类成员变量默认初始值的实现

《c++类成员变量默认初始值的实现》本文主要介绍了c++类成员变量默认初始值,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录C++类成员变量初始化c++类的变量的初始化在C++中,如果使用类成员变量时未给定其初始值,那么它将被

C++中NULL与nullptr的区别小结

《C++中NULL与nullptr的区别小结》本文介绍了C++编程中NULL与nullptr的区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编... 目录C++98空值——NULLC++11空值——nullptr区别对比示例 C++98空值——NUL

C++ Log4cpp跨平台日志库的使用小结

《C++Log4cpp跨平台日志库的使用小结》Log4cpp是c++类库,本文详细介绍了C++日志库log4cpp的使用方法,及设置日志输出格式和优先级,具有一定的参考价值,感兴趣的可以了解一下... 目录一、介绍1. log4cpp的日志方式2.设置日志输出的格式3. 设置日志的输出优先级二、Window

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

Spring WebFlux 与 WebClient 使用指南及最佳实践

《SpringWebFlux与WebClient使用指南及最佳实践》WebClient是SpringWebFlux模块提供的非阻塞、响应式HTTP客户端,基于ProjectReactor实现,... 目录Spring WebFlux 与 WebClient 使用指南1. WebClient 概述2. 核心依

MyBatis-Plus 中 nested() 与 and() 方法详解(最佳实践场景)

《MyBatis-Plus中nested()与and()方法详解(最佳实践场景)》在MyBatis-Plus的条件构造器中,nested()和and()都是用于构建复杂查询条件的关键方法,但... 目录MyBATis-Plus 中nested()与and()方法详解一、核心区别对比二、方法详解1.and()

Spring Boot @RestControllerAdvice全局异常处理最佳实践

《SpringBoot@RestControllerAdvice全局异常处理最佳实践》本文详解SpringBoot中通过@RestControllerAdvice实现全局异常处理,强调代码复用、统... 目录前言一、为什么要使用全局异常处理?二、核心注解解析1. @RestControllerAdvice2

Spring事务传播机制最佳实践

《Spring事务传播机制最佳实践》Spring的事务传播机制为我们提供了优雅的解决方案,本文将带您深入理解这一机制,掌握不同场景下的最佳实践,感兴趣的朋友一起看看吧... 目录1. 什么是事务传播行为2. Spring支持的七种事务传播行为2.1 REQUIRED(默认)2.2 SUPPORTS2

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.