Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践

2024-01-27 06:12

本文主要是介绍Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景:在某个嵌入式上的图像处理项目功能开发告一段落,进入性能优化阶段。尝试从多线程上对图像处理过程进行加速。经过初步调研后,可以从OPENMP,TBB这两块进行加速,当前项目中有些算法已采用多线程加速,这次主要是对比以上两个加速模块与多线程加速效果的对比。现在PC上实验,然后再移植相关库。

环境准备:WIN11 ,VS2022 ,Debug 64
1、编译OPENCV。
经测试,编译过程是否选择TBB,MP相关选项对加载对应库和使用不影响。
2、安装TBB。(https://www.intel.com/content/www/us/en/developer/tools/oneapi/base-toolkit-download.html)
VS配置之打开相关模块。打开TBB支持
打开openmp支持

对比过程:实验对比的对象包括:
1、基础FOR循环。
2、多线程。
3、原数据相同的TBB。
4、原数据独立的TBB。
5、原数据相同的OPENMP;
6、原数据独立的OPENMP;
测试数据为960*600的图像,测试内容为对该图进行大尺寸滤波操作。

测试代码:

#include <fstream>
#include <iostream>
#include <vector>
#include <opencv2/opencv.hpp>
#include <omp.h>
#include <future>
#include <thread>
#include <tbb/parallel_for.h>
#include <tbb/blocked_range.h>int main()
{const static int iCnt = 50;//循环次数Mat imori = imread("ori.png");cvtColor(imori, imori, COLOR_BGR2GRAY);Mat imoriMt, imoriMP, imoriTbb, imoriAMP[iCnt], imoriATBB[iCnt];imori.copyTo(imoriMt);imori.copyTo(imoriMP);imori.copyTo(imoriTbb);for (size_t i = 0; i < iCnt; i++){imori.copyTo(imoriAMP[i]);imori.copyTo(imoriATBB[i]);}Mat imRslt[iCnt], imRsltMt[iCnt], imRsltMP[iCnt], imRsltAMP[iCnt],imRsltTbb[iCnt], imRsltATBB[iCnt];std::vector<std::future<void>> vFutures(iCnt);double start1 = omp_get_wtime();{for (int i = 0; i < iCnt; i++){Mat kealMN = Mat::ones(25, 25, CV_32F);filter2D(imori, imRslt[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}}double end1 = omp_get_wtime();cout << " cv Normal Time = " << (end1 - start1) << endl;double startMt = omp_get_wtime();int i = 0;for (auto iter = vFutures.begin(); iter != vFutures.end(); iter++, i++)*iter = std::async([](cv::Mat* imRslt, Mat imori, int i) {Mat kealMN = Mat::ones(33, 33, CV_32F); filter2D(imori, imRslt[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101); }, imRsltMt, imoriMt, i);for (auto iter = vFutures.begin(); iter != vFutures.end(); iter++)iter->get();double endMt = omp_get_wtime();cout << " cv MThread Time = " << (endMt - startMt) << endl;double startMP = omp_get_wtime();
#pragma omp parallel num_threads(iCnt){
#pragma omp forfor (int i = 0; i < iCnt; i++){Mat kealMN = Mat::ones(33, 33, CV_32F);filter2D(imoriMP, imRsltMP[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}}double endMP = omp_get_wtime();cout << " cv MP Time = " << (endMP - startMP) << endl;double startAMP = omp_get_wtime();
#pragma omp parallel num_threads(iCnt){
#pragma omp forfor (int i = 0; i < iCnt; i++){Mat kealMN = Mat::ones(33, 33, CV_32F);filter2D(imoriAMP[i], imRsltAMP[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}}double endAMP = omp_get_wtime();cout << " cv AMP Time = " << (endAMP - startAMP) << endl;double startTbb = omp_get_wtime();tbb::parallel_for(tbb::blocked_range<size_t>(0, iCnt),[&](tbb::blocked_range<size_t> r) {for (size_t i = r.begin(); i < r.end(); i++){Mat kealMN = Mat::ones(33, 33, CV_32F);filter2D(imoriTbb, imRsltTbb[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}});double endTbb = omp_get_wtime();cout << " cv Tbb Time = " << (endTbb - startTbb) << endl;double startATbb = omp_get_wtime();tbb::parallel_for(tbb::blocked_range<size_t>(0, iCnt),[&](tbb::blocked_range<size_t> r) {for (size_t i = r.begin(); i < r.end(); i++){Mat kealMN = Mat::ones(33, 33, CV_32F);filter2D(imoriATBB[i], imRsltATBB[i], CV_32F, kealMN, Point(-1, -1), 0, BORDER_REFLECT_101);}});double endATbb = omp_get_wtime();cout << " cv Atbb Time = " << (endATbb - startATbb) << endl;getchar();return 0;}

实验结果:
处理结果

实验结论:
1、OPENMP,TBB可以有效对并行处理进行加速,其效果与多线程处理基本持平。
2、OPENMP,TBB的优势在于代码编写相对简单,也不用考虑线程数的设置。
3、OPENMP,TBB的基础数据独立与否,对测试速度基本不影响(待定,有的同学说会导致各线程等待访问同一数据,引起耗时增加),也可能和PC的性能较好有关。但尽量去保证数据独立性,避免处理结果错误。

ARM实践 TODO

这篇关于Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/649295

相关文章

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

Java中的Opencv简介与开发环境部署方法

《Java中的Opencv简介与开发环境部署方法》OpenCV是一个开源的计算机视觉和图像处理库,提供了丰富的图像处理算法和工具,它支持多种图像处理和计算机视觉算法,可以用于物体识别与跟踪、图像分割与... 目录1.Opencv简介Opencv的应用2.Java使用OpenCV进行图像操作opencv安装j

C++中实现调试日志输出

《C++中实现调试日志输出》在C++编程中,调试日志对于定位问题和优化代码至关重要,本文将介绍几种常用的调试日志输出方法,并教你如何在日志中添加时间戳,希望对大家有所帮助... 目录1. 使用 #ifdef _DEBUG 宏2. 加入时间戳:精确到毫秒3.Windows 和 MFC 中的调试日志方法MFC

Linux中Curl参数详解实践应用

《Linux中Curl参数详解实践应用》在现代网络开发和运维工作中,curl命令是一个不可或缺的工具,它是一个利用URL语法在命令行下工作的文件传输工具,支持多种协议,如HTTP、HTTPS、FTP等... 目录引言一、基础请求参数1. -X 或 --request2. -d 或 --data3. -H 或

深入理解C++ 空类大小

《深入理解C++空类大小》本文主要介绍了C++空类大小,规定空类大小为1字节,主要是为了保证对象的唯一性和可区分性,满足数组元素地址连续的要求,下面就来了解一下... 目录1. 保证对象的唯一性和可区分性2. 满足数组元素地址连续的要求3. 与C++的对象模型和内存管理机制相适配查看类对象内存在C++中,规

基于Python实现PDF动画翻页效果的阅读器

《基于Python实现PDF动画翻页效果的阅读器》在这篇博客中,我们将深入分析一个基于wxPython实现的PDF阅读器程序,该程序支持加载PDF文件并显示页面内容,同时支持页面切换动画效果,文中有详... 目录全部代码代码结构初始化 UI 界面加载 PDF 文件显示 PDF 页面页面切换动画运行效果总结主

Docker集成CI/CD的项目实践

《Docker集成CI/CD的项目实践》本文主要介绍了Docker集成CI/CD的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、引言1.1 什么是 CI/CD?1.2 docker 在 CI/CD 中的作用二、Docke

React实现原生APP切换效果

《React实现原生APP切换效果》最近需要使用Hybrid的方式开发一个APP,交互和原生APP相似并且需要IM通信,本文给大家介绍了使用React实现原生APP切换效果,文中通过代码示例讲解的非常... 目录背景需求概览技术栈实现步骤根据 react-router-dom 文档配置好路由添加过渡动画使用

opencv实现像素统计的示例代码

《opencv实现像素统计的示例代码》本文介绍了OpenCV中统计图像像素信息的常用方法和函数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 统计像素值的基本信息2. 统计像素值的直方图3. 统计像素值的总和4. 统计非零像素的数量

在 VSCode 中配置 C++ 开发环境的详细教程

《在VSCode中配置C++开发环境的详细教程》本文详细介绍了如何在VisualStudioCode(VSCode)中配置C++开发环境,包括安装必要的工具、配置编译器、设置调试环境等步骤,通... 目录如何在 VSCode 中配置 C++ 开发环境:详细教程1. 什么是 VSCode?2. 安装 VSCo