TBB并行编程2 _ 性能测试,任务域

2023-12-02 16:10

本文主要是介绍TBB并行编程2 _ 性能测试,任务域,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

性能测试:

#include <tbb/tick_count.h>
#define TICK(x) auto bench_##x = tbb::tick_count::now();
#define TOCK(x) std::cout << #x ": " << (tbb::tick_count::now() - bench_##x).seconds() << "s" << std::endl;#include <iostream>
#include"ticktock.h"
#include <string>
#include <cmath>
#include <vector>
#include <tbb/parallel_for.h>
#include <tbb/blocked_range.h>
#include <tbb/parallel_reduce.h>void test01() {size_t n = 1 << 27;std::vector<float> a(n);TICK(for);tbb::parallel_for(tbb::blocked_range<size_t>(0, n), [&](tbb::blocked_range<size_t> r) {for (size_t i = r.begin(); i < r.end(); i++) {a[i] = std::sin(i);}});TOCK(for);TICK(reduce);float res = tbb::parallel_reduce(tbb::blocked_range<size_t>(0, n), (float)0, [&](tbb::blocked_range<size_t> r, float local_res) {for (size_t i = r.begin(); i < r.end(); i++) {local_res += a[i];}return local_res; }, [](float x, float y) {return x + y;});TOCK(reduce);std::cout << res << std::endl;
}
void test02() {size_t n = 1 << 27;std::vector<float> a(n);TICK(for);for (size_t i = 0; i < n; i++){a[i] += std::sin(i);}TOCK(for);TICK(reduce);float res = 0;for (size_t i = 0; i < n; i++){res += a[i];}TOCK(reduce);std::cout << res << std::endl;
}int main() {test01();std::cout << "------------" << std::endl;test02();
}

通过上面那个时间戳就可以计时,从结果来看显然并行算法耗时更少。

评价一个并行速度通常会用加速比=串行用时÷并行用时

更专业的性能测试框架:Google benchmark

这个我安装了之后一直显示连接不上。。。。我也很奇怪

#include <iostream>
#include <vector>
#include <cmath>
#include <benchmark/benchmark.h>constexpr size_t n = 1<<27;
std::vector<float> a(n);void BM_for(benchmark::State &bm) {for (auto _: bm) {// fill a with sin(i)for (size_t i = 0; i < a.size(); i++) {a[i] = std::sin(i);}}
}
BENCHMARK(BM_for);void BM_reduce(benchmark::State &bm) {for (auto _: bm) {// calculate sum of afloat res = 0;for (size_t i = 0; i < a.size(); i++) {res += a[i];}benchmark::DoNotOptimize(res);}
}
BENCHMARK(BM_reduce);BENCHMARK_MAIN();

 代码是这样的

回更:安装好啦

 总结安装错误:要找到config。

cmake_minimum_required(VERSION 3.10)set(CMAKE_CXX_STANDARD 17)
set(CMAKE_BUILD_TYPE Release)
SET(TBB_DIR "D:\\vsstl\\C_CUDA\\vcpkg-master\\vcpkg-master\\packages\\tbb_x64-windows\\share\\tbb")
SET(benchmark_DIR "D:\\vsstl\\C_CUDA\\vcpkg-master\\vcpkg-master\\packages\\benchmark_x64-windows\\share\\benchmark")
project(main LANGUAGES CXX)add_executable(main main.cpp)#find_package(OpenMP REQUIRED)
#target_link_libraries(main PUBLIC OpenMP::OpenMP_CXX)find_package(TBB REQUIRED)
target_link_libraries(main PUBLIC TBB::tbb)set(BENCHMARK_ENABLE_TESTING OFF CACHE BOOL "Turn off the fking test!")
find_package(benchmark CONFIG REQUIRED)
target_link_libraries(main PUBLIC benchmark::benchmark benchmark::benchmark_main)

任务域与嵌套

#include <iostream>
#include <tbb/parallel_for.h>
#include <tbb/task_arena.h>
#include <vector>
#include <cmath>int main() {size_t n = 1<<26;std::vector<float> a(n);tbb::task_arena ta(4);//可以指定用多少线程ta.execute([&] {tbb::parallel_for((size_t)0, (size_t)n, [&] (size_t i) {a[i] = std::sin(i);});});return 0;
}

也可以用两个for进行嵌套,这样可以解决n比较小,核心没有用光的问题:

tbb::parallel_for((size_t)0, (size_t)n, [&] (size_t i) {tbb::parallel_for((size_t)0, (size_t)n, [&] (size_t j) {a[i * n + j] = std::sin(i) * std::sin(j);});});

但是嵌套会导致死锁问题:

tbb::parallel_for((size_t)0, (size_t)n, [&] (size_t i) {std::lock_guard lck(mtx);tbb::parallel_for((size_t)0, (size_t)n, [&] (size_t j) {a[i * n + j] = std::sin(i) * std::sin(j);});});

这是因为tbb采用的是工作窃取法,就是在线程t1做完自己的工作之后,就会去看别的线程有没有做完工作,如果还有没做完的工作就会从这个线程里将工作取出,放到自己的t1线程里。

因此内部 for 循环有可能“窃取”到另一个外部 for 循环的任务,从而导致 mutex 被重复上锁。

所以为了解决这种问题:

1、用递归锁:

std::recursive_mutex mtx;

2、另外创建一个任务域

 tbb::parallel_for((size_t)0, (size_t)n, [&] (size_t i) {std::lock_guard lck(mtx);tbb::task_arena ta;ta.execute([&] {tbb::parallel_for((size_t)0, (size_t)n, [&] (size_t j) {a[i * n + j] = std::sin(i) * std::sin(j);});});});

3、isolate隔离:

tbb::parallel_for((size_t)0, (size_t)n, [&] (size_t i) {std::lock_guard lck(mtx);tbb::this_task_arena::isolate([&] {tbb::parallel_for((size_t)0, (size_t)n, [&] (size_t j) {a[i * n + j] = std::sin(i) * std::sin(j);});});});

这篇关于TBB并行编程2 _ 性能测试,任务域的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/445962

相关文章

Linux中的计划任务(crontab)使用方式

《Linux中的计划任务(crontab)使用方式》:本文主要介绍Linux中的计划任务(crontab)使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、前言1、linux的起源与发展2、什么是计划任务(crontab)二、crontab基础1、cro

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

Java并发编程必备之Synchronized关键字深入解析

《Java并发编程必备之Synchronized关键字深入解析》本文我们深入探索了Java中的Synchronized关键字,包括其互斥性和可重入性的特性,文章详细介绍了Synchronized的三种... 目录一、前言二、Synchronized关键字2.1 Synchronized的特性1. 互斥2.

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Spring定时任务只执行一次的原因分析与解决方案

《Spring定时任务只执行一次的原因分析与解决方案》在使用Spring的@Scheduled定时任务时,你是否遇到过任务只执行一次,后续不再触发的情况?这种情况可能由多种原因导致,如未启用调度、线程... 目录1. 问题背景2. Spring定时任务的基本用法3. 为什么定时任务只执行一次?3.1 未启用

如何使用Python实现一个简单的window任务管理器

《如何使用Python实现一个简单的window任务管理器》这篇文章主要为大家详细介绍了如何使用Python实现一个简单的window任务管理器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 任务管理器效果图完整代码import tkinter as tkfrom tkinter i

Python异步编程中asyncio.gather的并发控制详解

《Python异步编程中asyncio.gather的并发控制详解》在Python异步编程生态中,asyncio.gather是并发任务调度的核心工具,本文将通过实际场景和代码示例,展示如何结合信号量... 目录一、asyncio.gather的原始行为解析二、信号量控制法:给并发装上"节流阀"三、进阶控制

Redis中高并发读写性能的深度解析与优化

《Redis中高并发读写性能的深度解析与优化》Redis作为一款高性能的内存数据库,广泛应用于缓存、消息队列、实时统计等场景,本文将深入探讨Redis的读写并发能力,感兴趣的小伙伴可以了解下... 目录引言一、Redis 并发能力概述1.1 Redis 的读写性能1.2 影响 Redis 并发能力的因素二、

Spring Boot 集成 Quartz 使用Cron 表达式实现定时任务

《SpringBoot集成Quartz使用Cron表达式实现定时任务》本文介绍了如何在SpringBoot项目中集成Quartz并使用Cron表达式进行任务调度,通过添加Quartz依赖、创... 目录前言1. 添加 Quartz 依赖2. 创建 Quartz 任务3. 配置 Quartz 任务调度4. 启

Java使用多线程处理未知任务数的方案介绍

《Java使用多线程处理未知任务数的方案介绍》这篇文章主要为大家详细介绍了Java如何使用多线程实现处理未知任务数,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 知道任务个数,你可以定义好线程数规则,生成线程数去跑代码说明:1.虚拟线程池:使用 Executors.newVir