OpenMP并行程序设计——for循环并行化详解

2024-04-03 21:18

本文主要是介绍OpenMP并行程序设计——for循环并行化详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转载请声明出处http://blog.csdn.net/zhongkejingwang/article/details/40018735

在C/C++中使用OpenMP优化代码方便又简单,代码中需要并行处理的往往是一些比较耗时的for循环,所以重点介绍一下OpenMP中for循环的应用。个人感觉只要掌握了文中讲的这些就足够了,如果想要学习OpenMP可以到网上查查资料。工欲善其事,必先利其器。如果还没有搭建好omp开发环境的可以看一下OpenMP并行程序设计——Eclipse开发环境的搭建

首先,如何使一段代码并行处理呢?omp中使用parallel制导指令标识代码中的并行段,形式为:

       #pragma omp parallel{每个线程都会执行大括号里的代码}

比如下面这段代码:

#include <iostream>
#include "omp.h"
using namespace std;
int main(int argc, char **argv) {//设置线程数,一般设置的线程数不超过CPU核心数,这里开4个线程执行并行代码段omp_set_num_threads(4);
#pragma omp parallel{cout << "Hello" << ", I am Thread " << omp_get_thread_num() << endl;}
}

omp_get_thread_num()是获取当前线程id号

以上代码执行结果为:

Hello, I am Thread 1
Hello, I am Thread 0
Hello, I am Thread 2
Hello, I am Thread 3

可以看到,四个线程都执行了大括号里的代码,先后顺序不确定,这就是一个并行块。

带有for的制导指令:

for制导语句是将for循环分配给各个线程执行,这里要求数据不存在依赖。

使用形式为:

(1)#pragma omp parallel for

     for()

(2)#pragma omp parallel

    {//注意:大括号必须要另起一行#pragma omp forfor()}

注意:第二种形式中并行块里面不要再出现parallel制导指令,比如写成这样就不可以:

#pragma omp parallel

    {#pragma omp parallel forfor()}

第一种形式作用域只是紧跟着的那个for循环,而第二种形式在整个并行块中可以出现多个for制导指令。下面结合例子程序讲解for循环并行化需要注意的地方。

假如不使用for制导语句,而直接在for循环前使用parallel语句:(为了使输出不出现混乱,这里使用printf代替cout)

#include <iostream>
#include <stdio.h>
#include "omp.h"
using namespace std;
int main(int argc, char **argv) {//设置线程数,一般设置的线程数不超过CPU核心数,这里开4个线程执行并行代码段omp_set_num_threads(4);
#pragma omp parallelfor (int i = 0; i < 2; i++)//cout << "i = " << i << ", I am Thread " << omp_get_thread_num() << endl;printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}

输出结果为:

i = 0, I am Thread 0
i = 0, I am Thread 1
i = 1, I am Thread 0
i = 1, I am Thread 1
i = 0, I am Thread 2
i = 1, I am Thread 2
i = 0, I am Thread 3
i = 1, I am Thread 3

从输出结果可以看到,如果不使用for制导语句,则每个线程都执行整个for循环。所以,使用for制导语句将for循环拆分开来尽可能平均地分配到各个线程执行。将并行代码改成这样之后:

#pragma omp parallel forfor (int i = 0; i < 6; i++)printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());

输出结果为:

i = 4, I am Thread 2
i = 2, I am Thread 1
i = 0, I am Thread 0
i = 1, I am Thread 0
i = 3, I am Thread 1
i = 5, I am Thread 3

可以看到线程0执行i=0和1,线程1执行i=2和3,线程2执行i=4,线程3执行i=5。线程0就是主线程

这样整个for循环被拆分并行执行了。上面的代码中parallel和for连在一块使用的,其只能作用到紧跟着的for循环,循环结束了并行块就退出了。

上面的代码可以改成这样:

#pragma omp parallel{
#pragma omp forfor (int i = 0; i < 6; i++)printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());}

这写法和上面效果是一样的。需要注意的问题来了:如果在parallel并行块里再出现parallel会怎么样呢?回答这个问题最好的方法就是跑一遍代码看看,所以把代码改成这样:

#pragma omp parallel{
#pragma omp parallel forfor (int i = 0; i < 6; i++)printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());}

输出结果:

i = 0, I am Thread 0
i = 0, I am Thread 0
i = 1, I am Thread 0
i = 1, I am Thread 0
i = 2, I am Thread 0
i = 2, I am Thread 0
i = 3, I am Thread 0
i = 3, I am Thread 0
i = 4, I am Thread 0
i = 4, I am Thread 0
i = 5, I am Thread 0
i = 5, I am Thread 0
i = 0, I am Thread 0
i = 1, I am Thread 0
i = 0, I am Thread 0
i = 2, I am Thread 0
i = 1, I am Thread 0
i = 3, I am Thread 0
i = 2, I am Thread 0
i = 4, I am Thread 0
i = 3, I am Thread 0
i = 5, I am Thread 0
i = 4, I am Thread 0
i = 5, I am Thread 0

可以看到,只有一个线程0,也就是只有主线程执行for循环,而且总共执行4次,每次都执行整个for循环!所以,这样写是不对的。

当然,上面说的for制导语句的两种写法是有区别的,比如两个for循环之间有一些代码只能有一个线程执行,那么用第一种写法只需要这样就可以了:

#pragma omp parallel forfor (int i = 0; i < 6; i++)printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());//这里是两个for循环之间的代码,将会由线程0即主线程执行printf("I am Thread %d\n", omp_get_thread_num());
#pragma omp parallel forfor (int i = 0; i < 6; i++)printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());

离开了for循环就剩主线程了,所以两个循环间的代码是由线程0执行的,输出结果如下:

i = 0, I am Thread 0
i = 2, I am Thread 1
i = 1, I am Thread 0
i = 3, I am Thread 1
i = 4, I am Thread 2
i = 5, I am Thread 3
I am Thread 0
i = 4, I am Thread 2
i = 2, I am Thread 1
i = 5, I am Thread 3
i = 0, I am Thread 0
i = 3, I am Thread 1
i = 1, I am Thread 0

但是如果用第二种写法把for循环写进parallel并行块中就需要注意了!

由于用parallel标识的并行块中每一行代码都会被多个线程处理,所以如果想让两个for循环之间的代码由一个线程执行的话就需要在代码前用single或master制导语句标识,master由是主线程执行,single是选一个线程执行,这个到底选哪个线程不确定。所以上面代码可以写成这样:

#pragma omp parallel{
#pragma omp forfor (int i = 0; i < 6; i++)printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
#pragma omp master{//这里的代码由主线程执行printf("I am Thread %d\n", omp_get_thread_num());}
#pragma omp forfor (int i = 0; i < 6; i++)printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());}

效果和上面的是一样的,如果不指定让主线程执行,那么将master改成single即可。

到这里,parallel和for的用法都讲清楚了。接下来就开始讲并行处理时数据的同步问题,这是多线程编程里都会遇到的一个问题。

为了讲解数据同步问题,先由一个例子开始:

#include <iostream>
#include "omp.h"
using namespace std;
int main(int argc, char **argv) {int n = 100000;int sum = 0;omp_set_num_threads(4);
#pragma omp parallel{
#pragma omp forfor (int i = 0; i < n; i++) {{sum += 1;}}}cout << " sum = " << sum << endl;
}

期望的正确结果是100000,但是这样写是错误的。看代码,由于默认情况下sum变量是每个线程共享的,所以多个线程同时对sum操作时就会因为数据同步问题导致结果不对,显然,输出结果每次都不同,这是无法预知的,如下:

第一次输出sum = 58544
第二次输出sum = 77015
第三次输出sum = 78423

那么,怎么去解决这个数据同步问题呢?解决方法如下:

方法一:对操作共享变量的代码段做同步标识

代码修改如下:

#pragma omp parallel{
#pragma omp forfor (int i = 0; i < n; i++) {{
#pragma omp criticalsum += 1;}}}cout << " sum = " << sum << endl;

critical制导语句标识的下一行代码,也可以是跟着一个大括号括起来的代码段做了同步处理。输出结果100000

方法二:每个线程拷贝一份sum变量,退出并行块时再把各个线程的sum相加

并行代码修改如下:

#pragma omp parallel{
#pragma omp for reduction(+:sum)for (int i = 0; i < n; i++) {{sum += 1;}}}

reduction制导语句,操作是退出时将各自的sum相加存到外面的那个sum中,所以输出结果就是100000啦~~

方法三:这种方法貌似不那么优雅

代码修改如下:

int n = 100000;int sum[4] = { 0 };omp_set_num_threads(4);
#pragma omp parallel{
#pragma omp forfor (int i = 0; i < n; i++) {{sum[omp_get_thread_num()] += 1;}}}cout << " sum = " << sum[0] + sum[1] + sum[2] + sum[3] << endl;

每个线程操作的都是以各自线程id标识的数组位置,所以结果当然正确。

数据同步就讲完了,上面的代码中for循环是一个一个i平均分配给各个线程,如果想把循环一块一块分配给线程要怎么做呢?这时候用到了schedule制导语句。下面的代码演示了schedule的用法:

#include <iostream>
#include "omp.h"
#include <stdio.h>
using namespace std;
int main(int argc, char **argv) {int n = 12;omp_set_num_threads(4);
#pragma omp parallel{
#pragma omp for schedule(static, 3)for (int i = 0; i < n; i++) {{printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());}}}
}

上面代码中for循环并行化时将循环很多很多块,每一块大小为3,然后再平均分配给各个线程执行。

输出结果如下:

i = 6, I am Thread 2
i = 3, I am Thread 1
i = 7, I am Thread 2
i = 4, I am Thread 1
i = 8, I am Thread 2
i = 5, I am Thread 1
i = 0, I am Thread 0
i = 9, I am Thread 3
i = 1, I am Thread 0
i = 10, I am Thread 3
i = 2, I am Thread 0
i = 11, I am Thread 3

从输出结果可以看到:线程0执行i=0 1 2,线程1执行i=3 4 5,线程2执行i=6 7 8,线程3执行i=9 10 11,如果后面还有则又从线程0开始分配。

OK,for循环并行化的知识基本讲完了,还有一个有用的制导语句barrier,用它可以在并行块中设置一个路障,必须等待所有线程到达时才能通过,这个一般在并行处理循环前后存在依赖的任务时使用到。

是不是很简单?


作者:陈靖_
来源:CSDN
原文:https://blog.csdn.net/zhongkejingwang/article/details/40350027
版权声明:本文为博主原创文章,转载请附上博文链接!

这篇关于OpenMP并行程序设计——for循环并行化详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/874004

相关文章

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)

怎么让1台电脑共享给7人同时流畅设计

在当今的创意设计与数字内容生产领域,图形工作站以其强大的计算能力、专业的图形处理能力和稳定的系统性能,成为了众多设计师、动画师、视频编辑师等创意工作者的必备工具。 设计团队面临资源有限,比如只有一台高性能电脑时,如何高效地让七人同时流畅地进行设计工作,便成为了一个亟待解决的问题。 一、硬件升级与配置 1.高性能处理器(CPU):选择多核、高线程的处理器,例如Intel的至强系列或AMD的Ry

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

基于51单片机的自动转向修复系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 单片机

poj3750约瑟夫环,循环队列

Description 有N个小孩围成一圈,给他们从1开始依次编号,现指定从第W个开始报数,报到第S个时,该小孩出列,然后从下一个小孩开始报数,仍是报到S个出列,如此重复下去,直到所有的小孩都出列(总人数不足S个时将循环报数),求小孩出列的顺序。 Input 第一行输入小孩的人数N(N<=64) 接下来每行输入一个小孩的名字(人名不超过15个字符) 最后一行输入W,S (W < N),用

嵌入式Openharmony系统构建与启动详解

大家好,今天主要给大家分享一下,如何构建Openharmony子系统以及系统的启动过程分解。 第一:OpenHarmony系统构建      首先熟悉一下,构建系统是一种自动化处理工具的集合,通过将源代码文件进行一系列处理,最终生成和用户可以使用的目标文件。这里的目标文件包括静态链接库文件、动态链接库文件、可执行文件、脚本文件、配置文件等。      我们在编写hellowor