高性能计算应用优化之代码实现调优(一)

2024-09-08 02:28

本文主要是介绍高性能计算应用优化之代码实现调优(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本章将介绍代码实现过程中使用到的调优方法。在软件开发早期,开发者更多关注代码功能的实现,对代码的性能关注较少,随着代码规模增加,不合理的代码实现方法所带来的性能包袱逐渐凸显。因此,需要对原有代码实现进行优化,如修改不合理的访存顺序,使代码更易于被编译器优化等。

浮点数运算

浮点数运算是科学计算中开销最大的部分之一,特别是双精度除法,合理地设计实现浮点数运算环节可以显著提高程序的性能。

由于单精度类型和双精度类型之间的向量长度(即向量寄存器中的元素数)不同,同一循环中混合使用单精度数组和双精度数组会减少自动向量化的机会。考虑一个使用不同大小数据的循环,例如,REAL和DOUBLE PRECISION。对于REAL数据,编译器尝试从四个(SSE)或八个(AVX)连续迭代(32位x4=128位,32位x8=256位)中打包数据元素。对于双精度数据,编译器尝试从两个(SSE)或四个(AVX)连续迭代(64位x2=128位,64位x4=256位)中打包数据元素。由于迭代次数不匹配,编译器在尝试自动纠正这种情况后,有时无法执行循环的自动向量化。

避免在同一计算中混合整数和浮点(REAL)数据。将浮点算术表达式中的所有整型数字表示为浮点值,无需在固定格式和浮点格式之间转换数据。将整数算术表达式中的所有数字表示为整数值也可以实现这一点。例如,假设I和J都是整数变量,将常数(2.0)表示为整数值(2)就不需要转换数据。下面的示例演示了低效和高效的代码。

Inefficient code: INTEGER I, J I = J / 2.0Efficient code: INTEGER I, J I = J / 2

使用开销小的运算代替开销大的运算。

例如可以使用r*r代替r**2,后者可能会隐式调用pow函数,增加一次函数调用开销;除一个常数可以优化为乘一个常数,x/2.0可以优化为x*0.5。

r = r**2   -> r = r * rr = r / 2    -> r = r * 0.5

循环优化

循环是应用程序中执行计算任务最重要的部分,一般其开销也是最大的。理想的循环有如下的特性:

  • 只执行必要的工作,移除所有无关和不必要的计算;

  • 应当使用最快的可使用指令来实现目标;也即循环内指令最少;

  • 循环应尽量便于进行SIMD指令优化;

  • 指令应当尽可能平衡的使用CPU单元;例如如果循环中的除法指令过多,就会导致整个循环在等待除法指令的执行从而成为性能瓶颈;

  • 循环内的内存访问模式应当尽可能好,尽可能提高缓存命中率,好的访存模式能够带来好的性能。

循环中函数调用与IO

循环中的函数调用会影响循环的性能,原因之一是函数调用可能会改变内存的情况。例如如下代码:

for (int i = 0; i < n; i++){   if (debug)       A();   else       B();}

在某些情况下,函数可能会修改debug的值。如果编译器知道debug的值不会发生变化的话,编译器可以尝试将这个代码做如下优化:

if (debug) {     for (int i = 0; i < n; i++)        A(); } else {     for (int i = 0; i < n; i++)         B();}

我们可以通过设置局部变量的方式让编译器了解到这个变量并不会发生变化:

bool debug_local = debug; for (int i = 0; i < n; i++) {    if (debug_local)        A();    else        B(); }

此外,在有函数出现的情况下,编译器自身的优化能力就会下降。下面的代码中,如果编译器能够将add函数进行内联,那么编译器就可以尝试做更多的优化(如向量化);但是如果add函数无法被内联,编译器只能每次迭代都调用add函数。而一旦涉及到函数的调用,就需要进行跳转,过多的跳转会影响到程序的性能。

double add(double a, double b) {    return a + b; } for (int i = 0; i < n; i++) {     c[i] = add(a[i], b[i]); }

包含在循环或循环嵌套中的 I/O 会严重降低性能。花在 I/O 库上的 CPU 时间数量可能构成了循环所用时间的主要部分(I/O 还会引起进程中断,降低程序处理能力)。用户在编写代码时需要尽可能将 I/O 移出计算循环,可以大大减少 I/O 库的调用次数。

将变量维持在寄存器中

如果我们能够尽可能地将变量放在寄存器中,就可以提高访存的效率。由于CPU中寄存器的数量是有限的,编译器需要基于某些特征来判断哪些变量适合放在寄存器中,哪些变量适合放在内存里。有两种情况会阻止编译器将变量存在寄存器中,在编写代码时可以尽量避免。

  1. 变量过多:编译器无法将全部变量都存储在寄存器中。因此寄存器需要考虑将部分暂时用不到的变量放在内存中,在需要的时候再将这个变量加载到寄存器中,这种现象称为寄存器溢出(register spilling)。

  2. 指针别名:如果存在指向标量A的指针B,那么我们可以通过直接修改A或者通过指针B来修改A的值。寄存器不会将A放在寄存器中,因为通过指针对其进行的修改将会丢失。

移除无关运算

在本部分,编译器的目标是尽可能的移除循环中无用的部分。

有些计算并不需要,在编译的过程中,编译器会尽可能的忽略掉不会执行的代码,也即所谓的死代码消除(dead code elimination)。如下所示:

void add(int* a, int* b) {     (*a)++;     if (b) (*b)++; } for (int i = 0; i < n; i++) {     add(&a[i], nullptr); }

在编译器进行内联以后,由于传给add函数的参数int *b始终为nullptr,所以编译器可以直接移除掉这部分的判断:

for (int i = 0; i < n; i++)      (*a)++;

循环不变量(Loop invariant computation)是指在循环中需要,但是不需要每次都在循环中计算的部分。例如如下的代码:

for (int i = 0; i < n; i++) {     switch (operation) {         case ADD: a[i]+= x * x; break;         case SUB: a[i]-= x * x; break;     } }

这个循环中,operation和x都是循环无关变量,因为他们不会随着循环的发生而改变。在某些情况下编译器会自动计算出x*x的值,从而减少重复运算。但若编译器偏向保守则不会做该优化,需要用户手动优化。

而对于switch控制流,编译器会尝试对不同的控制流创建循环,这种转换成为循环分裂(loop unswitching)。在编译器无法进行准确的判断控制流时,编译器往往偏向保守,需要用户手动优化。

auto x_2 = x * x; if (operation == ADD) {     for (int i = 0; i < n; i++)         a[i] += x_2; } else if (operation == SUB) {     for (int i = 0; i < n; i++)         a[i] -= x_2; }

迭代器相关变量是依赖于迭代器变量的值。如下所示:

for (int i = 0; i < n; i++) {     auto min_val = a[i];     if (i != 0) min_val = std::min(a[i - 1], min_val);      if (i != (n - 1)) min_val = std::min(a[i + 1], min_val);     b[i] = min_val; }

两个if判断条件都不依赖于循环中的数据。因此,我们可以将它们移出循环并进行特殊判断。编译器很少进行这种优化,需要用户手动优化。

b[0] = std::min(a[0], a[1]); for (int i = 1; i < n - 1; i++) {     auto min_val = a[i];     min_val = std::min(a[i - 1], min_val);     min_val = std::min(a[i + 1], min_val);     b[i] = min_val; } b[n - 1] = std::min(a[n - 2], a[n - 1]);

循环展开

当如下的循环迭代次数非常少的时候,循环操作本身的开销和循环内部操作的开销可能是一致的,在这种情况下,我们需要进行循环展开操作。

for (int i = 0; i < n; i++) {     index = i / 2;     b_val = load(b + index);     store(a + i, b_val); }

在这种情况下,我们提高了循环内部的工作量,相对减少了循环操作的开销。

for (int i = 0; i < n; ) {     index = i / 2;     b_val = load(b + index);     store(a + i, b_val);     i++;     index = i / 2;     b_val = load(b + index);     store(a + i, b_val);     i++;     index = i / 2;     b_val = load(b + index);     store(a + i, b_val);     i++;     index = i / 2;     b_val = load(b + index);     store(a + i, b_val);     i++; }

展开有两种好处,一是可以减少开销,二是可以让我们进行一些额外的优化。例如在上面的例子中,i/2和(i+1)/2在i是偶数的情况下一致,就可以删除一些不必要的负载。在进行优化后,我们只需要进行两个load操作,而原来需要四次load操作。

for (int i = 0; i < n; ) {     index = i / 2;     b_val = load(b + index);     store(a + i, b_val);     i++;     store(a + i, b_val); // b_val与上面的计算相同     i++;     index = i / 2;     b_val = load(b + index);     store(a + i, b_val);     i++;     store(a + i, b_val); // b_val与上面的计算相同     i++; }

但是循环展开也增加了内存子系统的负载,特别是指令缓存和指令解码单元。当循环内部过大的时候,会出现较多的缓存垃圾,这会降低指令的取指译码速度,因此编译器在循环展开的时候会比较保守,需要用户自行权衡循环大小与展开程度。此外也要注意,手动循环展开可能会阻碍其他的优化,可以将这部分工作交给更专业的编译器去做。例如我们可以通过!DIR$ UNROLL [(n)]或!DIR$ UNROLL [=n]让ifort进行n倍循环展开。

本次仅介绍了代码实现调优中的浮点运算和循环优化,还有内存优化和计算优化,下篇将继续介绍

这篇关于高性能计算应用优化之代码实现调优(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1146853

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象