高性能数值计算编程小技巧(带实例,持续更新.......)

2023-10-13 00:30

本文主要是介绍高性能数值计算编程小技巧(带实例,持续更新.......),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1、乘法比除法运算速度更快,一般情况下,尽量用乘法代替除法
  • 2、两相近的数相减,会导致计算精度丢失,应想办法将减法运算转化为其他运算
  • 3、多项式求值时,采用霍纳方法(或秦九韶方法)的递推公式,减小计算量,提高计算精度及可靠性
  • 4、将不变条件的计算移到循环体外
  • 5、对于多维大数组,避免来回跳跃式访问数组成员
  • 6、创建资源库,以减少分配对象的开销
  • 7、将多次被调用的 “小函数”改为inline函数或者宏实现
  • 8、内存不紧张情况下,可考虑空间换时间的策略,提高计算效率
  • 参考文献

1、乘法比除法运算速度更快,一般情况下,尽量用乘法代替除法

   a = 0.5 ∗ b a=0.5*b a=0.5b a = b / 2.0 a=b/2.0 a=b/2.0分别计算1000000次。在笔者的程序运行环境下,前者运行时间1.62ms,后者运行时间3.85ms(不同平台结果不一样)。乘法计算效率大概是除法的2.3倍!

#include <time.h>
#include <stdio.h>
#include <math.h>
#define TEST_COUNT 100
#define CALCULATE_COUNT 1000000double calculate_mean_runtime(double timeArray[]);
double calculate_std_runtime(double timeArray[], double meanRuntime);double calculate_mean_runtime(double timeArray[])
{long n;double sum = 0.0;for (n = 0; n < TEST_COUNT; n++){sum += timeArray[n];}return sum / TEST_COUNT;
}double calculate_std_runtime(double timeArray[], double meanRuntime)
{long n;double sum = 0.0;for (n = 0; n < TEST_COUNT; n++){sum += (timeArray[n] - meanRuntime) * (timeArray[n] - meanRuntime);}return sqrt(sum / (TEST_COUNT - 1));
}void main(void)
{long i, n, startTime, finishTime;double meanRuntime, stdRuntime, timeArray[TEST_COUNT];double a, b = 1.0;for (n = 0; n < TEST_COUNT; n++){startTime = clock();for (i = 0; i < CALCULATE_COUNT; i++){//a = 0.5 * b;a = b / 2.0;}finishTime = clock();timeArray[n] = (double)(finishTime - startTime);}meanRuntime = calculate_mean_runtime(timeArray);stdRuntime = calculate_std_runtime(timeArray, meanRuntime);printf("The mean run time is:%f ms!\n", meanRuntime);printf("The std run time is:%f ms!\n", stdRuntime);
}

2、两相近的数相减,会导致计算精度丢失,应想办法将减法运算转化为其他运算

  在一定条件下,利用恒等变换,可以将减法运算转化为其他运算,从而提高计算精度。以下函数的取值均在定义域内。
  1).当 x → 0 x \rightarrow0 x0时,作变换:
1 − c o s x = 2 s i n 2 ( x 2 ) (1) 1-cosx=2sin^2(\frac{x}{2})\tag{1} 1cosx=2sin2(2x)(1)
  2).当 x 1 x_1 x1 x 2 x_2 x2很接近时,作变换:
l o g a x 1 − l o g a x 2 = l o g a x 1 x 2 (2) log_ax_1-log_ax_2=log_a\frac{x_1}{x_2} \tag{2} logax1logax2=logax2x1(2)
  3).当 x x x较大时,作变换:
x + 1 − x = 1 x + 1 + x (3.1) \sqrt{x+1}-\sqrt{x}=\frac{1}{\sqrt{x+1}+\sqrt{x}} \tag{3.1} x+1 x =x+1 +x 1(3.1)
l o g a ( x − x 2 − 1 ) = − l o g a ( x + x 2 − 1 ) (3.2) log_a(x-\sqrt{x^2-1})=-log_a(x+\sqrt{x^2-1}) \tag{3.2} loga(xx21 )=loga(x+x21 )(3.2)
a r c t a n ( x + 1 ) − a r c t a n ( x ) = a r c t a n ( 1 x 2 + x + 1 ) (3.3) arctan(x+1) - arctan(x)= arctan(\frac{1}{x^2+x+1}) \tag{3.3} arctan(x+1)arctan(x)=arctan(x2+x+11)(3.3)
  令 a r c t a n ( x + 1 ) = A , a r c t a n ( x ) = B arctan(x+1)=A,arctan(x)=B arctan(x+1)=A,arctan(x)=B t a n ( A − B ) = t a n ( A ) − t a n ( B ) 1 + t a n ( A ) t a n ( B ) = x + 1 − x 1 + ( x + 1 ) x = 1 x 2 + x + 1 tan(A-B)=\frac{tan(A)-tan(B)}{1+tan(A)tan(B)}=\frac{x+1-x}{1+(x+1)x}=\frac{1}{x^2+x+1} tan(AB)=1+tan(A)tan(B)tan(A)tan(B)=1+(x+1)xx+1x=x2+x+11,则 A − B = a r c t a n ( 1 x 2 + x + 1 ) A-B=arctan(\frac{1}{x^2+x+1}) AB=arctan(x2+x+11),上式得证。
  4).当 b 2 > > 4 a c b^2>>4ac b2>>4ac时,对于一元二次方程求根公式 x 1 , 2 = − b ± b 2 − 4 a c 2 a x_{1,2}=\frac{-b\pm\sqrt{b^2-4ac}}{2a} x1,2=2ab±b24ac ,作变换(详见博文:一元二次方程高精度实数根(C语言)):
x 1 = − 2 c b + b 2 − 4 a c ( b > 0 ) (4.1) x_1=\frac{-2c}{b+\sqrt{b^2-4ac}} \ \ (b>0)\tag{4.1} x1=b+b24ac 2c  (b>0)(4.1)
x 2 = − 2 c b − b 2 − 4 a c ( b < 0 ) (4.2) x_2=\frac{-2c}{b-\sqrt{b^2-4ac}} \ \ (b<0)\tag{4.2} x2=bb24ac 2c  (b<0)(4.2)
  5).当 f ( x ) ≈ f ( x ∗ ) f(x)\approx f(x^*) f(x)f(x)时,利用泰勒展开,作变换:
f ( x ) − f ( x ∗ ) = f ′ ( x ∗ ) ( x − x ∗ ) + f ′ ′ ( x ∗ ) 2 ( x − x ∗ ) 2 + ⋯ (5) f(x)-f(x^*)=f'(x^*)(x-x^*)+\frac{f''(x^*)}{2}(x-x^*)^2 + \cdots \tag{5} f(x)f(x)=f(x)(xx)+2f(x)(xx)2+(5)

#include <stdio.h>
#include <math.h>void main(void)
{float x, x1, x2;double xx, xx1, xx2;//(1)x = 1.234567e-4f;xx = (double)x;printf("1-cos(x) = %.15f\n", 1.0 - cosf(x));printf("2*sin^2(x/2) = %.15f\n", 2.0 * sinf(x / 2.0) * sinf(x / 2.0));printf("精度较高的计算参考值:%.15f\n\n", 2.0 * sin(xx / 2.0) * sin(xx / 2.0));//(2)x1 = 123456.0f;x2 = 123456.9f;xx1 = (double)x1;xx2 = (double)x2;printf("log(x1) - log(x2) = %.15f\n", logf(x1) - logf(x2));printf("log(x1/x2) = %.15f\n", logf(x1 / x2));printf("精度较高的计算参考值:%.15f\n\n", log(xx1 / xx2));//(3.1)x = 1234567.0f;xx = (double)x;printf("sqrt(x+1)-sqrt(x) = %.15f\n", sqrtf(x + 1) - sqrtf(x));printf("1/(sqrt(x+1)+sqrt(x)) = %.15f\n", 1.0 / (sqrtf(x + 1) + sqrtf(x)));printf("精度较高的计算参考值:%.15f\n\n", 1.0 / (sqrt(xx + 1) + sqrt(xx)));//(3.2)x = 1234.0f;xx = (double)x;printf("log(x-sqrt(x^2-1)) = %.15f\n", logf(x - sqrtf(x * x - 1.0)));printf("-log(x+sqrt(x^2-1)) = %.15f\n", -logf(x + sqrtf(x * x - 1.0)));printf("精度较高的计算参考值:%.15f\n\n", -log(xx + sqrt(xx * xx - 1.0)));//(3.3)printf("atan(x+1)-atan(x) = %.15f\n", atanf(x + 1) - atanf(x));printf("atan(1/(x^2+x+1)) = %.15f\n", atanf(1.0 / (x * x + x + 1.0)));printf("精度较高的计算参考值:%.15f\n", atan(1.0 / (xx * xx + xx + 1.0)));
}

在这里插入图片描述

3、多项式求值时,采用霍纳方法(或秦九韶方法)的递推公式,减小计算量,提高计算精度及可靠性

  具体参见博文:多项式求值(Evaluation of a Polynomial)

4、将不变条件的计算移到循环体外

  将循环中与循环无关,不是每次循环都要做的操作,移到循环外部执行。
  示例一:

for (int i = 0; i < 10; i++ )
{sum += i;back_sum = sum;
}

  对于此for循环来说语句“back_Sum = sum;” 没必要每次都执行,只需要执行一次即可,因此可以改为:

for (int i = 0; i < 10; i++ )
{sum += i;
}
back_sum = sum;

  示例二:

for (_UL i = 0; i < func_calc_max(); i++)
{//process;
}

  函数func_calc_max()没必要每次都执行,只需要执行一次即可,因此可以改为:

_UL max = func_calc_max();
for (_UL i = 0; i < max; i++)
{//process;
}

5、对于多维大数组,避免来回跳跃式访问数组成员

  多维数组在内存中是从最后一维开始逐维展开连续存储的。下面这个对二维数组访问是以SIZE_B为步长跳跃访问,到尾部后再从头(第二个成员)开始,依此类推。局部性比较差,当步长较大时,可能造成cache不命中,反复从内存加载数据到cache。应该把i和j交换。

for (int i = 0; i < SIZE_B; i++)
{for (int j = 0; j < SIZE_A; j++){sum += x[j][i];}
}

  上面这段代码,在 SIZE_B 数值较大时,效率可能会比下面的代码低:

for (int i = 0; i < SIZE_B; i++)
{for (int j = 0; j < SIZE_A; j++){sum += x[i][j];}
}

6、创建资源库,以减少分配对象的开销

  例如,使用线程池机制,避免线程频繁创建、销毁的系统调用;使用内存池,对于频繁申请、释放的小块内存,一次性申请一个大块的内存,当系统申请内存时,从内存池获取小块内存,使用完毕再释放到内存池中,避免内存申请释放的频繁系统调用。

7、将多次被调用的 “小函数”改为inline函数或者宏实现

  如果编译器支持inline,可以采用inline函数。否则可以采用宏。在做这种优化的时候一定要注意下面inline函数的优点:其一编译时不用展开,代码SIZE小。其二可以加断点,易于定位问题,例如对于引用计数加减的时候。其三函数编译时,编译器会做语法检查。

8、内存不紧张情况下,可考虑空间换时间的策略,提高计算效率

  以下程序效率低下:

for (i = 0; i < 1000; i++)
{x[i] = a[i] * sin(theta[i]) + b[i] * cos(theta[i]);y[i] = b[i] * sin(theta[i]) + a[i] * sin(theta[i]);
}

  可以改为:

for (i = 0; i < 1000; i++)
{sinTheta = sin(theta[i]);cosTheta = cos(theta[i]);x[i] = a[i] * sinTheta + b[i] * cosTheta;y[i] = b[i] * sinTheta + a[i] * cosTheta;
}

参考文献

华为C语言编程规范 2011年5月9日发布
《数值分析》李庆扬,王能超,易大义编

这篇关于高性能数值计算编程小技巧(带实例,持续更新.......)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/199498

相关文章

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

Redis多种内存淘汰策略及配置技巧分享

《Redis多种内存淘汰策略及配置技巧分享》本文介绍了Redis内存满时的淘汰机制,包括内存淘汰机制的概念,Redis提供的8种淘汰策略(如noeviction、volatile-lru等)及其适用场... 目录前言一、什么是 Redis 的内存淘汰机制?二、Redis 内存淘汰策略1. pythonnoe

java图像识别工具类(ImageRecognitionUtils)使用实例详解

《java图像识别工具类(ImageRecognitionUtils)使用实例详解》:本文主要介绍如何在Java中使用OpenCV进行图像识别,包括图像加载、预处理、分类、人脸检测和特征提取等步骤... 目录前言1. 图像识别的背景与作用2. 设计目标3. 项目依赖4. 设计与实现 ImageRecogni

Java操作ElasticSearch的实例详解

《Java操作ElasticSearch的实例详解》Elasticsearch是一个分布式的搜索和分析引擎,广泛用于全文搜索、日志分析等场景,本文将介绍如何在Java应用中使用Elastics... 目录简介环境准备1. 安装 Elasticsearch2. 添加依赖连接 Elasticsearch1. 创

使用C#代码计算数学表达式实例

《使用C#代码计算数学表达式实例》这段文字主要讲述了如何使用C#语言来计算数学表达式,该程序通过使用Dictionary保存变量,定义了运算符优先级,并实现了EvaluateExpression方法来... 目录C#代码计算数学表达式该方法很长,因此我将分段描述下面的代码片段显示了下一步以下代码显示该方法如

怎么关闭Ubuntu无人值守升级? Ubuntu禁止自动更新的技巧

《怎么关闭Ubuntu无人值守升级?Ubuntu禁止自动更新的技巧》UbuntuLinux系统禁止自动更新的时候,提示“无人值守升级在关机期间,请不要关闭计算机进程”,该怎么解决这个问题?详细请看... 本教程教你如何处理无人值守的升级,即 Ubuntu linux 的自动系统更新。来源:https://

Go语言使用Buffer实现高性能处理字节和字符

《Go语言使用Buffer实现高性能处理字节和字符》在Go中,bytes.Buffer是一个非常高效的类型,用于处理字节数据的读写操作,本文将详细介绍一下如何使用Buffer实现高性能处理字节和... 目录1. bytes.Buffer 的基本用法1.1. 创建和初始化 Buffer1.2. 使用 Writ

Redis缓存问题与缓存更新机制详解

《Redis缓存问题与缓存更新机制详解》本文主要介绍了缓存问题及其解决方案,包括缓存穿透、缓存击穿、缓存雪崩等问题的成因以及相应的预防和解决方法,同时,还详细探讨了缓存更新机制,包括不同情况下的缓存更... 目录一、缓存问题1.1 缓存穿透1.1.1 问题来源1.1.2 解决方案1.2 缓存击穿1.2.1

将Python应用部署到生产环境的小技巧分享

《将Python应用部署到生产环境的小技巧分享》文章主要讲述了在将Python应用程序部署到生产环境之前,需要进行的准备工作和最佳实践,包括心态调整、代码审查、测试覆盖率提升、配置文件优化、日志记录完... 目录部署前夜:从开发到生产的心理准备与检查清单环境搭建:打造稳固的应用运行平台自动化流水线:让部署像

Linux Mint Xia 22.1重磅发布: 重要更新一览

《LinuxMintXia22.1重磅发布:重要更新一览》Beta版LinuxMint“Xia”22.1发布,新版本基于Ubuntu24.04,内核版本为Linux6.8,这... linux Mint 22.1「Xia」正式发布啦!这次更新带来了诸多优化和改进,进一步巩固了 Mint 在 Linux 桌面