循环展开技术

2024-06-15 13:08
文章标签 技术 循环展开

本文主要是介绍循环展开技术,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转载:http://book.51cto.com/art/200908/146356.htm

循环一直令我们头疼,因为循环体内总是隐藏着热点!请读者回顾上一小节中的示例代码。

  1. for(i = 0; i < 10; i++){  
  2.         temp = temp * (array[i]);  

以上循环体的汇编代码如图9-7所示。观察其汇编代码,我们很容易发现,由于循环体的内容相对简单,以至于这个循环实际执行过程中差不多一半的指令 都在为检查循环执行的条件而服务。如果计算循环索引和测试循环条件的循环开销部分所占比重过大,这时就可以考虑使用一种被称作"循环展开"的方式来优化代 码。所谓循环展开就是通过在每次迭代中执行更多的数据操作来减小循环开销的影响。其基本思想是设法把操作对象线性化,并且在一次迭代中访问线性数据中的一 小组而非单独的某个。这样得到的程序将执行更少的迭代次数,于是循环开销就被有效地降低了。

为了便于读者理解,下面先来举一个实际中的例子。笔者在另外一本讲解数字图像处理编程的书中曾经介绍过对彩色图像取反色的方法。假设有一幅24位真 色彩的数字图像为待处理对象,那么常识告诉我们该图像的每一个像素都由三个分量组成,即R分量、B分量和G分量,且每个分量占8位。如果将R、G和B三个 分量的实际值定量地看作整数,那么它们的取值范围是0~255之间的整数。图像取反色处理,简单说来,就是将整幅彩色图像的每个像素的每个分量都被255 减。下面这个函数实现了图像的取反色处理功能。其中,参数int width表示图像的宽(以像素计),参数int  height表示图像的高(以像素计),参数BYTE * pixel是待处理的像素数组,而参数BYTE * tempPixel用来存储结果图像。

  1. void Negative(BYTE * pixel, BYTE * tempPixel, int width, int height)  
  2. {  
  3.         int i = 0;  
  4.         int sum = width * height * 4;  
  5.         memcpy(pixel, tempPixel, sum);  
  6.  
  7.         for(i = 0; i < sum; i++)  
  8.         {  
  9.             tempPixel[i] = 255 - tempPixel[i];  
  10.         }  

易见,上面的函数中循环体部分过于简单,这显然是相当不划算的。于是更加明智的方法是采用循环展开的方式来改写上面的函数,改写结果如下:

  1. void Negative(BYTE * pixel, BYTE * tempPixel, int width, int height)  
  2. {  
  3.         int i = 0;  
  4.         int sum = width * height * 4;  
  5.         memcpy(pixel, tempPixel, sum);  
  6.  
  7.         for(i = 0; i < sum; i+=3)  
  8.         {  
  9.             tempPixel[i] = 255 - tempPixel[i];  
  10.             tempPixel[i+1] = 255 - tempPixel[i+1];  
  11.             tempPixel[i+2] = 255 - tempPixel[i+2];  
  12.         }  

上面这个例子在实际应用中是非常典型的,优化结果将循环次数变为了原来的三分之一。但这也是一个特例,只所以认为它是特例,那是因为我们设定的图像 是24位真色彩的,因此图像中的每个像素都只包括三个分量,所以用于表示图像的色彩分量数组就刚好可以被3整除。但是实际中更多的情况是,待处理的数组不 一定能被3整除。如果这时还是希望能够对循环进行3次展开,那么该如何处理呢。可以从两个方面来解决这个需求。首先,要确保第一次循环不会超过数组的界 限。这并不难做到,对于长度为n的数组,可以将循环限制设为n-2。然后,保证只有当循环索引i<n-2时才会执行这个循环,那样即使在循环体内使 用的数组的最大索引也不会超过数组的长度n。下面这段代码演示了这种解决方案,它是在上一小节中的示例代码的基础上改写而成的。

  1. #include <stdio.h>  
  2.  
  3. void function(int array[], int *dest)  
  4. {  
  5.         int i;  
  6.  
  7.         int temp = 1;  
  8.         int limit = 10 -2;  
  9.  
  10.         for(i = 0; i < limit; i+=3){  
  11.             temp = temp * (array[i])* (array[i+1])* (array[i+2]);  
  12.         }  
  13.  
  14.         for(; i < 10; i++){  
  15.             temp = temp * array[i];  
  16.         }  
  17.         *dest = temp;  
  18. }  
  19.  
  20. void main()  
  21. {  
  22.         int array[10] = {1, 1, 1, 2, 2, 3, 3, 3, 4, 1};  
  23.       
  24.         int number = 1;  
  25.         int * dest = &number;  
  26.  
  27.         function(array, dest);  
  28.  
  29.         printf("%d\n", *dest);  

将这种方法推广到更加通用的层面上,如果循环展开k次,就可以把上限设为n-k+1,那么最大循环索引i+k-1将会比n小。然后,再加上第二个循环,以每次处理一个元素的方式处理数组的最后几个元素。

循环展开技术的好处在于它能减小循环开销的影响。但它也不是没有缺点的,天下没有免费的午餐!首先,循环展开增加了生成的目标代码的数量,这很容易 理解,因为循环体在源代码级别就已经变得庞大。读者可以试想它们被翻译成目标代码时的情况。为了验证这一点,读者可以使用Visual  C++来对比使用循环展开前后循环体的汇编代码的长度,验证结果将表明循环展开对目标代码的长度的确有很大的影响。当然,在我们所举的例子中,循环展开所 要付出的代价都是比较小的。当然这并不能概括其他所有的情况,因此这个空间换时间的折中最优位置还需要针对具体问题来做具体的分析。

还有一个规律应当是被普遍认同的,那就是循环展开的程度越高,循环执行开销所占的比例就会越小。例如,对一幅24位真色彩图像进行取反色处理,假设 该图像由16个像素组成,也就是说,图像的像素分量数组中应该有16×3=48个元素。当进行1次循环展开时,循环需要执行48次;如果进行3次循环展 开,那么循环将需要执行16次;如果进行8次循环展开,那么循环就只需要进行6次。这是一个最基本、最普遍的认识。但仍然要说明,效率提升的效果还和循环 体内执行的操作类型有着很大的关系,并不是所有计算都会取得理想中的效果。这与CPU的功能单元设计有着密切的关系,因为这是一个比较复杂的话题,这里将 不对其进行深入研究。但是一个客观的规律是如果数组比较长,那么执行循环展开的效果将较为明显,此时性能通常会随着展开度的增加而得到显著的改进,例如, 我们所举的图像取反色操作的例子。但是如果数组较短,那么增加展开度并不会得到线性的性能改进,例如,实验表明当数组长度为31时,展开度为3将可以得到 最好的性能。

使用循环展开时一方面要考虑实际待处理数组的长度,并由此选择一个较好的展开度;另一方面要综合考虑这个展开度对时空开销比例的影响,在尽量不会使 目标代码空间消耗激增的前提下获得最高的时间收益。另外,也可以让编译器为我们完成这些工作。通常,编译器可以很容易地执行循环展开,但这需要设定其优化 级别足够高,所以程序员也可以选择让编译器来完成这个工作。当然,我们曾经提醒过读者,在开发阶段并不适合将优化级别设置得过高,因此如果你希望让编译器 执行循环展开,那么最好等到软件开发完成之后。

这篇关于循环展开技术的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1063544

相关文章

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

系统架构设计师: 信息安全技术

简简单单 Online zuozuo: 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo :本心、输入输出、结果 简简单单 Online zuozuo : 文章目录 系统架构设计师: 信息安全技术前言信息安全的基本要素:信息安全的范围:安全措施的目标:访问控制技术要素:访问控制包括:等保

前端技术(七)——less 教程

一、less简介 1. less是什么? less是一种动态样式语言,属于css预处理器的范畴,它扩展了CSS语言,增加了变量、Mixin、函数等特性,使CSS 更易维护和扩展LESS 既可以在 客户端 上运行 ,也可以借助Node.js在服务端运行。 less的中文官网:https://lesscss.cn/ 2. less编译工具 koala 官网 http://koala-app.

Spring的设计⽬标——《Spring技术内幕》

读《Spring技术内幕》第二版,计文柯著。 如果我们要简要地描述Spring的设计⽬标,可以这么说,Spring为开发者提供的是⼀个⼀站式的轻量级应⽤开发框架(平台)。 作为平台,Spring抽象了我们在 许多应⽤开发中遇到的共性问题;同时,作为⼀个轻量级的应⽤开发框架,Spring和传统的J2EE开发相⽐,有其⾃⾝的特点。 通过这些⾃⾝的特点,Spring充分体现了它的设计理念:在

java线程深度解析(六)——线程池技术

http://blog.csdn.net/Daybreak1209/article/details/51382604 一种最为简单的线程创建和回收的方法: [html]  view plain copy new Thread(new Runnable(){                @Override               public voi

java线程深度解析(二)——线程互斥技术与线程间通信

http://blog.csdn.net/daybreak1209/article/details/51307679      在java多线程——线程同步问题中,对于多线程下程序启动时出现的线程安全问题的背景和初步解决方案已经有了详细的介绍。本文将再度深入解析对线程代码块和方法的同步控制和多线程间通信的实例。 一、再现多线程下安全问题 先看开启两条线程,分别按序打印字符串的

SSM项目使用AOP技术进行日志记录

本步骤只记录完成切面所需的必要代码 本人开发中遇到的问题: 切面一直切不进去,最后发现需要在springMVC的核心配置文件中中开启注解驱动才可以,只在spring的核心配置文件中开启是不会在web项目中生效的。 之后按照下面的代码进行配置,然后前端在访问controller层中的路径时即可观察到日志已经被正常记录到数据库,代码中有部分注释,看不懂的可以参照注释。接下来进入正题 1、导入m

嵌入式技术的核心技术有哪些?请详细列举并解释每项技术的主要功能和应用场景。

嵌入式技术的核心技术包括处理器技术、IC技术和设计/验证技术。 1. 处理器技术    通用处理器:这类处理器适用于不同类型的应用,其主要特征是存储程序和通用的数据路径,使其能够处理各种计算任务。例如,在智能家居中,通用处理器可以用于控制和管理家庭设备,如灯光、空调和安全系统。    单用途处理器:这些处理器执行特定程序,如JPEG编解码器,专门用于视频信息的压缩或解压。在数字相机中,单用途