循环展开与Duff Device

2024-01-01 03:52
文章标签 device 循环展开 duff

本文主要是介绍循环展开与Duff Device,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本来想转一篇江南一散人(原点技术)的文章, 但觉得可以写得再简略一些,于是就写了个简化版本。不算原创,算是改写了一下吧,其中插入了一些笔者个人的补充、段落顺序调整以及简化。

1983年11月,一位叫Tom Duff的大牛在编写串口通信程序时遇到了一个需求:从一个地址from拷贝count个字节到另一个地址to.
怎么样?很简单吧。我们伸手就来。

void send(uint8_t* to, uint8_t* from, uint16_t count)
{do {  // suppose count is always > 0*to = *from++;} while (--count > 0);
}

代码多么清晰、明了、干净、自然!还有什么问题?还有一个大问题:性能不够好。
哦,对了,好像不止这一个问题,还有内容覆盖的问题。比如,若to位于from和from+count之间,这不是把尚未拷贝的部分给写坏了么?不过这个问题不在本文讨论范围之内,也并不难解决,我们就先假设不存在内容覆盖问题。
为什么说性能不够好呢?
因为“无用指令”太多,并且无法充分发挥CPU的ILP(指令级并行)技术。
来看一下汇编:

send:pushq   %rbpmovq    %rsp, %rbpmovq    %rdi, -8(%rbp)      ;参数to压栈movq    %rsi, -16(%rbp)     ;参数from压栈movl    %edx, %eaxmovw    %ax, -20(%rbp)      ;参数count压栈
.L2:movq    -16(%rbp), %rax     ; *to = *from++;leaq    1(%rax), %rdxmovq    %rdx, -16(%rbp)movzbl  (%rax), %edx movq    -8(%rbp), %eaxmovb    %dl, (%rax)movzwl  -20(%rbp), %eax     ; while(--count > 0);subl    $1, %eaxmovw    %ax, -20(%rbp)cmpw    $0, -20(%rbp)jg      .L2 noppopq    %rbp ret

讲解下汇编:

  • x64上优先使用寄存器传递,对于send()函数,第一个参数to存放在寄存器 rdi 中,第二个参数from存放在 rsi 中,第三个参数 count 存放在寄存器 edx 中。
  • 第2~7行,把三个参数分别压入栈中;
  • 第9~14行,对应C语言的*to = *from++;
  • 第15~19行,对应C语言的while (–count > 0);
  • 最后几句,恢复栈帧并返回

所以,第9-19行属于热点路径,也就是主循环体。第9-14行属于有效指令,第15-19行对于期望的数据结果来说就是无用指令。
我们看到,热点路径中,无用指令数占了整个热点路径指令数的一半,其开销也占到整个函数的50%!

那么,怎么解决性能不够的问题呢?
联想到之前的博文从“循环展开”谈起, 我们知道,这里要循环展开了。

下面提供2个测试程序。test1.c 是普通写法,test2.c是循环展开。
test1.c

int main()
{long i=0, k=0;for(i=0; i<10000000000; i++) {k++;}return 0;
}

test2.c

int main()
{long i=0, k=0;for(i=0; i<10000000000; i+=8) {k++;k++;k++;k++;k++;k++;k++;k++;}return 0;
}

下面以本人的笔记本电脑在Windows操作系统下运行Cygwin来测试:

test1.c的执行结果:稳定值是3.x秒

$ gcc test1.c -o test1 $ time ./test1real    0m3.961s
user    0m3.531s
sys     0m0.000s

test2.c 的执行结果是: 稳定值是2.x秒

$ gcc test2.c -o test2 $ time ./test2real    0m2.695s
user    0m2.593s
sys     0m0.000s

二者相差的稳定值大约是1.2秒,而这对于总执行时间只有2、3秒的程序来说,已经是一个很大的比例了。
顺便插一句,如果再加上 -O3的优化,上面的2个程序的性能仍能得到极大幅度的提高(大致是由于使用了register),但test2.c的表现仍稍胜test1.c一点。

把 test2.c 转换为对Duff的需求的实现,代码如下:

void send(uint8_t* to, uint8_t* from, uint16_t count)
{uint16_t n = count / 8;do {*to = *from++;*to = *from++;*to = *from++;*to = *from++;*to = *from++;*to = *from++;*to = *from++;*to = *from++;} while (--n > 0);n = count % 8;while (n-- > 0) {*to = *from++;}
}

其实,代码写到这里,已经差不多了。但是Duff还不满意,他觉得底下多出来一坨很不爽,他想把代码行数再减少一点。于是就有了下面这一段被称为Duff Device的代码:

void send(uint8_t* to, uint8_t* from, uint16_t count)
{uint16_t n = (count+7)/8;  // count is always > 0switch (count % 8) {case 0: do { *to = *from++;case 7:      *to = *from++;case 6:      *to = *from++;case 5:      *to = *from++;case 4:      *to = *from++;case 3:      *to = *from++;case 2:      *to = *from++;case 1:      *to = *from++;} while (--n > 0);}
}

没太看明白?没关系,我们来做一个实验。先看下面这段代码,它会输出什么呢?

#include <stdio.h>int test(int count)
{int i = 0;int n = (count+7)/8;  // suppose count > 0switch(count % 8){case 0: do { i++;case 7:      i++;case 6:      i++;case 5:      i++;case 4:      i++;case 3:      i++;case 2:      i++;case 1:      i++;} while (--n > 0);}return i;
}int main()
{printf("%d\n", test(20));return 0;
}

它仍然是打印出20.
这里利用到了switch语句的2个特性:

  • case语句后面的break语句不是必须的;若没有则会继续执行下面一行。
  • 在switch语句内,case标号可以出现在任意的子语句之前,甚至运行出现在if、for、while等语句内;因为它只是一个label.

它究竟是怎么工作的呢?
首先,n = (count+7)/8得出 n 等于3.
然后,count % 8得出4, 于是走到case 4这条语句,因为没有break,所以就一直走完case 1
关键来了:
走完case 1之后,继续做while这句,然后发现n自减后为2,又回到了do这句,自此就没有switch什么事了~
再往后,n为2和1的时候会走2遍完整的循环体,加上最开始switch的4句语句,总共是:2*8+4=20 句 i++.

解释完毕。所以并没有那么难以理解,对吧。
其实个人觉得,写程序也并不一定要写成 Duff Device 这样,只要写成前一个版本的循环展开就可以了,毕竟程序的可读性也很重要。不过要是说起防御性编程,达夫设备则是一个让人无可辩驳的好例子。啊,这难道就是防御性编程的鼻祖吗?

(END)

这篇关于循环展开与Duff Device的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/558103

相关文章

Usb Audio Device Descriptor(10) Hid Device

对于 Standard Interface Descriptor, 当 bInterfaceClass=0x03时,即为HID设备。Standard Interface Descriptor如下 struct usb_standard_interface_descriptor{U8 bLength; /*Size of this descriptor in bytes*/U8 bDescrip

src/pyaudio/device_api.c:9:10: fatal error: portaudio.h: 没有那个文件或目录

(venv) shgbitai@shgbitai-C9X299-PGF:~/pythonworkspace/ai-accompany$ pip install pyaudio sounddeviceCollecting pyaudioDownloading PyAudio-0.2.14.tar.gz (47 kB)━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

2015多校联合训练第一场Tricks Device(hdu5294)

题意:给一个无向图,给起点s,终点t,求最少拆掉几条边使得s到不了t,最多拆几条边使得s能到t 思路: 先跑一边最短路,记录最短路中最短的边数,总边数-最短边数就是第二个答案 第一个答案就是在最短路里面求最小割,也就是求最大流,然后根据最短路在建个新图,权为1,跑一边网络流 模板题,以后就用这套模板了 #include <iostream>#include <cstdio>#incl

Linux block_device gendisk和hd_struct到底是个啥关系

本文的源码版本是Linux 5.15版本,有图有真相: 1.先从块设备驱动说起 安卓平台有一个非常典型和重要的块设备驱动:zram,我们来看一下zram这个块设备驱动加载初始化和swapon的逻辑,完整梳理完这个逻辑将对Linux块设备驱动模型有深入的理解。 zram驱动加载的时候会调用zram_add函数,源码如下: 1887/*1888 * Allocate and initia

linux驱动模型 -- bus,device,device_driver之间的关系

Linux 设备驱动模型中,按照层次的组织结构,抽象成总线(struct bus_type),设备(struct device),驱动(struct device_driver)的层次组织形式,这是最原始的抽象结构,在此基础之上,根据不同类型的总线/设备/驱动,有形成了更高层次的组织结构,如 virtio总线(struct bus_type virtio_bus),virtio设备(

Win10 - 即插即用的external audio device detected问题

问题     有些牌子的笔记本,在win10下每次插入外设耳机,都会跳出带有 external audio device detected 字样的音频输出设备选择框需要选择 方案     1、在开始菜单选择 运行 ,输入 regedit 后回车打开注册表     2、在注册表中定位到 HKEY_CURRENT_USER\SOFTWARE\Realtek\Audio\RtkNGUI64

对付error: insufficient permissions for device

当输入adb shell    遇到:error: insufficient permissions for device    首先:adb kill-server    然后:sudo adb devices即可

解决Node.js调用fs.renameSync报错的问题(Error: EXDEV, cross-device link not permitted)

在写一个文件上传的功能时候,调用fs.renameSync方法错误 出错 代码所在如下: 1 function upload(response,request){ 2 console.log("upload called"); 3 var form = new formidable.IncomingForm(); 4 console.log("about t

PCI Device Class Codes

目录 Class Code 0: Pre 2.0 Class Code 1: Mass Storage Controllers Class Code 2: Network Controllers Class Code 3: Display Controllers Class Code 4: Multimedia Devices Class Code 5: Memory Co

Linux创建sysfs属性节点 - DEVICE_ATTR宏、device_create_file()、sysfs_create_group()

目录 简介: 一、DEVICE_ATTR介绍 1、DEVICE_ATTR宏 1.1 参数说明 1.2 调用方法 二、sysfs创建属性文件 1、创建一个sysfs属性文件 1.1 device_create_file()函数 1.2 device_create_file()实例 2、创建多个sysfs属性文件 2.1 sysfs_create_group()函数 2