Modern C++——使用分支预测优化代码性能

2024-09-02 06:04

本文主要是介绍Modern C++——使用分支预测优化代码性能,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大纲

  • [[likely]]
  • [[unlikely]]
  • 样例
  • 应用场景
  • 题外
  • 参考代码
  • 参考资料

在C++20中,新引入了一对属性关键字[[likely]][[unlikely]],它们用于为编译器提供关于代码分支执行概率的额外信息,以帮助编译器进行更好的优化。这对属性是基于长期实践中开发人员对程序执行路径的深入理解而设计的,特别是在面对复杂逻辑和频繁分支的情况下。

[[likely]]

[[likely]]属性用于标记某个分支条件在运行时更有可能为真。当编译器遇到这种标记时,它会尝试优化与该分支相关的代码,以提高整体的执行效率。具体来说,编译器可能会重新组织指令序列,使更可能执行的路径在缓存中更频繁地命中,从而减少对主内存的访问,并降低指令的等待时间。

[[unlikely]]

相反,[[unlikely]]属性用于标记某个分支条件在运行时不太可能为真。编译器在处理这样的分支时,会考虑优化与该分支相关联的代码的加载和执行,以便减少对处理器资源的占用,特别是当这个不太可能发生的分支实际上未执行时。通过减少对不太可能执行的路径的优化投资,编译器可以集中资源来优化更常执行的代码部分。

样例

#include <chrono>
#include <cmath>
#include <iomanip>
#include <iostream>
#include <random>
#include <functional>namespace with_attributes {constexpr double pow(double x, long long n) noexcept {if (n <= 0) [[unlikely]]return 1;else [[likely]]return x * pow(x, n - 1);}
} // namespace with_attributesnamespace no_attributes {constexpr double pow(double x, long long n) noexcept {if (n <= 0)return 1;elsereturn x * pow(x, n - 1);}
} // namespace no_attributesdouble calc(double x, std::function<double(double, long long)> f) noexcept {constexpr long long precision{16LL};double y{};for (auto n{0LL}; n < precision; n += 2LL)y += f(x, n);return y;
}double gen_random() noexcept {static std::random_device rd;static std::mt19937 gen(rd());static std::uniform_real_distribution<double> dis(-1.0, 1.0);return dis(gen);
}volatile double sink{}; // ensures a side effectint main() {auto benchmark = [](auto fun, auto rem){const auto start = std::chrono::high_resolution_clock::now();for (auto y{1ULL}; y != 500'000'000ULL; ++y)sink = calc(gen_random(), fun);const std::chrono::duration<double> diff =std::chrono::high_resolution_clock::now() - start;std::cout << "Time: " << std::fixed << std::setprecision(6) << diff.count()<< " sec " << rem << std::endl; };benchmark(with_attributes::pow, "(with attributes)");benchmark(no_attributes::pow, "(without attributes)");benchmark(with_attributes::pow, "(with attributes)");benchmark(no_attributes::pow, "(without attributes)");benchmark(with_attributes::pow, "(with attributes)");benchmark(no_attributes::pow, "(without attributes)");
}

上面代码的pow函数中n的值大部分时候大于0,于是我们在with_attributes::pow的else部分标记为[[likely]];而很少出现的小于等于0的时候,使用[[unlikely]]标记。这样编译器就会根据我们的标记来优化代码。

作为对照组,no_attributes::pow除了没有标记外和with_attributes::pow完全一致。

我们看下对比结果。
在这里插入图片描述
可以发现使用了分支预测标记的代码效率更高(本例提升了约20%性能)。

应用场景

这些属性的应用可以帮助提升在复杂分支结构下的程序性能。特别是在性能敏感的应用中,如实时系统高性能计算科学计算,合理使用[[likely]][[unlikely]]属性可以显著提升执行效率。然而,它们并不是万能的,开发者需要基于程序的实际执行路径和统计数据来谨慎选择使用。

题外

在研究这个专题时,我最开始预计编译器会优化分支顺序,于是设计了如下的代码

    if (value == 0) [[unlikely]] {sum += value.get_value();} else if (value == 1) [[unlikely]] {sum += value.get_value();} else if (value == 2) [[unlikely]] {sum += value.get_value();} else if (value == 3) [[unlikely]] {sum += value.get_value();} else if (value == 4) [[unlikely]] {sum += value.get_value();} else if (value == 5) [[unlikely]] {sum += value.get_value();} else if (value == 6) [[likely]] {sum += value.get_value();} 

如果我们的设想成立,则编译器进入如下编译优化:先对比value==6这个条件,然后再对比其他条件。这样经常执行的value==6的分支只要执行一次对比,而省去了多余的其他5次对比。但是我在Linux和Windows两个平台上都做了实验,发现编译器并没有因为我们的标记而优化条件对比的顺序。所以这优化类还需要我们程序员自己来做。

如果没有做顺序调优,那么编译器对本例进行了什么优化导致优20%的性能提升呢?这个问题我们会在《从汇编层看64位程序运行——likely提示编译器的优化案例》中解答。

参考代码

https://github.com/f304646673/cpulsplus/tree/master/likely

参考资料

  • https://en.cppreference.com/w/cpp/language/attributes/likely

这篇关于Modern C++——使用分支预测优化代码性能的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1129199

相关文章

Java Stream流与使用操作指南

《JavaStream流与使用操作指南》Stream不是数据结构,而是一种高级的数据处理工具,允许你以声明式的方式处理数据集合,类似于SQL语句操作数据库,本文给大家介绍JavaStream流与使用... 目录一、什么是stream流二、创建stream流1.单列集合创建stream流2.双列集合创建str

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

C++右移运算符的一个小坑及解决

《C++右移运算符的一个小坑及解决》文章指出右移运算符处理负数时左侧补1导致死循环,与除法行为不同,强调需注意补码机制以正确统计二进制1的个数... 目录我遇到了这么一个www.chinasem.cn函数由此可以看到也很好理解总结我遇到了这么一个函数template<typename T>unsigned

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

springboot中使用okhttp3的小结

《springboot中使用okhttp3的小结》OkHttp3是一个JavaHTTP客户端,可以处理各种请求类型,比如GET、POST、PUT等,并且支持高效的HTTP连接池、请求和响应缓存、以及异... 在 Spring Boot 项目中使用 OkHttp3 进行 HTTP 请求是一个高效且流行的方式。

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

Java使用Javassist动态生成HelloWorld类

《Java使用Javassist动态生成HelloWorld类》Javassist是一个非常强大的字节码操作和定义库,它允许开发者在运行时创建新的类或者修改现有的类,本文将简单介绍如何使用Javass... 目录1. Javassist简介2. 环境准备3. 动态生成HelloWorld类3.1 创建CtC