使用C++中的final关键字,到底能否提升性能?

C语言与CPP编程 2024-07-16 09:00

来自公众号:CSDN程序人生

译者 | 郑丽媛

使用 C++ 中的 final 关键字,到底能否提升性能?不少开发者认为可以,却没能给出数据依据。为此,本文作者进行了一次测试,亲自验证这个说法的真实性。

原文链接:https://16bpp.net/blog/post/the-performance-impact-of-cpp-final-keyword/


如果你选择用 C++ 写代码,一定是有理由的,而这个理由很可能就是性能。

在很多有关 C++ 的文章中,我们经常会看到各种“性能提示和技巧”或“这样做效率更高”的建议。有时这些建议会给你一个合理的详细解释,但更多时候,你会发现没有任何实际数据支持这些说法。

最近我发现了一个奇怪的东西,那就是 final 关键字。说起来有些惭愧,我之前没怎么了解过这个关键词。许多博客文章都说,使用 final 可以提升性能,而且是免费的,只需进行微小改动。

但是,读完这些文章后,你会发现一个有趣的事实:没有人给出任何相关数据,基本上就纯靠一个“相信我吧,兄弟”。

从我的经验来看,除非有数据支持,否则任何性能提升的说法就全是空谈,甚至就算有了数据也得能够复现才行——因此,作为一名有着高性能 C++ 项目的优秀工程师,我真的很想验证这个说法。

有一个我认为非常适合测试 final 关键字的绝佳项目:PSRayTracing(https://github.com/define-private-public/PSRayTracing)。

简单介绍一下这个项目:这是一个用 C++ 实现的光线追踪器,源自 Peter Shirley 所写的光线跟踪系列书籍。它主要用于学术目的,但也结合了我编写 C++ 时的专业经验。项目目标是向读者展示如何(重新)编写 C++,使其性能更强、更简洁、结构更合理,因此在 Shirley 博士原始代码的基础上进行了补充和改进。PSRayTracing 有一个重要特性,能通过 CMake 切换代码的更改,还可以提供其他选项,如随机种子、多核渲染。

1、这是如何做到的?

利用构建系统,我在 CMakeLists.txt 中添加了一个额外选项:

option(WITH_FINAL "Use the `final` specifier on derived classes (faster?)" OFF)    # ...    if (WITH_FINAL)  message(STATUS "Using `final` spicifer (faster?)")  target_compile_definitions(PSRayTracing_StaticLibrary PUBLIC USE_FINAL)  else()  message(STATUS "Turned off use of `final` (slower?)")  endif()

然后在 C++ 中,我们可以使用预处理器来创建一个 FINAL 宏:

#ifdef USE_FINAL  #define FINAL final  #else  #define FINAL  #endif

而且,它可以轻松地添加到任何你感兴趣的类中:

$ rg FINAL    RandomGenerator.hpp  185:class RandomGenerator FINAL : public _GeneralizedRandomGenerator<std::uniform_real_distribution, rreal, RNG_ENGINE> {    Materials/Lambertian.hpp  8:class Lambertian FINAL : public IMaterial {    ...    Materials/SurfaceNormal.hpp  7:class SurfaceNormal FINAL : public IMaterial {    ...    PDFs/HittablePDF.hpp  7:class HittablePDF FINAL : public IPDF {    ...    Objects/Sphere.hpp  19:class Sphere FINAL : public IHittable {

这样,我们就可以在代码库中随时开始和停止对 final 关键字的使用了。

当然,你可能会说这个方法太过繁琐,我也这么觉得。但不得不说,这很适合用来做对照试验:将 final 关键字应用到代码中,并根据实验需要使用或关闭它。

几乎每个接口都有 final 关键字。在架构中,我们有 IHittable、IMaterial、ITexture 等。在 Peter Shirley 光线跟踪系列的第二本书中,最后一个场景有很多超过 10K 个虚拟对象:

另外,有些场景的数量并不多(可能只有 10 个):

2、最初的担忧

对于 PSRT 来说,在测试可能提高性能的东西时,我首先使用的是默认场景 book2::final。启用 final 后,控制台报告如下:

$ ./PSRayTracing -n 100 -j 2Scene: book2::final_scene...Render took 58.587 seconds

可随后又恢复了更改:

$ ./PSRayTracing -n 100 -j 2Scene: book2::final_scene...Render took 57.53 seconds

我有点困惑,用了 final 反而更慢了?又跑了几次后,我发现性能下降得非常小,那些博客文章一定是在忽悠我……

不过在完全放弃之前,我想最好还是把验证测试脚本拿出来看看。在之前的版本中,这个脚本主要用于对 PSRayTracing 进行模糊测试,版本库中已经包含了一套小型的知名测试用例。

这套脚本最初运行大约需要 20 分钟,此时情况开始变得有趣:脚本报告称,使用 final 时速度稍快,运行时间为 11 分 29 秒;不使用 final 则为 11 分 44 秒。

看似只相差了 2% 的时长,实际上却很重要——我决定,要进一步调查。

3、大型测试

由于对以上结果不满意,我创建了一个“大型测试套件”,主要提高了一些测试参数以加强测试强度。在我的开发机器上,它需要运行 8 个小时。以下是调整后的详情:

● 场景测试次数:10 → 30

● 图像尺寸:[320x240, 400x400, 852x480] → [720x1280, 720x720, 1280x720]

● 光线深度:[10, 25, 50] → [20, 35, 50]

● 每像素采样次数:[5, 10, 25] → [25, 50, 75]

我认为这样更全面:现在有些测试用例只需 10 秒就能完成,有些则需要 10 分钟才能完成;小型测试套件在 20 多分钟内完成了约 350 个测试用例,而这个套件在 8 多小时内完成了 1150 多个测试用例。

考虑到 C++ 程序的性能与编译器(和系统)密切相关,因此为了更加彻底,我们在三台机器、三种操作系统和三种不同的编译器上都进行了测试;一次使用了 final,一次没使用。经过计算,这些计算机累计运行了 125 多小时。

具体情况请参见下表,另外配置如下:

● AMD Ryzen 9:

   Linux:GCC & Clang

   Windows:GCC & MSVC

● Apple M1 Mac:GCC & Clang

● Intel i7:Linux GCC

例如,一种配置是“AMD Ryzen 9,使用 Ubuntu Linux 和 GCC”,另一种是“Apple M1 Mac,使用 macOS 和 Clang”。注意,并非所有编译器的版本都相同,有些很难获得。另外在我发文的时候,Clang 还发布了一个新版本。下面是测试结果的总体摘要:

通过对比测试,我们可以看到一些有趣的结论,同时也告诉了我们一件事:从整体上看,使用 final 不能保证总是提速,甚至某些情况下速度还会更慢。

虽然在这个测试中对编译器进行比较可能也很有趣,但认为这样做并不公平:仅把“使用 final”和“不使用 final”进行比较才是公平的。如果想要比较编译器(以及不同系统),需要更全面的测试系统。

尽管如此,我们还是观察到了一些有趣的结果:

  • x86_64 上的 Clang 运行速度较慢。

  • Windows 性能较差,微软自己的编译器也很落后。

  • 苹果公司的芯片则是绝对的强者。

但每个场景都不同,包含的标记为 final 的对象数量也不尽相同。按百分比来看,有多少测试用例在使用 final 后更快或更慢都很有趣。将这些数据列表,我们可以得到以下结果:

对于某些 C++ 应用程序来说,那 1% 的性能提升非常令人期待(例如,高频交易)。如果我们 50% 以上的测试用例都能达到这一点,那我们似乎应该考虑使用 final。但另一方面,我们还需要看看相反的情况:例如速度慢了多少?又有多少测试用例变慢了?

在 x86_64 Linux 上的 Clang 就绝对是一个典型:超过 90% 的测试用例在使用 final 后至少慢了 5%!!还记得我说过,对于某些应用程序来说,1% 的速度提升是件天大的好事吗?所以相对的,就算只慢了 1% 也绝不能容忍。此外,使用 MSVC 的 Windows 也表现不佳。

如上所述,这与场景有很大关系。有些场景只有少量的虚拟对象,有些则有一大堆。下面平均来看,使用 final 后一个场景的速度快了/慢了多少:

我对 Pandas 不是很了解,在创建一个多级索引表格(从数组中创建)并使其具有良好的样式和格式方面遇到了一些问题。因此,我在每一列名称的末尾都附加了一个配置编号。以下是每个数字的含义:

0 - GCC 13.2.0 AMD Ryzen 9 6900HX Ubuntu 23.10

1 - Clang 17.0.2 AMD Ryzen 9 6900HX Ubuntu 23.10

2 - MSVC 17 AMD Ryzen 9 6900HX Windows 11 Home (22631.3085)

3 - GCC 13.2.0 (w64devkit) AMD Ryzen 9 6900HX Windows 11 Home (22631.3085)

4 - Clang 15 M1 macOS 14.3 (23D56)

5 - GCC 13.2.0 (homebrew) M1 macOS 14.3 (23D56)

6 - GCC 12.3.0 i7-10750H Ubuntu 22.04.3

这就是让人眼前一亮的地方:在某些配置和特定场景下,性能可能会提升 10%!例如,在 AMD 和 Linux 上使用 GCC 的 book1::final_scene。但其他场景(在相同的配置下)仅有 0.5% 的提升,比如 fun::three_spheres。

但是,只是将编译器切换到 Clang(仍在 AMD 和 Linux 上运行)后,这两个场景的性能就分别下降了 5% 和 17%!MSVC(在 AMD 上)的情况有点复杂,有些场景在使用 final 时性能更高,有些场景则受到了很大影响。

苹果的 M1 有点意思,提速和降速幅度看起来都非常小,但 GCC 在两个场景上有显著优势。

另外,使用 final 后性能的提升或降低,几乎与虚拟对象数量是多是少没有关系。

4、我比较关注 Clang 的情况

PSRayTracing 也可在 Android 和 iOS 上运行。在这两个平台上,可能只有一小部分应用程序为了性能是用 C++ 编写的,而 Clang 正是用于这两个平台的编译器。

不幸的是,我没有像在桌面系统上那样的性能测试框架,但我可以做一个简单的“使用相同参数渲染场景,一个使用 final,一个不使用 final”的测试,因为应用程序会报告进程耗时。

根据上面的数据,我的假设是,这两个平台在使用 final 后性能会变差,但具体变差多少不清楚。以下是测试结果:

  • iPhone 12:我认为没有区别;无论使用 final 与否,渲染相同的场景都需要大约 2 分钟 36 秒。

  • Pixel 6 Pro:使用 final 后速度变慢了。渲染时间分别为 49 秒和 46 秒,3 秒的差异可能看起来不是很大,这相当于 6% 的减速,意义相当重大。

我不知道这是 Clang 的问题还是 LLVM 的问题。如果是后者,这可能对其他 LLVM 语言(如 Rust 和 Swift)也有影响。

5、未来的计划(以及我希望自己做的事情)

总的来说,我对这次测试发现的东西非常满意。如果我能重做一些事情(或得到一笔钱来做这个项目),我希望能做到以下几点:

  • 让每个场景都能报告一些元数据。例如,对象数量、材质等。

  • 对 Jupyter+Pandas 有更好的了解。虽然我是一位 C++ 开发者,不是数据科学家,但我希望能了解如何更好地转换测量结果,使其看起来更美观。

  • 找到一种在 Android 和 iOS 上运行自动化测试的方法。目前这两个平台都不容易测试,这是一个很明显的问题。

  • run_verfication_tests.py 更像是一个应用程序(而不是一个小脚本)。

  • PNG 开始变得有些庞大,有一次我磁盘空间都不足了。无损 WebP 作为渲染输出可能更好。

  • 比较更多的英特尔芯片,并使用更多的编译器。

6、结论

如果你只是匆匆翻到结尾,以下是总结:

  • 使用 GCC 可能会得到一些好处。

  • 对苹果芯片的影响不大。

  • 不要在 Clang 和 MSVC 上使用 final。

  • 这完全取决于你的配置/平台,请自主测试并衡量是否值得。

最后,就我个人而言,我应该不会用 C++ 的 final 关键字来提升性能,本文的测试结果说明了这种方式并不稳定。

EOF

你好,我是飞宇,本硕均于某中流985 CS就读,先后于百度搜索字节跳动电商以及携程等部门担任Linux C/C++后端研发工程师。

最近跟朋友一起开发了一个新的网站:编程资源网,已经收录了不少资源(附赠下载地址),如果屏幕前的靓仔/女想要学习编程找不到合适资源的话,不妨来我们的网站看看,欢迎扫码下方二维码白嫖~

同时,我也是知乎博主@韩飞宇,日常分享C/C++、计算机学习经验、工作体会,欢迎点击此处查看我以前的学习笔记&经验&分享的资源。

我组建了一些社群一起交流,群里有大牛也有小白,如果你有意可以一起进群交流。

欢迎你添加我的微信,我拉你进技术交流群。此外,我也会经常在微信上分享一些计算机学习经验以及工作体验,还有一些内推机会

加个微信,打开另一扇窗

C语言与CPP编程 C语言/C++开发,C语言/C++基础知识,C语言/C++学习路线,C语言/C++进阶,数据结构;算法;python;计算机基础等
评论
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 153浏览
  • TOF多区传感器: ND06   ND06是一款微型多区高集成度ToF测距传感器,其支持24个区域(6 x 4)同步测距,测距范围远达5m,具有测距范围广、精度高、测距稳定等特点。适用于投影仪的无感自动对焦和梯形校正、AIoT、手势识别、智能面板和智能灯具等多种场景。                 如果用ND06进行手势识别,只需要经过三个步骤: 第一步&
    esad0 2024-12-04 11:20 89浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 90浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 131浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 135浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 103浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 86浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 111浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 121浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 134浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 104浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦