使用C++中的final关键字,到底能否提升性能?

C语言与CPP编程 2024-07-16 09:00

来自公众号:CSDN程序人生

译者 | 郑丽媛

使用 C++ 中的 final 关键字,到底能否提升性能?不少开发者认为可以,却没能给出数据依据。为此,本文作者进行了一次测试,亲自验证这个说法的真实性。

原文链接:https://16bpp.net/blog/post/the-performance-impact-of-cpp-final-keyword/


如果你选择用 C++ 写代码,一定是有理由的,而这个理由很可能就是性能。

在很多有关 C++ 的文章中,我们经常会看到各种“性能提示和技巧”或“这样做效率更高”的建议。有时这些建议会给你一个合理的详细解释,但更多时候,你会发现没有任何实际数据支持这些说法。

最近我发现了一个奇怪的东西,那就是 final 关键字。说起来有些惭愧,我之前没怎么了解过这个关键词。许多博客文章都说,使用 final 可以提升性能,而且是免费的,只需进行微小改动。

但是,读完这些文章后,你会发现一个有趣的事实:没有人给出任何相关数据,基本上就纯靠一个“相信我吧,兄弟”。

从我的经验来看,除非有数据支持,否则任何性能提升的说法就全是空谈,甚至就算有了数据也得能够复现才行——因此,作为一名有着高性能 C++ 项目的优秀工程师,我真的很想验证这个说法。

有一个我认为非常适合测试 final 关键字的绝佳项目:PSRayTracing(https://github.com/define-private-public/PSRayTracing)。

简单介绍一下这个项目:这是一个用 C++ 实现的光线追踪器,源自 Peter Shirley 所写的光线跟踪系列书籍。它主要用于学术目的,但也结合了我编写 C++ 时的专业经验。项目目标是向读者展示如何(重新)编写 C++,使其性能更强、更简洁、结构更合理,因此在 Shirley 博士原始代码的基础上进行了补充和改进。PSRayTracing 有一个重要特性,能通过 CMake 切换代码的更改,还可以提供其他选项,如随机种子、多核渲染。

1、这是如何做到的?

利用构建系统,我在 CMakeLists.txt 中添加了一个额外选项:

option(WITH_FINAL "Use the `final` specifier on derived classes (faster?)" OFF)    # ...    if (WITH_FINAL)  message(STATUS "Using `final` spicifer (faster?)")  target_compile_definitions(PSRayTracing_StaticLibrary PUBLIC USE_FINAL)  else()  message(STATUS "Turned off use of `final` (slower?)")  endif()

然后在 C++ 中,我们可以使用预处理器来创建一个 FINAL 宏:

#ifdef USE_FINAL  #define FINAL final  #else  #define FINAL  #endif

而且,它可以轻松地添加到任何你感兴趣的类中:

$ rg FINAL    RandomGenerator.hpp  185:class RandomGenerator FINAL : public _GeneralizedRandomGenerator<std::uniform_real_distribution, rreal, RNG_ENGINE> {    Materials/Lambertian.hpp  8:class Lambertian FINAL : public IMaterial {    ...    Materials/SurfaceNormal.hpp  7:class SurfaceNormal FINAL : public IMaterial {    ...    PDFs/HittablePDF.hpp  7:class HittablePDF FINAL : public IPDF {    ...    Objects/Sphere.hpp  19:class Sphere FINAL : public IHittable {

这样,我们就可以在代码库中随时开始和停止对 final 关键字的使用了。

当然,你可能会说这个方法太过繁琐,我也这么觉得。但不得不说,这很适合用来做对照试验:将 final 关键字应用到代码中,并根据实验需要使用或关闭它。

几乎每个接口都有 final 关键字。在架构中,我们有 IHittable、IMaterial、ITexture 等。在 Peter Shirley 光线跟踪系列的第二本书中,最后一个场景有很多超过 10K 个虚拟对象:

另外,有些场景的数量并不多(可能只有 10 个):

2、最初的担忧

对于 PSRT 来说,在测试可能提高性能的东西时,我首先使用的是默认场景 book2::final。启用 final 后,控制台报告如下:

$ ./PSRayTracing -n 100 -j 2Scene: book2::final_scene...Render took 58.587 seconds

可随后又恢复了更改:

$ ./PSRayTracing -n 100 -j 2Scene: book2::final_scene...Render took 57.53 seconds

我有点困惑,用了 final 反而更慢了?又跑了几次后,我发现性能下降得非常小,那些博客文章一定是在忽悠我……

不过在完全放弃之前,我想最好还是把验证测试脚本拿出来看看。在之前的版本中,这个脚本主要用于对 PSRayTracing 进行模糊测试,版本库中已经包含了一套小型的知名测试用例。

这套脚本最初运行大约需要 20 分钟,此时情况开始变得有趣:脚本报告称,使用 final 时速度稍快,运行时间为 11 分 29 秒;不使用 final 则为 11 分 44 秒。

看似只相差了 2% 的时长,实际上却很重要——我决定,要进一步调查。

3、大型测试

由于对以上结果不满意,我创建了一个“大型测试套件”,主要提高了一些测试参数以加强测试强度。在我的开发机器上,它需要运行 8 个小时。以下是调整后的详情:

● 场景测试次数:10 → 30

● 图像尺寸:[320x240, 400x400, 852x480] → [720x1280, 720x720, 1280x720]

● 光线深度:[10, 25, 50] → [20, 35, 50]

● 每像素采样次数:[5, 10, 25] → [25, 50, 75]

我认为这样更全面:现在有些测试用例只需 10 秒就能完成,有些则需要 10 分钟才能完成;小型测试套件在 20 多分钟内完成了约 350 个测试用例,而这个套件在 8 多小时内完成了 1150 多个测试用例。

考虑到 C++ 程序的性能与编译器(和系统)密切相关,因此为了更加彻底,我们在三台机器、三种操作系统和三种不同的编译器上都进行了测试;一次使用了 final,一次没使用。经过计算,这些计算机累计运行了 125 多小时。

具体情况请参见下表,另外配置如下:

● AMD Ryzen 9:

   Linux:GCC & Clang

   Windows:GCC & MSVC

● Apple M1 Mac:GCC & Clang

● Intel i7:Linux GCC

例如,一种配置是“AMD Ryzen 9,使用 Ubuntu Linux 和 GCC”,另一种是“Apple M1 Mac,使用 macOS 和 Clang”。注意,并非所有编译器的版本都相同,有些很难获得。另外在我发文的时候,Clang 还发布了一个新版本。下面是测试结果的总体摘要:

通过对比测试,我们可以看到一些有趣的结论,同时也告诉了我们一件事:从整体上看,使用 final 不能保证总是提速,甚至某些情况下速度还会更慢。

虽然在这个测试中对编译器进行比较可能也很有趣,但认为这样做并不公平:仅把“使用 final”和“不使用 final”进行比较才是公平的。如果想要比较编译器(以及不同系统),需要更全面的测试系统。

尽管如此,我们还是观察到了一些有趣的结果:

  • x86_64 上的 Clang 运行速度较慢。

  • Windows 性能较差,微软自己的编译器也很落后。

  • 苹果公司的芯片则是绝对的强者。

但每个场景都不同,包含的标记为 final 的对象数量也不尽相同。按百分比来看,有多少测试用例在使用 final 后更快或更慢都很有趣。将这些数据列表,我们可以得到以下结果:

对于某些 C++ 应用程序来说,那 1% 的性能提升非常令人期待(例如,高频交易)。如果我们 50% 以上的测试用例都能达到这一点,那我们似乎应该考虑使用 final。但另一方面,我们还需要看看相反的情况:例如速度慢了多少?又有多少测试用例变慢了?

在 x86_64 Linux 上的 Clang 就绝对是一个典型:超过 90% 的测试用例在使用 final 后至少慢了 5%!!还记得我说过,对于某些应用程序来说,1% 的速度提升是件天大的好事吗?所以相对的,就算只慢了 1% 也绝不能容忍。此外,使用 MSVC 的 Windows 也表现不佳。

如上所述,这与场景有很大关系。有些场景只有少量的虚拟对象,有些则有一大堆。下面平均来看,使用 final 后一个场景的速度快了/慢了多少:

我对 Pandas 不是很了解,在创建一个多级索引表格(从数组中创建)并使其具有良好的样式和格式方面遇到了一些问题。因此,我在每一列名称的末尾都附加了一个配置编号。以下是每个数字的含义:

0 - GCC 13.2.0 AMD Ryzen 9 6900HX Ubuntu 23.10

1 - Clang 17.0.2 AMD Ryzen 9 6900HX Ubuntu 23.10

2 - MSVC 17 AMD Ryzen 9 6900HX Windows 11 Home (22631.3085)

3 - GCC 13.2.0 (w64devkit) AMD Ryzen 9 6900HX Windows 11 Home (22631.3085)

4 - Clang 15 M1 macOS 14.3 (23D56)

5 - GCC 13.2.0 (homebrew) M1 macOS 14.3 (23D56)

6 - GCC 12.3.0 i7-10750H Ubuntu 22.04.3

这就是让人眼前一亮的地方:在某些配置和特定场景下,性能可能会提升 10%!例如,在 AMD 和 Linux 上使用 GCC 的 book1::final_scene。但其他场景(在相同的配置下)仅有 0.5% 的提升,比如 fun::three_spheres。

但是,只是将编译器切换到 Clang(仍在 AMD 和 Linux 上运行)后,这两个场景的性能就分别下降了 5% 和 17%!MSVC(在 AMD 上)的情况有点复杂,有些场景在使用 final 时性能更高,有些场景则受到了很大影响。

苹果的 M1 有点意思,提速和降速幅度看起来都非常小,但 GCC 在两个场景上有显著优势。

另外,使用 final 后性能的提升或降低,几乎与虚拟对象数量是多是少没有关系。

4、我比较关注 Clang 的情况

PSRayTracing 也可在 Android 和 iOS 上运行。在这两个平台上,可能只有一小部分应用程序为了性能是用 C++ 编写的,而 Clang 正是用于这两个平台的编译器。

不幸的是,我没有像在桌面系统上那样的性能测试框架,但我可以做一个简单的“使用相同参数渲染场景,一个使用 final,一个不使用 final”的测试,因为应用程序会报告进程耗时。

根据上面的数据,我的假设是,这两个平台在使用 final 后性能会变差,但具体变差多少不清楚。以下是测试结果:

  • iPhone 12:我认为没有区别;无论使用 final 与否,渲染相同的场景都需要大约 2 分钟 36 秒。

  • Pixel 6 Pro:使用 final 后速度变慢了。渲染时间分别为 49 秒和 46 秒,3 秒的差异可能看起来不是很大,这相当于 6% 的减速,意义相当重大。

我不知道这是 Clang 的问题还是 LLVM 的问题。如果是后者,这可能对其他 LLVM 语言(如 Rust 和 Swift)也有影响。

5、未来的计划(以及我希望自己做的事情)

总的来说,我对这次测试发现的东西非常满意。如果我能重做一些事情(或得到一笔钱来做这个项目),我希望能做到以下几点:

  • 让每个场景都能报告一些元数据。例如,对象数量、材质等。

  • 对 Jupyter+Pandas 有更好的了解。虽然我是一位 C++ 开发者,不是数据科学家,但我希望能了解如何更好地转换测量结果,使其看起来更美观。

  • 找到一种在 Android 和 iOS 上运行自动化测试的方法。目前这两个平台都不容易测试,这是一个很明显的问题。

  • run_verfication_tests.py 更像是一个应用程序(而不是一个小脚本)。

  • PNG 开始变得有些庞大,有一次我磁盘空间都不足了。无损 WebP 作为渲染输出可能更好。

  • 比较更多的英特尔芯片,并使用更多的编译器。

6、结论

如果你只是匆匆翻到结尾,以下是总结:

  • 使用 GCC 可能会得到一些好处。

  • 对苹果芯片的影响不大。

  • 不要在 Clang 和 MSVC 上使用 final。

  • 这完全取决于你的配置/平台,请自主测试并衡量是否值得。

最后,就我个人而言,我应该不会用 C++ 的 final 关键字来提升性能,本文的测试结果说明了这种方式并不稳定。

EOF

你好,我是飞宇,本硕均于某中流985 CS就读,先后于百度搜索字节跳动电商以及携程等部门担任Linux C/C++后端研发工程师。

最近跟朋友一起开发了一个新的网站:编程资源网,已经收录了不少资源(附赠下载地址),如果屏幕前的靓仔/女想要学习编程找不到合适资源的话,不妨来我们的网站看看,欢迎扫码下方二维码白嫖~

同时,我也是知乎博主@韩飞宇,日常分享C/C++、计算机学习经验、工作体会,欢迎点击此处查看我以前的学习笔记&经验&分享的资源。

我组建了一些社群一起交流,群里有大牛也有小白,如果你有意可以一起进群交流。

欢迎你添加我的微信,我拉你进技术交流群。此外,我也会经常在微信上分享一些计算机学习经验以及工作体验,还有一些内推机会

加个微信,打开另一扇窗

C语言与CPP编程 C语言/C++开发,C语言/C++基础知识,C语言/C++学习路线,C语言/C++进阶,数据结构;算法;python;计算机基础等
评论
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 221浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 530浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 125浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 81浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 68浏览
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 340浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 167浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 187浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 105浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 488浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 159浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 201浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 131浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 202浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 76浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦