gcc__attribute__((always_inline))与__attribute__((noinline))解析

原创 Linux二进制 2024-11-07 08:21

引言

在 C 语言中,inline 关键字是一种编译器提示,用于建议编译器将函数调用替换为函数体本身。这种优化技术可以减少函数调用的开销,特别是对于那些频繁调用但实现简单的函数来说更为有效。除了标准的 inline 关键字外,一些编译器还提供了额外的控制机制,如always_inline 和 noinline,以提供更精细的控制。

我们接下来主要讲一下跟内联函数相关的两个属性:always_inline 和 noinline 。这两个属性的用途是告诉编译器:编译时,对我们指定的函数内联展开或不展开。

内联关键字概述

1. inline

定义:当一个函数声明或定义前加上 inline 关键字时,它指示编译器尝试将该函数的调用展开而不是进行常规的函数调用。这可以减少程序运行时的性能损失。

标准:C99 及以后的标准。

用途:建议编译器将函数内联化。

使用场景:适用于短小且经常被调用的函数。

语法:

inline int func(int x, int y) {
return x + y;
}

2. always_inline

定义:这是一个非标准的扩展,通常由特定的编译器(如 GCC)支持。它强制编译器将指定的函数内联,即使这样做可能会导致代码膨胀。

标准:编译器特定扩展(GCC 等)。用途:强制编译器将函数内联化,即使会导致代码膨胀。

使用场景:当开发者确定某个函数必须被内联以达到最佳性能时使用。

语法(GCC):

inline __attribute__((always_inline)) int func(int x, int y) {
return x * y;
}

3. noinline

定义:同样是一个编译器特定的扩展,它告诉编译器不要将标记的函数内联,即使它们被声明为inline。

标准:编译器特定扩展(GCC等)。用途:禁止编译器将函数内联化,即使函数被声明为 inline 。

使用场景:当需要确保某些函数不会被内联,例如为了调试目的或者避免代码体积过大时。

语法(GCC):

__attribute__((noinline)) int func(int x, int y) {
return x - y;
}
 

拓展:关键字归属说明

  • inline:这是 C 语言标准的一部分,从 C99 开始引入。inline 关键字用于建议编译器将函数调用内联化,以减少函数调用的开销。

  • always_inline 和 noinline:这两个关键字是编译器特定的扩展,主要由 GCCGNU Compiler Collection)和其他一些编译器支持。它们提供了更细粒度的控制,超越了标准 C 语言的 inline 关键字。

内联函数使用 inline 关键字声明即可,有时还会结合 static 和 extern 修饰符一起使用。使用 inline 声明一个内联函数,类似于使用 register 关键字声明一个变量。这两种关键字都是向编译器提出建议,而不是强制命令。使用 register 修饰变量时,编译器被建议将该变量存储在寄存器中,以提高程序的运行效率。然而,编译器是否会遵循这一建议,取决于寄存器资源的可用性和变量的使用频率。

 

思考:内联函数为什么常使用 static 修饰?

 

在 Linux 内核中,大量的内联函数定义在头文件中,并且常常使用 static 修饰。关于这一点,网上有很多讨论,但核心原因可以从 C 语言和 C++ 的角度来理解。Linux 内核作者 Linus Torvalds 也对此有过解释:

 

static inline” 意味着“如果我们需要这个函数,但不内联它,那么就在这个编译单元中生成一个静态版本。”而 “extern inline” 则意味着“我实际上有一个外部定义的函数,但如果需要内联它,这里提供了一个内联版本。”

 

我的理解如下

  1. 为什么内联函数要定义在头文件中?内联函数通常定义在头文件中,因为它们可以像宏一样使用。任何需要使用这些内联函数的源文件,只需包含相应的头文件,即可直接使用这些函数,而不需要重复定义。这样可以简化代码管理和维护。

  2. 为什么内联函数要用 static 修饰?尽管我们使用 inline 关键字定义了内联函数,但编译器并不一定会将其内联展开。如果多个源文件都包含了同一个内联函数的定义,编译时可能会出现重定义错误。通过使用 static 修饰,可以将函数的作用域限制在各自的编译单元内,从而避免重定义错误。

同样,当一个函数使用 inline 关键字修饰时,编译器在编译时并不一定会将其内联展开。编译器会根据多种因素来决定是否内联展开,这些因素包括函数体的大小、函数体内是否存在循环结构、是否有指针操作、是否有递归调用以及函数的调用频率等。GCC 编译器通常不会在默认情况下对内联函数进行展开,默认的 GCC 编译的优化选项是 -O0 的,这样是不会内联的,有些版本甚至无法编译通过,只有当编译优化级别设置为 -O2 或更高时,编译器才会考虑是否进行内联展开。

当我们使用 noinline 和 always_inline 属性对一个内联函数进行声明后,编译器的行为就变得确定了。使用 noinline 声明,明确告知编译器不要内联展开该函数;而使用 always_inline 属性声明,则明确告知编译器必须内联展开该函数。

通过这种方式,开发者可以更精细地控制函数的内联行为,从而优化程序的性能。

 

拓展:inline、always_inline、noinline的区别

  • inline:仅仅是建议编译器内联,但不一定内联。

  • always_inline :强制内联。

  • noinline:强制不内联。

代码演示

我们可以编写一个 C 语言程序,然后使用反汇编工具(如 objdump)来查看不同内联策略下的汇编代码。这将帮助我们直观地理解 inlinealways_inline 和 noinline 的实际效果。首先,编写一个 C 语言程序,包含三种不同内联策略的函数。

头文件 inline_functions.h :

#ifndef INLINE_FUNCTIONS_H
#define INLINE_FUNCTIONS_H

// 使用inline
inline int addInline(int x, int y) {
return x + y;
}

// 使用always_inline
__attribute__((always_inline)) inline int addAlwaysInline(int x, int y) {
return x * y;
}

// 使用noinline
__attribute__((noinline)) int addNoInline(int x, int y) {
return x - y;
}

#endif // INLINE_FUNCTIONS_H

源文件 inline_test.c

#include 
#include
#include "inline_functions.h"

int main() {
int result;

// 调用addInline
result = addInline(10, 20);
printf("addInline(10, 20) = %d\n", result);

// 调用addAlwaysInline
result = addAlwaysInline(10, 20);
printf("addAlwaysInline(10, 20) = %d\n", result);

// 调用addNoInline
result = addNoInline(10, 20);
printf("addNoInline(10, 20) = %d\n", result);

return 0;
}

让我们使用 -O2 优化级别编译程序,以确保编译器能够应用内联优化。

gcc -O2 -g -o inline_test inline_test.c

使用 objdump 工具反汇编生成的目标文件。

objdump -d -S inline_test > inline_test.asm

打开生成的 inline_test.asm 文件,找到 main 函数的反汇编代码,观察不同内联策略的效果。

main 函数的反汇编代码如下:

int main() {
4004b0: 48 83 ec 08 sub $0x8,%rsp
int result;

// 调用addInline
result = addInline(10, 20);
printf("addInline(10, 20) = %d\n", result);
4004b4: be 1e 00 00 00 mov $0x1e,%esi
4004b9: bf 98 06 40 00 mov $0x400698,%edi
4004be: 31 c0 xor %eax,%eax
4004c0: e8 db ff ff ff callq 4004a0

// 调用addAlwaysInline
result = addAlwaysInline(10, 20);
printf("addAlwaysInline(10, 20) = %d\n", result);
4004c5: be c8 00 00 00 mov $0xc8,%esi
4004ca: bf b0 06 40 00 mov $0x4006b0,%edi
4004cf: 31 c0 xor %eax,%eax
4004d1: e8 ca ff ff ff callq 4004a0

// 调用addNoInline
result = addNoInline(10, 20);
4004d6: be 14 00 00 00 mov $0x14,%esi
4004db: bf 0a 00 00 00 mov $0xa,%edi
4004e0: e8 0b 01 00 00 callq 4005f0
printf("addNoInline(10, 20) = %d\n", result);
4004e5: bf ce 06 40 00 mov $0x4006ce,%edi
4004ea: 89 c6 mov %eax,%esi
4004ec: 31 c0 xor %eax,%eax
4004ee: e8 ad ff ff ff callq 4004a0

return 0;
}
4004f3: 31 c0 xor %eax,%eax
4004f5: 48 83 c4 08 add $0x8,%rsp
4004f9: c3 retq

汇编代码解析如下:

  1. main 函数的入口
4004b0:       48 83 ec 08             sub    $0x8,%rsp
  • sub $0x8,%rsp:调整栈指针,为局部变量分配空间。
  1. 调用 addInline
4004b4:       be 1e 00 00 00          mov    $0x1e,%esi
4004b9: bf 98 06 40 00 mov $0x400698,%edi
4004be: 31 c0 xor %eax,%eax
4004c0: e8 db ff ff ff callq 4004a0
  • mov $0x1e,%esi:将 30(即 10 + 20 的结果)加载到 %esi 寄存器,作为 printf 的第一个参数。

  • mov $0x400698,%edi:将格式字符串的地址 0x400698 加载到 %edi 寄存器,作为 printf 的第二个参数。

  • xor %eax,%eax:清零 %eax 寄存器,表示没有浮点数参数。

  • callq 4004a0 printf@plt:调用 printf 函数。

  1. 调用 addAlwaysInline
4004c5:       be c8 00 00 00          mov    $0xc8,%esi
4004ca: bf b0 06 40 00 mov $0x4006b0,%edi
4004cf: 31 c0 xor %eax,%eax
4004d1: e8 ca ff ff ff callq 4004a0
  • mov $0xc8,%esi:将 200(即 10 * 20 的结果)加载到 %esi 寄存器,作为 printf 的第一个参数。

  • mov $0x4006b0,%edi:将格式字符串的地址 0x4006b0 加载到 %edi 寄存器,作为 printf 的第二个参数。

  • xor %eax,%eax:清零 %eax 寄存器,表示没有浮点数参数。

  • callq 4004a0 printf@plt:调用 printf 函数。

  1. 调用 addNoInline
4004d6:       be 14 00 00 00          mov    $0x14,%esi
4004db: bf 0a 00 00 00 mov $0xa,%edi
4004e0: e8 0b 01 00 00 callq 4005f0
  • mov $0x14,%esi:将 10 加载到 %esi 寄存器,作为 addNoInline 的第一个参数。

  • mov $0xa,%edi:将 20 加载到 %edi 寄存器,作为 addNoInline 的第二个参数。

  • callq 4005f0 :调用 addNoInline 函数。

4004e5:       bf ce 06 40 00          mov    $0x4006ce,%edi
4004ea: 89 c6 mov %eax,%esi
4004ec: 31 c0 xor %eax,%eax
4004ee: e8 ad ff ff ff callq 4004a0
  • mov $0x4006ce,%edi:将格式字符串的地址 0x4006ce 加载到 %edi 寄存器,作为 printf 的第二个参数。

  • mov %eax,%esi:将 addNoInline 的返回值(存储在 %eax 寄存器中)加载到 %esi 寄存器,作为 printf 的第一个参数。

  • xor %eax,%eax:清零 %eax 寄存器,表示没有浮点数参数。

  • callq 4004a0 printf@plt:调用 printf 函数。

  1. main 函数的退出
4004f3:       31 c0                   xor    %eax,%eax
4004f5: 48 83 c4 08 add $0x8,%rsp
4004f9: c3 retq
  • xor %eax,%eax:清零 %eax 寄存器,表示 main 函数的返回值为 0

  • add $0x8,%rsp:恢复栈指针。

  • retq:返回到调用者。

上述解析总结如下:

  • addInline:编译器将 addInline 内联展开了,因此在 main 函数中直接计算了 10 + 20 的结果,并将结果 30 直接传递给 printf

  • addAlwaysInline:编译器将 addAlwaysInline 内联展开了,因此在 main 函数中直接计算了 10 * 20 的结果,并将结果 200 直接传递给 printf

  • addNoInline:编译器没有将 addNoInline 内联展开,因此在 main 函数中通过调用

    addNoInline 函数来计算 10 - 20 的结果,然后将结果传递给 printf

通过反汇编代码,我们可以清楚地看到不同内联策略对函数调用的影响。

总结

使用 inlinealways_inline 和 noinline 关键字可以帮助程序员更精确地控制函数内联行为,从而影响程序的性能和可维护性。虽然 inline 是 C 标准的一部分,但always_inline 和 noinline 则是编译器提供的扩展功能,使用时应确保目标编译器支持这些特性。合理利用这些工具可以优化关键路径上的代码执行效率,但也需要注意过度使用内联可能导致代码膨胀的问题。在实际开发中,应该根据具体需求和测试结果来决定是否使用以及如何使用这些内联选项。


Linux二进制 Linux编程、内核模块、网络原创文章分享,欢迎关注"Linux二进制"微信公众号
评论
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 26浏览
  • 车身域是指负责管理和控制汽车车身相关功能的一个功能域,在汽车域控系统中起着至关重要的作用。它涵盖了车门、车窗、车灯、雨刮器等各种与车身相关的功能模块。与汽车电子电气架构升级相一致,车身域发展亦可以划分为三个阶段,功能集成愈加丰富:第一阶段为分布式架构:对应BCM车身控制模块,包含灯光、雨刮、门窗等传统车身控制功能。第二阶段为域集中架构:对应BDC/CEM域控制器,在BCM基础上集成网关、PEPS等。第三阶段为SOA理念下的中央集中架构:VIU/ZCU区域控制器,在BDC/CEM基础上集成VCU、
    北汇信息 2025-01-03 16:01 173浏览
  • 【工程师故事】+半年的经历依然忧伤,带着焦虑和绝望  对于一个企业来说,赚钱才是第一位的,对于一个人来说,赚钱也是第一位的。因为企业要活下去,因为个人也要活下去。企业打不了倒闭。个人还是要吃饭的。企业倒闭了,打不了从头再来。个人失业了,面对的不仅是房贷车贷和教育,还有找工作的焦虑。企业说,一个公司倒闭了,说明不了什么,这是正常的一个现象。个人说,一个中年男人失业了,面对的压力太大了,焦虑会摧毁你的一切。企业说,是个公司倒闭了,也不是什么大的问题,只不过是这些公司经营有问题吧。
    curton 2025-01-02 23:08 291浏览
  • 在快速发展的能源领域,发电厂是发电的支柱,效率和安全性至关重要。在这种背景下,国产数字隔离器已成为现代化和优化发电厂运营的重要组成部分。本文探讨了这些设备在提高性能方面的重要性,同时展示了中国在生产可靠且具有成本效益的数字隔离器方面的进步。什么是数字隔离器?数字隔离器充当屏障,在电气上将系统的不同部分隔离开来,同时允许无缝数据传输。在发电厂中,它们保护敏感的控制电路免受高压尖峰的影响,确保准确的信号处理,并在恶劣条件下保持系统完整性。中国国产数字隔离器经历了重大创新,在许多方面达到甚至超过了全球
    克里雅半导体科技 2025-01-03 16:10 121浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 18浏览
  • 物联网(IoT)的快速发展彻底改变了从智能家居到工业自动化等各个行业。由于物联网系统需要高效、可靠且紧凑的组件来处理众多传感器、执行器和通信设备,国产固态继电器(SSR)已成为满足中国这些需求的关键解决方案。本文探讨了国产SSR如何满足物联网应用的需求,重点介绍了它们的优势、技术能力以及在现实场景中的应用。了解物联网中的固态继电器固态继电器是一种电子开关设备,它使用半导体而不是机械触点来控制负载。与传统的机械继电器不同,固态继电器具有以下优势:快速切换:确保精确快速的响应,这对于实时物联网系统至
    克里雅半导体科技 2025-01-03 16:11 165浏览
  • 光耦合器,也称为光隔离器,是一种利用光在两个隔离电路之间传输电信号的组件。在医疗领域,确保患者安全和设备可靠性至关重要。在众多有助于医疗设备安全性和效率的组件中,光耦合器起着至关重要的作用。这些紧凑型设备经常被忽视,但对于隔离高压和防止敏感医疗设备中的电气危害却是必不可少的。本文深入探讨了光耦合器的功能、其在医疗应用中的重要性以及其实际使用示例。什么是光耦合器?它通常由以下部分组成:LED(发光二极管):将电信号转换为光。光电探测器(例如光电晶体管):检测光并将其转换回电信号。这种布置确保输入和
    腾恩科技-彭工 2025-01-03 16:27 162浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 30浏览
  • 影像质量应用于多个不同领域,无论是在娱乐、医疗或工业应用中,高质量的影像都是决策的关键基础。清晰的影像不仅能提升观看体验,还能保证关键细节的准确传达,例如:在医学影像中,它对诊断结果有着直接的影响!不仅如此,影像质量还影响了:▶ 压缩技术▶ 存储需求▶ 传输效率随着技术进步,影像质量的标准不断提高,对于研究与开发领域,理解并提升影像质量已成为不可忽视的重要课题。在图像处理的过程中,硬件与软件除了各自扮演着不可或缺的基础角色,有效地协作能够确保图像处理过程既高效又具有优异的质量。软硬件各扮演了什么
    百佳泰测试实验室 2025-01-03 10:39 143浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 164浏览
  • Matter加持:新世代串流装置如何改变智能家居体验?随着现在智能家庭快速成长,串流装置(Streaming Device,以下简称Streaming Device)除了提供更卓越的影音体验,越来越多厂商开始推出支持Matter标准的串流产品,使其能作为智能家庭中枢,连结多种智能家电。消费者可以透过Matter的功能执行多样化功能,例如:开关灯、控制窗帘、对讲机开门,以及操作所有支持Matter的智能家电。此外,再搭配语音遥控器与语音助理,打造出一个更加智能、便捷的居家生活。支持Matter协议
    百佳泰测试实验室 2025-01-03 10:29 143浏览
  • 本文继续介绍Linux系统查看硬件配置及常用调试命令,方便开发者快速了解开发板硬件信息及进行相关调试。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。查看系统版本信息查看操作系统版本信息root@ido:/# cat /etc/*releaseDISTRIB_ID=UbuntuDISTRIB_RELEASE=20.04DISTRIB_CODENAME=focalDIS
    Industio_触觉智能 2025-01-03 11:37 138浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 34浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 28浏览
  • 在测试XTS时会遇到修改产品属性、SElinux权限、等一些内容,修改源码再编译很费时。今天为大家介绍一个便捷的方法,让OpenHarmony通过挂载镜像来修改镜像内容!触觉智能Purple Pi OH鸿蒙开发板演示。搭载了瑞芯微RK3566四核处理器,树莓派卡片电脑设计,支持开源鸿蒙OpenHarmony3.2-5.0系统,适合鸿蒙开发入门学习。挂载镜像首先,将要修改内容的镜像传入虚拟机当中,并创建一个要挂载镜像的文件夹,如下图:之后通过挂载命令将system.img镜像挂载到sys
    Industio_触觉智能 2025-01-03 11:39 113浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦