gcc__attribute__((always_inline))与__attribute__((noinline))解析

原创 Linux二进制 2024-11-07 08:21

引言

在 C 语言中,inline 关键字是一种编译器提示,用于建议编译器将函数调用替换为函数体本身。这种优化技术可以减少函数调用的开销,特别是对于那些频繁调用但实现简单的函数来说更为有效。除了标准的 inline 关键字外,一些编译器还提供了额外的控制机制,如always_inline 和 noinline,以提供更精细的控制。

我们接下来主要讲一下跟内联函数相关的两个属性:always_inline 和 noinline 。这两个属性的用途是告诉编译器:编译时,对我们指定的函数内联展开或不展开。

内联关键字概述

1. inline

定义:当一个函数声明或定义前加上 inline 关键字时,它指示编译器尝试将该函数的调用展开而不是进行常规的函数调用。这可以减少程序运行时的性能损失。

标准:C99 及以后的标准。

用途:建议编译器将函数内联化。

使用场景:适用于短小且经常被调用的函数。

语法:

inline int func(int x, int y) {
return x + y;
}

2. always_inline

定义:这是一个非标准的扩展,通常由特定的编译器(如 GCC)支持。它强制编译器将指定的函数内联,即使这样做可能会导致代码膨胀。

标准:编译器特定扩展(GCC 等)。用途:强制编译器将函数内联化,即使会导致代码膨胀。

使用场景:当开发者确定某个函数必须被内联以达到最佳性能时使用。

语法(GCC):

inline __attribute__((always_inline)) int func(int x, int y) {
return x * y;
}

3. noinline

定义:同样是一个编译器特定的扩展,它告诉编译器不要将标记的函数内联,即使它们被声明为inline。

标准:编译器特定扩展(GCC等)。用途:禁止编译器将函数内联化,即使函数被声明为 inline 。

使用场景:当需要确保某些函数不会被内联,例如为了调试目的或者避免代码体积过大时。

语法(GCC):

__attribute__((noinline)) int func(int x, int y) {
return x - y;
}
 

拓展:关键字归属说明

  • inline:这是 C 语言标准的一部分,从 C99 开始引入。inline 关键字用于建议编译器将函数调用内联化,以减少函数调用的开销。

  • always_inline 和 noinline:这两个关键字是编译器特定的扩展,主要由 GCCGNU Compiler Collection)和其他一些编译器支持。它们提供了更细粒度的控制,超越了标准 C 语言的 inline 关键字。

内联函数使用 inline 关键字声明即可,有时还会结合 static 和 extern 修饰符一起使用。使用 inline 声明一个内联函数,类似于使用 register 关键字声明一个变量。这两种关键字都是向编译器提出建议,而不是强制命令。使用 register 修饰变量时,编译器被建议将该变量存储在寄存器中,以提高程序的运行效率。然而,编译器是否会遵循这一建议,取决于寄存器资源的可用性和变量的使用频率。

 

思考:内联函数为什么常使用 static 修饰?

 

在 Linux 内核中,大量的内联函数定义在头文件中,并且常常使用 static 修饰。关于这一点,网上有很多讨论,但核心原因可以从 C 语言和 C++ 的角度来理解。Linux 内核作者 Linus Torvalds 也对此有过解释:

 

static inline” 意味着“如果我们需要这个函数,但不内联它,那么就在这个编译单元中生成一个静态版本。”而 “extern inline” 则意味着“我实际上有一个外部定义的函数,但如果需要内联它,这里提供了一个内联版本。”

 

我的理解如下

  1. 为什么内联函数要定义在头文件中?内联函数通常定义在头文件中,因为它们可以像宏一样使用。任何需要使用这些内联函数的源文件,只需包含相应的头文件,即可直接使用这些函数,而不需要重复定义。这样可以简化代码管理和维护。

  2. 为什么内联函数要用 static 修饰?尽管我们使用 inline 关键字定义了内联函数,但编译器并不一定会将其内联展开。如果多个源文件都包含了同一个内联函数的定义,编译时可能会出现重定义错误。通过使用 static 修饰,可以将函数的作用域限制在各自的编译单元内,从而避免重定义错误。

同样,当一个函数使用 inline 关键字修饰时,编译器在编译时并不一定会将其内联展开。编译器会根据多种因素来决定是否内联展开,这些因素包括函数体的大小、函数体内是否存在循环结构、是否有指针操作、是否有递归调用以及函数的调用频率等。GCC 编译器通常不会在默认情况下对内联函数进行展开,默认的 GCC 编译的优化选项是 -O0 的,这样是不会内联的,有些版本甚至无法编译通过,只有当编译优化级别设置为 -O2 或更高时,编译器才会考虑是否进行内联展开。

当我们使用 noinline 和 always_inline 属性对一个内联函数进行声明后,编译器的行为就变得确定了。使用 noinline 声明,明确告知编译器不要内联展开该函数;而使用 always_inline 属性声明,则明确告知编译器必须内联展开该函数。

通过这种方式,开发者可以更精细地控制函数的内联行为,从而优化程序的性能。

 

拓展:inline、always_inline、noinline的区别

  • inline:仅仅是建议编译器内联,但不一定内联。

  • always_inline :强制内联。

  • noinline:强制不内联。

代码演示

我们可以编写一个 C 语言程序,然后使用反汇编工具(如 objdump)来查看不同内联策略下的汇编代码。这将帮助我们直观地理解 inlinealways_inline 和 noinline 的实际效果。首先,编写一个 C 语言程序,包含三种不同内联策略的函数。

头文件 inline_functions.h :

#ifndef INLINE_FUNCTIONS_H
#define INLINE_FUNCTIONS_H

// 使用inline
inline int addInline(int x, int y) {
return x + y;
}

// 使用always_inline
__attribute__((always_inline)) inline int addAlwaysInline(int x, int y) {
return x * y;
}

// 使用noinline
__attribute__((noinline)) int addNoInline(int x, int y) {
return x - y;
}

#endif // INLINE_FUNCTIONS_H

源文件 inline_test.c

#include 
#include
#include "inline_functions.h"

int main() {
int result;

// 调用addInline
result = addInline(10, 20);
printf("addInline(10, 20) = %d\n", result);

// 调用addAlwaysInline
result = addAlwaysInline(10, 20);
printf("addAlwaysInline(10, 20) = %d\n", result);

// 调用addNoInline
result = addNoInline(10, 20);
printf("addNoInline(10, 20) = %d\n", result);

return 0;
}

让我们使用 -O2 优化级别编译程序,以确保编译器能够应用内联优化。

gcc -O2 -g -o inline_test inline_test.c

使用 objdump 工具反汇编生成的目标文件。

objdump -d -S inline_test > inline_test.asm

打开生成的 inline_test.asm 文件,找到 main 函数的反汇编代码,观察不同内联策略的效果。

main 函数的反汇编代码如下:

int main() {
4004b0: 48 83 ec 08 sub $0x8,%rsp
int result;

// 调用addInline
result = addInline(10, 20);
printf("addInline(10, 20) = %d\n", result);
4004b4: be 1e 00 00 00 mov $0x1e,%esi
4004b9: bf 98 06 40 00 mov $0x400698,%edi
4004be: 31 c0 xor %eax,%eax
4004c0: e8 db ff ff ff callq 4004a0

// 调用addAlwaysInline
result = addAlwaysInline(10, 20);
printf("addAlwaysInline(10, 20) = %d\n", result);
4004c5: be c8 00 00 00 mov $0xc8,%esi
4004ca: bf b0 06 40 00 mov $0x4006b0,%edi
4004cf: 31 c0 xor %eax,%eax
4004d1: e8 ca ff ff ff callq 4004a0

// 调用addNoInline
result = addNoInline(10, 20);
4004d6: be 14 00 00 00 mov $0x14,%esi
4004db: bf 0a 00 00 00 mov $0xa,%edi
4004e0: e8 0b 01 00 00 callq 4005f0
printf("addNoInline(10, 20) = %d\n", result);
4004e5: bf ce 06 40 00 mov $0x4006ce,%edi
4004ea: 89 c6 mov %eax,%esi
4004ec: 31 c0 xor %eax,%eax
4004ee: e8 ad ff ff ff callq 4004a0

return 0;
}
4004f3: 31 c0 xor %eax,%eax
4004f5: 48 83 c4 08 add $0x8,%rsp
4004f9: c3 retq

汇编代码解析如下:

  1. main 函数的入口
4004b0:       48 83 ec 08             sub    $0x8,%rsp
  • sub $0x8,%rsp:调整栈指针,为局部变量分配空间。
  1. 调用 addInline
4004b4:       be 1e 00 00 00          mov    $0x1e,%esi
4004b9: bf 98 06 40 00 mov $0x400698,%edi
4004be: 31 c0 xor %eax,%eax
4004c0: e8 db ff ff ff callq 4004a0
  • mov $0x1e,%esi:将 30(即 10 + 20 的结果)加载到 %esi 寄存器,作为 printf 的第一个参数。

  • mov $0x400698,%edi:将格式字符串的地址 0x400698 加载到 %edi 寄存器,作为 printf 的第二个参数。

  • xor %eax,%eax:清零 %eax 寄存器,表示没有浮点数参数。

  • callq 4004a0 printf@plt:调用 printf 函数。

  1. 调用 addAlwaysInline
4004c5:       be c8 00 00 00          mov    $0xc8,%esi
4004ca: bf b0 06 40 00 mov $0x4006b0,%edi
4004cf: 31 c0 xor %eax,%eax
4004d1: e8 ca ff ff ff callq 4004a0
  • mov $0xc8,%esi:将 200(即 10 * 20 的结果)加载到 %esi 寄存器,作为 printf 的第一个参数。

  • mov $0x4006b0,%edi:将格式字符串的地址 0x4006b0 加载到 %edi 寄存器,作为 printf 的第二个参数。

  • xor %eax,%eax:清零 %eax 寄存器,表示没有浮点数参数。

  • callq 4004a0 printf@plt:调用 printf 函数。

  1. 调用 addNoInline
4004d6:       be 14 00 00 00          mov    $0x14,%esi
4004db: bf 0a 00 00 00 mov $0xa,%edi
4004e0: e8 0b 01 00 00 callq 4005f0
  • mov $0x14,%esi:将 10 加载到 %esi 寄存器,作为 addNoInline 的第一个参数。

  • mov $0xa,%edi:将 20 加载到 %edi 寄存器,作为 addNoInline 的第二个参数。

  • callq 4005f0 :调用 addNoInline 函数。

4004e5:       bf ce 06 40 00          mov    $0x4006ce,%edi
4004ea: 89 c6 mov %eax,%esi
4004ec: 31 c0 xor %eax,%eax
4004ee: e8 ad ff ff ff callq 4004a0
  • mov $0x4006ce,%edi:将格式字符串的地址 0x4006ce 加载到 %edi 寄存器,作为 printf 的第二个参数。

  • mov %eax,%esi:将 addNoInline 的返回值(存储在 %eax 寄存器中)加载到 %esi 寄存器,作为 printf 的第一个参数。

  • xor %eax,%eax:清零 %eax 寄存器,表示没有浮点数参数。

  • callq 4004a0 printf@plt:调用 printf 函数。

  1. main 函数的退出
4004f3:       31 c0                   xor    %eax,%eax
4004f5: 48 83 c4 08 add $0x8,%rsp
4004f9: c3 retq
  • xor %eax,%eax:清零 %eax 寄存器,表示 main 函数的返回值为 0

  • add $0x8,%rsp:恢复栈指针。

  • retq:返回到调用者。

上述解析总结如下:

  • addInline:编译器将 addInline 内联展开了,因此在 main 函数中直接计算了 10 + 20 的结果,并将结果 30 直接传递给 printf

  • addAlwaysInline:编译器将 addAlwaysInline 内联展开了,因此在 main 函数中直接计算了 10 * 20 的结果,并将结果 200 直接传递给 printf

  • addNoInline:编译器没有将 addNoInline 内联展开,因此在 main 函数中通过调用

    addNoInline 函数来计算 10 - 20 的结果,然后将结果传递给 printf

通过反汇编代码,我们可以清楚地看到不同内联策略对函数调用的影响。

总结

使用 inlinealways_inline 和 noinline 关键字可以帮助程序员更精确地控制函数内联行为,从而影响程序的性能和可维护性。虽然 inline 是 C 标准的一部分,但always_inline 和 noinline 则是编译器提供的扩展功能,使用时应确保目标编译器支持这些特性。合理利用这些工具可以优化关键路径上的代码执行效率,但也需要注意过度使用内联可能导致代码膨胀的问题。在实际开发中,应该根据具体需求和测试结果来决定是否使用以及如何使用这些内联选项。


Linux二进制 Linux编程、内核模块、网络原创文章分享,欢迎关注"Linux二进制"微信公众号
评论
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 66浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 51浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 86浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 106浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 65浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 98浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 70浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 105浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 37浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 41浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 83浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦