完全剖析 - Linux虚拟内存空间管理

嵌入式客栈 2021-07-22 17:44

在 《漫画解说内存映射》一文中介绍过 虚拟内存物理内存 映射的原理与过程,虚拟内存与物理内存进行映射的过程被称为 内存映射。内存映射是硬件(内存管理单元)级别的功能,必须按照硬件的规范设置好内存映射的关系,进程才能正常运行。

但内存映射并不能区分内存的用途,比如我们想知道虚拟内存区间 0 ~ 2MB 是用作存储数据还是存储指令,这就很难从内存映射中获取到相关信息。所以,Linux 根据功能上的差异,来对虚拟内存空间进行管理。

今天,我们来介绍一下 Linux 对虚拟内存空间管理的细节。

之前我们说过,在 32 位的操作系统中,每个进程都拥有 4GB 的虚拟内存空间。Linux 根据功能上的差异,把整个虚拟内存空间划分为多个不同区间,称为

我们先来看看 Linux 进程虚拟内存空间的布局图,如图 1 所示:

上图展示了 Linux 进程的虚拟内存空间布局情况,我们只关注 用户空间 的布局。

从上图可以看出,进程的用户空间大小为 3GB。Linux 按照功能上的差异,把一个进程的用户空间划分为多个段,下面介绍一下各个段的作用:

  • 代码段:用于存放程序中可执行代码的段。

  • 数据段:用于存放已经初始化的全局变量或静态变量的段。如在 C 语言中,使用语句 int global = 10; 定义的全局变量。

  • 未初始化数据段:用于存放未初始化的全局变量或静态变量的段。如在 C 语言中,使用语句 int global; 定义的全局变量。

  • :用于存放使用 malloc 函数申请的内存。

  • mmap区:用于存放使用 mmap 函数映射的内存区。

  • :用于存放函数局部变量和函数参数。

虚拟内存区

从上面的介绍可知,Linux 按照功能上的差异,把虚拟内存空间划分为多个 。那么在内核中,是通过什么结构来管理这些段的呢?

答案就是:vm_area_struct

内核通过 vm_area_struct 结构(虚拟内存区)来管理各个 ,其定义如下:

 1struct vm_area_struct {
2    struct mm_struct *vm_mm; /* The address space we belong to. */
3    unsigned long vm_start;  /* Our start address within vm_mm. */
4    unsigned long vm_end;    /* The first byte after our end address within vm_mm. */
5
6    /* linked list of VM areas per task, sorted by address */
7    struct vm_area_struct *vm_next;
8
9    pgprot_t vm_page_prot;   /* Access permissions of this VMA. */
10    unsigned long vm_flags;  /* Flags, see mm.h. */
11    struct rb_node vm_rb;
12    ...
13    /* Function pointers to deal with this struct. */
14    const struct vm_operations_struct *vm_ops;
15    ...
16};


下面介绍一下各个字段的作用:

  • vm_mm:指向进程的内存管理对象,每个进程都有一个类型为 mm_struct 的内存管理对象,用于管理进程的虚拟内存空间和内存映射等。

  • vm_start:虚拟内存区的起始虚拟内存地址。

  • vm_end:虚拟内存区的结束虚拟内存地址。

  • vm_next:Linux 会通过链表把进程的所有虚拟内存区连接起来,这个字段用于指向下一个虚拟内存区。

  • vm_page_prot:主要用于保存当前虚拟内存区所映射的物理内存页的读写权限。

  • vm_flags:标识当前虚拟内存区的功能特性。

  • vm_rb:某些场景中需要通过虚拟内存地址查找对应的虚拟内存区,为了加速查找过程,内核以虚拟内存地址作为key,把进程所有的虚拟内存区保存到一棵红黑树中,而这个字段就是红黑树的节点结构。

  • vm_ops:每个虚拟内存区都可以自定义一套操作接口,通过操作接口,能够让虚拟内存区实现一些特定的功能,比如:把虚拟内存区映射到文件。而 vm_ops 字段就是虚拟内存区的操作接口集,一般在创建虚拟内存区时指定。

我们通过图 2 来展示内核是怎么通过 vm_area_struct 结构来管理进程中的所有

从上图可以看出,内核通过一个链表和一棵红黑树来管理进程中所有的 mm_struct 结构的 mmap 字段就是链表的头节点,而 mm_rb 字段就是红黑树的根节点。

加载程序镜像

前面我们介绍了 Linux  会把虚拟内存地址划分为多个 ,并且使用 vm_area_struct 结构来管理这些段。那么,这些虚拟内存区是怎么建立起来的呢?

在介绍进程虚拟内存区建立的过程前,我们先来简单介绍一下 ELF文件格式

1. ELF文件

ELF 全称 Executable and Linkable Format,即可执行可链接文件格式。在 Linux 系统中,就是使用这种文件格式来存储一个可执行的应用程序。让我们来看一下 ELF 文件格式由哪些结构组成:

一般一个 ELF 文件由以下三部分组成:

  • ELF 头(ELF header):描述应用程序的类型、CPU架构、入口地址、程序头表偏移和节头表偏移等等;

  • 程序头表(Program header table):列举了所有有效的段(segments)和他们的属性,程序头表需要加载器将文件中的段加载到虚拟内存段中;

  • 节头表(Section header table):包含对节(sections)的描述。

ELF 文件的结构大概如图3所示:

当内核加载一个应用程序时,就是通过读取 ELF 文件的信息,然后把文件中所有的段加载到虚拟内存的段中。ELF 文件通过 程序头表 来描述应用程序中所有的段,表中的每一个项都描述一个段的信息。我们先来看看 程序头表 项的结构定义:

 1typedef struct elf64_phdr {
2   Elf64_Word p_type;     // 段的类型
3   Elf64_Word p_flags;    // 可读写标志
4   Elf64_Off p_offset;    // 段在ELF文件中的偏移量
5   Elf64_Addr p_vaddr;    // 段的虚拟内存地址
6   Elf64_Addr p_paddr;    // 段的物理内存地址
7   Elf64_Xword p_filesz;  // 段占用文件的大小
8   Elf64_Xword p_memsz;   // 段占用内存的大小
9   Elf64_Xword p_align;   // 内存对齐
10} Elf64_Phdr;

所以,程序加载器可以通过 ELF 头中获取到程序头表的偏移量,然后通过程序头表的偏移量读取到程序头表的数据,再通过程序头表来获取到所有段的信息。

我们可以通过 readelf -S file 命令来查看 ELF 文件的段(节)信息,如下图所示:

上面列出了 代码段数据段未初始化数据段注释段 的信息。

2. 加载过程

要加载一个程序,需要调用 execve 系统调用来完成。我们来看看 execve 系统调用的调用栈:

1sys_execve
2└→ do_execve
3  └→ do_execveat_common
4     └→ __do_execve_file
5        └→ exec_binprm
6           └→ search_binary_handler
7              └→ load_elf_binary

从上面的调用者可以看出,execve 系统调用最终会调用 load_elf_binary 函数来加载程序的 ELF 文件。

由于 load_elf_binary 函数的实现比较复杂,所以我们分段来解说:

(1)读取并检查ELF头

 1static int load_elf_binary(struct linux_binprm *bprm, struct pt_regs *regs)
2
{
3   ...
4   struct {
5       struct elfhdr elf_ex;
6       struct elfhdr interp_elf_ex;
7   } *loc;
8
9   loc = kmalloc(sizeof(*loc), GFP_KERNEL);
10   if (!loc) {
11       retval = -ENOMEM;
12       goto out_ret;
13   }
14
15   // 1. 获取ELF头
16   loc->elf_ex = *((struct elfhdr *)bprm->buf);
17
18   retval = -ENOEXEC;
19   // 2. 检查ELF签名是否正确
20   if (memcmp(loc->elf_ex.e_ident, ELFMAG, SELFMAG) != 0)
21       goto out;
22
23   // 3. 是否是可执行文件或者动态库
24   if (loc->elf_ex.e_type != ET_EXEC && loc->elf_ex.e_type != ET_DYN)
25       goto out;
26
27   // 4. 检查系统架构是否正确
28   if (!elf_check_arch(&loc->elf_ex))
29       goto out;
30   ...

上面这段代码主要是读取应用程序的 ELF 头,然后检查 ELF 头信息是否合法。

(2)读取程序头表

 1   size = loc->elf_ex.e_phnum * sizeof(struct elf_phdr); // 程序头表的大小
2   retval = -ENOMEM;
3
4   elf_phdata = kmalloc(size, GFP_KERNEL); // 申请一块内存来保存程序头表
5   if (!elf_phdata)
6       goto out;
7
8// 从ELF文件中读取程序头表的数据, 并且保存到 elf_phdata 变量中
9   retval = kernel_read(bprm->file, loc->elf_ex.e_phoff, (char *)elf_phdata, size);
10   if (retval != size) {
11       if (retval >= 0)
12           retval = -EIO;
13       goto out_free_ph;
14  }
15  ...

上面的代码主要完成以下几个工作:

  • 从 ELF 头的信息中获取到程序头表的大小。

  • 调用 kmalloc 函数申请一块内存来保存程序头表。

  • 调用 kernel_read 函数从 ELF 文件中读取程序头表的数据,保存到 elf_phdata 变量中,程序头表的偏移量可以通过 ELF 头的 e_phoff 字段获取。

(3)加载段到虚拟内存

 1   // 遍历程序头表所有的段
2   for (i = 0, elf_ppnt = elf_phdata; i < loc->elf_ex.e_phnum; i++, elf_ppnt++) {
3       int elf_prot = 0, elf_flags;
4       unsigned long k, vaddr;
5
6       if (elf_ppnt->p_type != PT_LOAD)  // 判断段是否需要加载
7           continue;
8      ...
9       // 段的可读写权限
10       if (elf_ppnt->p_flags & PF_R)
11           elf_prot |= PROT_READ;
12       if (elf_ppnt->p_flags & PF_W)
13           elf_prot |= PROT_WRITE;
14       if (elf_ppnt->p_flags & PF_X)
15           elf_prot |= PROT_EXEC;
16
17       elf_flags = MAP_PRIVATE | MAP_DENYWRITE | MAP_EXECUTABLE;
18
19       vaddr = elf_ppnt->p_vaddr;  // 获取段的虚拟内存地址
20      ...
21       // 把段加载到虚拟内存
22       error = elf_map(bprm->file, load_bias + vaddr, elf_ppnt, elf_prot, elf_flags, 0);
23      ...
24  }

上面这段代码主要完成的工作是:

  • 遍历程序头表所有的段。

  • 判断段是否需要加载。

  • 获取段的可读写权限和段的虚拟内存地址。

  • 调用 elf_map 函数把段加载到虚拟内存。

所以,把段加载到虚拟内存主要通过 elf_map 函数完成。我们来看看 elf_map 函数的调用栈:

1elf_map
2└→ do_mmap
3   └→ do_mmap_pgoff
4      └→ mmap_region

从上面的调用者可以看出,elf_map 函数最终会调用 mmap_region 来完成加载段到虚拟内存。我们分析一下 mmap_region 函数的实现:

 1unsigned long
2mmap_region(struct file *file, unsigned long addr, unsigned long len,
3           unsigned long flags, unsigned int vm_flags, unsigned long pgoff)

4
{
5   struct mm_struct *mm = current->mm;
6   struct vm_area_struct *vma, *prev;
7  ...
8   // 申请一个 vm_area_struct 结构
9   vma = kmem_cache_zalloc(vm_area_cachep, GFP_KERNEL);
10   if (!vma) {
11       error = -ENOMEM;
12       goto unacct_error;
13  }
14
15   // 设置 vm_area_struct 结构各个字段的值
16   vma->vm_mm = mm;
17   vma->vm_start = addr;        // 段的开始虚拟内存地址
18   vma->vm_end = addr + len;    // 段的结束虚拟内存地址
19   vma->vm_flags = vm_flags;    // 段的功能特性
20   vma->vm_page_prot = vm_get_page_prot(vm_flags);
21   vma->vm_pgoff = pgoff;
22
23  ...
24   // 把 vm_area_struct 结构连接到虚拟内存区链表和红黑树中
25   vma_link(mm, vma, prev, rb_link, rb_parent);
26  ...
27
28   return addr;
29}

上面代码对 mmap_region 函数进行了精简,精简后的工作主要有:

  • 调用 kmem_cache_zalloc 函数申请一个 vm_area_struct(虚拟内存区)结构。

  • 设置 vm_area_struct 结构各个字段的值。

  • 调用 vma_link 函数把 vm_area_struct 结构连接到虚拟内存区链表和红黑树中。

通过上面的过程,内核就把应用程序的所有段加载到虚拟内存中。

总结

本文主要介绍了 Linux 内核是怎么加载应用程序,并且在虚拟内存中建立各个段的布局。本文主要关注的是虚拟内存布局的建立过程,但加载应用程序的很多细节都忽略了(如怎么设置进程入口),有兴趣可以自行查阅相关的资料和书籍。



嵌入式客栈 欢迎关注嵌入式客栈,主要分享嵌入式Linux系统构建、嵌入式linux驱动开发、单片机技术、FPGA开发、信号处理、工业通讯等技术主题。欢迎关注,一起交流,一起进步!
评论
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 90浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 108浏览
  • HDMI 2.2 规格将至,开启视听新境界2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新HDMI规范为规模庞大的 HDMI 生态系统带来更多选择,为创建、分发和体验理想的终端用户效果提供更先进的解决方案。新技术为电视、电影和游戏工作室等内容制作商在当前和未来提供更高质量的选择,同时实现多种分发平台。96Gbps的更高带宽和新一代 HDMI 固定比率速率传输(Fixed Rate Link)技术为各种设备应用提供更优质的音频和视频。终端用户显示器能以最
    百佳泰测试实验室 2025-01-09 17:33 80浏览
  • 在当前人工智能(AI)与物联网(IoT)的快速发展趋势下,各行各业的数字转型与自动化进程正以惊人的速度持续进行。如今企业在设计与营运技术系统时所面临的挑战不仅是技术本身,更包含硬件设施、第三方软件及配件等复杂的外部因素。然而这些系统往往讲究更精密的设计与高稳定性,哪怕是任何一个小小的问题,都可能对整体业务运作造成严重影响。 POS应用环境与客户需求以本次分享的客户个案为例,该客户是一家全球领先的信息技术服务与数字解决方案提供商,遭遇到一个由他们所开发的POS机(Point of Sal
    百佳泰测试实验室 2025-01-09 17:35 71浏览
  • 职场是人生的重要战场,既是谋生之地,也是实现个人价值的平台。然而,有些思维方式却会悄无声息地拖住你的后腿,让你原地踏步甚至退步。今天,我们就来聊聊职场中最忌讳的五种思维方式,看看自己有没有中招。1. 固步自封的思维在职场中,最可怕的事情莫过于自满于现状,拒绝学习和改变。世界在不断变化,行业的趋势、技术的革新都在要求我们与时俱进。如果你总觉得自己的方法最优,或者害怕尝试新事物,那就很容易被淘汰。与其等待机会找上门,不如主动出击,保持学习和探索的心态。加入优思学院,可以帮助你快速提升自己,与行业前沿
    优思学院 2025-01-09 15:48 60浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 93浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 67浏览
  • 1月7日-10日,2025年国际消费电子产品展览会(CES 2025)盛大举行,广和通发布Fibocom AI Stack,赋智千行百业端侧应用。Fibocom AI Stack提供集高性能模组、AI工具链、高性能推理引擎、海量模型、支持与服务一体化的端侧AI解决方案,帮助智能设备快速实现AI能力商用。为适应不同端侧场景的应用,AI Stack具备海量端侧AI模型及行业端侧模型,基于不同等级算力的芯片平台或模组,Fibocom AI Stack可将TensorFlow、PyTorch、ONNX、
    物吾悟小通 2025-01-08 18:17 63浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 77浏览
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 67浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2025-01-09 09:58 49浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 111浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 86浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦