Linux系统编程-通用文件模型

嵌入式ARM 2020-07-18 00:00

写作目的:

  • 学习 Linux 文件模型相关的知识。

正文目录:

1. Linux 的两大抽象

2. 文件类型

3. 文件描述符

4. 通用文件模型:简介
    4.1 演示 demo
    4.2 相关要点: 与 VFS 的关系

5. 通用文件模型:文件描述符和打开文件的关系
    5.1 相关的内核数据结构
    5.2 列举几种打开文件的情景

1. Linux 的两大抽象

  • 文件是 Linux 系统中最基础最重要的抽象。Linux 遵循一切皆文件的理念。很多交互操作是通过读写文件来完成,即使所涉及的对象看起来并非普通文件。

  • 另外一大抽象是进程。如果说文件是 Linux 系统最重要的抽象概念,进程则仅次于文件。

  • 进程相关的实现复杂且多变,而文件 IO 的实现则相对稳定很多,且更贴近我们的日常操作,所以 以文件作为学习 Linux 内核的切入点是个更好的选择

2. 文件类型

Linux 系统的大多数文件是普通文件或目录,但是也有另外一些文件类型,具体包括如下几种:

  • 普通文件 ( regular file )。

    • 最常用的文件类型,包含了某种形式的数据。至于这种数据是文本还是二进制数据,对于 Linux 内核而言并无区别。

    • 文件中包含的字节可以是任意值,可以以任意方式进行组织。在系统层,除了字节流,Linux 对文件结构没有特定要求

    • 对普通文件内容的解释由处理该文件的应用程序进行。

    • 文件虽然是通过文件名访问,但文件本身其实并没有直接和文件名关联。相反地,与文件关联的是索引节点 (inode,是index node 缩写)。针对驻留于文件系统上的每个文件,文件系统都会为其分配一个 inode。inode 中会保存和文件相关的元数据,如文件修改时间戳、所有者、类型、长度以及文件数据的位置,但不含文件名,文件名由目录文件负责。

    • inode 由 inode number 来标识,可以通过 “ls –li” 查看文件的 inode number。

      # ls -li minicom.log
      12582945 -rw-r--r-- 1 root root 665 Jul 10 18:47 minicom.log
  • 目录文件 ( directory file )。

    • 目录也是一种文件类型,这种文件包含了其他文件的文件名以及 inode number。文件通常是通过文件名从用户空间打开,目录用于提供访问文件时需要的名称。

    • 文件名和 inode 之间的配对称为链接 (link)。映射在物理磁盘上的形式,如简单的表或散列,是通过特定文件系统的内核代码来实现和管理的。

    • 如果用户空间的应用请求打开指定文件,内核会打开包含该文件名的目录,然后根据文件名获取 inode number。通过 inode number 可以找到 inode。inode 包含和文件关联的元数据,其中包括文件数据在磁盘上的存储位置。

  • 硬链接 ( hard link )。

    • 不同的文件名可以链接到到同一个 inode。当不同名称的多个链接映射到同一个索引节点时,我们称该链接为硬链接。

    • 硬链接通常要求链接和文件位于同一文件系统中。

    • 在底层文件系统支持的前提下,也只有超级用户才能创建指向目录的硬链接。

  • 符号链接 ( symbolic link )。

    • 符号链接是对一个文件的间接指针,它与硬链接有所不同,硬链接直接指向文件的 inode。引入符号链接的原因是为了避开硬链接的一些限制

    • 硬链接不能跨越多个文件系统,因为 inode number在自己的文件系统之外没有任何意义。为了跨越文件系统建立链接,Linux 系统实现了符号链接。

  • 特殊文件 (special file)。

    • 特殊文件是使得某些抽象可以适用于文件系统,贯彻一切皆文件的理念。

    • Linux 只支持四种特殊文件:块设备文件、字符设备文件、命名管道 以及 UNIX域套接字

    • 块特殊文件 ( block device file )。提供对设备(如磁盘)带缓冲的访问,每次访问以固定长度为单位进行。

    • 字符特殊文件 ( character device file )。这种类型的文件提供对设备不带缓冲的访问,每次访问长度可变。系统中的所有设备要么是字符特殊文件,要么是块特殊文件。

    • 命名管道 ( named pipes ),通常称为 FIFO,是以文件描述符作为通信信道的 IPC 机制,它可以通过特殊文件来访问。

    • 套接字 ( socket ) 是最后一种特殊文件。socket 是进程间通信的高级形式,支持不同进程间的通信,这两个进程可以在同一台机器,也可以在不同机器。socket 是网络和互联网编程的基础。

在 Linux,可以用 ls/stat 命令 和 stat() 系统调用确定文件类型。

$ ls -li 
12587634 drwxr-xr-x 26 root root      4096 Mar 16 07:49 1.opensource
27396428 lrwxrwxrwx  1 root root        12 Nov 17  2017 Link to ssd_dvd -> /mnt/ssd_dvd
12582945 -rw-r--r--  1 root root       665 Jul 10 18:47 minicom.log

$ stat minicom.log 
  File: 'minicom.log'
  Size: 665        Blocks: 8          IO Block: 4096   regular file
Device: 822h/2082d Inode: 12582945    Links: 1
Access: (0644/-rw-r--r--)  Uid: (    0/    root)   Gid: (    0/    root)
Access: 2020-01-09 09:44:07.101177618 +0800
Modify: 2020-07-10 18:47:20.073532673 +0800
Change: 2020-07-10 18:47:20.073532673 +0800

3. 文件描述符

在 Linux 中,文件必须先打开才能访问。对于内核而言,所有打开的文件都通过文件描述符 ( file descriptor,简称fd ) 引用。文件描述符是一个非负整数。当打开一个现有文件或创建一个新文件时,内核向进程返回一个文件描述符。当读、写一个文件时,使用 open() 或 creat() 返回的文件描述符标识该文件,将其作为参数传送给 read() 或 write()。

  • Linux 系统编程的大部分工作都会涉及打开、操纵、关闭以及其他文件描述符操作;

  • Linux 系统的 Shell 把文件描述符 0 与进程的标准输入 stdin 关联,文件描述符 1 与标准输出 stdout 关联,文件描述符 2 与标准错误 stderr 关联。这是各种 Shell 以及很多应用程序使用的惯例,与 Linux 内核无关。如果不遵循这种惯例,很多 Linux 系统应用程序就不能正常工作;

  • 用户可以重定向文件描述符,甚至可以通过管道把一个程序的输出作为另一个程序的输入。Shell 就是通过这种方式实现重定向和管道的。

  • 在 POSIX 标准中,幻数 0、1、2 虽然已被标准化,但应当把它们替换成符号常量 STDIN_FILENO、STDOUT_FILENO 和 STDERR_FILENO 以提高可读性;

  • 文件描述符的范围是 0 ~ OPEN_MAX-1;

  • 文件描述符并非局限于访问普通文件。实际上,文件描述符也可以访问设备文件、管道、FIFO、Socket等。遵循一切皆文件的理念,几乎任何能够读写的东西都可以通过文件描述符来访问。

4. 通用文件模型:简介

Linux 通用文件模型最为显著的特性之一就是 I/O 通用性。也就是说,同一套系统调用 open()、read()、write()、close() 等所执行的 I/O 操作,可施之于所有文件类型,包括设备文件在内。应用程序发起的I/O请求,内核会将其转化为相应的文件系统操作,或者设备驱动程序操作,以此来执行针对目标文件或设备的I/O操作。因此,采用这些系统调用的程序能够处理任何类型的文件。

演示 demo (copy.c):

int main(int argc, char *argv[])
{
    int inputFd, outputFd, openFlags;
    mode_t filePerms;
    ssize_t numRead;
    char buf[BUF_SIZE];

    if (argc != 3 || strcmp(argv[1], "--help") == 0)
        usageErr("%s old-file new-file\n", argv[0]);

    /* Open input and output files */

    inputFd = open(argv[1], O_RDONLY);
    if (inputFd == -1)
        errExit("opening file %s", argv[1]);

    openFlags = O_CREAT | O_WRONLY | O_TRUNC;
    filePerms = S_IRUSR | S_IWUSR | S_IRGRP | S_IWGRP |
                S_IROTH | S_IWOTH;      /* rw-rw-rw- */
    outputFd = open(argv[2], openFlags, filePerms);
    if (outputFd == -1)
        errExit("opening file %s", argv[2]);

    /* Transfer data until we encounter end of input or an error */

    while ((numRead = read(inputFd, buf, BUF_SIZE)) > 0)
        if (write(outputFd, buf, numRead) != numRead)
            fatal("write() returned error or partial write occurred");
    if (numRead == -1)
        errExit("read");

    if (close(inputFd) == -1)
        errExit("close input");
    if (close(outputFd) == -1)
        errExit("close output");

    exit(EXIT_SUCCESS);
}

运行效果:

$ ./copy test test.old
$ ./copy test /dev/tty
$ ./copy /dev/tty abc.txt

相关要点:

  • 要实现通用 I/O,就必须确保每一种文件系统和每一种文件类型(包括设备文件)都实现了相同的 I/O 系统调用集。由于文件系统或设备文件所特有的操作细节在内核中处理,在编程时通常可以忽略设备专有的因素。一旦应用程序需要访问文件系统或设备的专有功能时,可以选择瑞士军刀般的 ioctl() 系统调用,该调用为通用 I/O 模型之外的专有特性提供了访问接口。

  • 提到通用 I/O,就必须提起虚拟文件系统 (VFS)。为支持各种本机文件系统,且在同时允许访问其他操作系统的文件,Linux 内核在用户进程和文件系统实现之间引入了一个抽象层 VFS。虚拟文件系统基于文件通用模型(common file model,简称CFM)实现这种抽象,它是 Linux 上所有文件系统的基础。

  • 一方面,VFS 提供了一种操作文件、目录及其他对象的统一方法。另一方面,它与各种具体的文件系统的实现达成妥协。我们可以认为,是虚拟文件系统 (VFS) 和通用文件模型 (CFM) 的共同作用为 Linux 提供了访问不同文件系统以及不同类型的文件的 统一API (open()、read()、write()、close())。在本文中,我们将重点放在文件上,忽略文件系统相关的东西。

  • 在 VFS 中,并非所有文件系统都支持同样的功能,有些操作对普通文件是不可缺少的,对某些对象则完全没有意义。即并非每一种文件系统都支持 VFS 中的所有抽象

  • Linux VFS 的实现: 参考 ext2 文件系统,提供一种结构模型,该文件系统模型包含了一个强大文件系统所应具备的所有组件。但该模型是虚拟的,它适应于各种真实的文件系统。所有实现都必须提供可以适应 VFS 定义的结构体的 routines,因此可以充当两个视图之间的过渡。

  • 在 VFS 中,每个文件都关联到一个 inode,我们可以 以 inode 和 inode->file_operations 作为学习通用文件模型和虚拟文件系统的切入点

struct inode {
    umode_t   i_mode;
    ...
    const struct file_operations *i_fop;
    ...
}
struct file_operations {
    struct module *owner;
    loff_t (*llseek) (struct file *, loff_tint);
    ssize_t (*read) (struct file *, char __user *, size_tloff_t *);
    ssize_t (*write) (struct file *, const char __user *, size_tloff_t *);
    ...
    long (*unlocked_ioctl) (struct file *, unsigned intunsigned long);
    long (*compat_ioctl) (struct file *, unsigned intunsigned long);
    int (*mmap) (struct file *, struct vm_area_struct *);
    int (*open) (struct inode *, struct file *);
    int (*flush) (struct file *, fl_owner_t id);
...
} __randomize_layout;

5. 通用文件模型:文件描述符和打开文件的关系

5.1 相关的内核数据结构

内核使用 3 种数据结构来表示一个被打开的文件:

  • 进程级的文件描述符表 ( file descriptor table )。

  • 系统级的打开文件表 ( open file table ) 。

  • 文件系统的 i-node 表 ( i-node table )。

1) 进程级的文件描述符表 ( file descriptor table )

每个进程在进程表 (process table) 中都有一个记录项 (process table entry),即 struct task_struct,内核用它来描述一个进程。在 struct task_struct 中包含了一张打开文件描述符表 (open file descriptors table),由 struct files_struct 里的 struct fdtable 来表示 (Linux-4.14):

struct task_struct {
    ...
    /* Filesystem information: */
 struct fs_struct  *fs;

 /* Open file information: */
 struct files_struct  *files;
        -> struct fdtable *fdt;
    ...
}

每个文件描述符包含:

  • 1> 文件描述符标志 ( file descriptor flags,目前只有一个:close_on_exec,暂不关心 );
  • 2> 指向一个打开文件表项 ( open file table entry) 的指针。
struct fdtable {
    ...
 struct file **fd;      /* current fd array */
 unsigned long *close_on_exec;
 ...
};

2) 系统级的打开文件表 ( open file table )

内核为所有打开文件维持一张打开文件表。每个打开文件表项包含:

  • 1> 文件状态标志 ( file status flags,即 open() 的 flags 参数);

  • 2> 当前文件偏移量 ( current file offset );

  • 3> 指向该文件 inode 表项的指针 (在某些 UNIX 系统中是 vnode pointer,在 Linux 中是 inode pointer)。

inode 结构体和 vnode 结构体名称虽然不同,但是 2 者其实是同一个概念,它们都用于描述存储在硬盘中的文件系统的 inode 数据。注意区别内存里的 inode 结构体对象和硬盘中的 inode 数据。

3) 文件系统的 i-node 表 ( i-node table )

每个打开文件都有一个 inode 对象。inode 对象包含了:

  • 文件类型和对此文件进行各种操作函数的指针。

  • 对于大多数文件,inode 对象还包含了指向该文件系统 inode 数据的指针。

struct inode {
    ...
    /* Stat data, not accessed from path walking */
    unsigned long  i_ino;

    ...
    /* former ->i_op->default_file_ops */
    const struct file_operations *i_fop; 
}

这些信息是在打开文件时从硬盘上读入内存的,所以,文件的所有相关信息都是随时可用的。即 inode 对象包含了文件的所有者、文件长度、指向文件实际数据块在磁盘上所在位置的指针等。

上述三张表的完整关系如下:

5.2 列举几种打开文件的情景

1) 两个独立进程各自打开同一个文件

两个独立进程各自打开了同一文件,则有如下关系:

第一个进程在文件描述符 3 上打开该文件,而另一个进程在文件描述符 4 上打开该文件。打开该文件的每个进程都获得各自的一个打开文件表项,但对一个给定的文件只有一个 inode 节点表项。

之所以每个进程都获得自己的打开文件表项,是因为这可以使每个进程都有它自己的对该文件的当前偏移量。

2) dup(1) 复制文件描述符

dup() 用来复制一个现有的文件描述符。

$ man 2 dup
       #include <unistd.h>
       int dup(int oldfd);

dup(1)后的内核数据结构:

dup() 返回的新文件描述符与参数 oldfd 共享同一个打开文件表项。

3) fork 之后父进程和子进程之间对打开文件的共享



假定所用的描述符是在fork之前打开的,如果父进程和子进程写同一描述符指向的文件,但又没有任何形式的同步,如使父进程等待子进程,那么它们的输出就会相互混合。


三、总结

不好意思,这周身体不太舒服,文章拖更了,各位见谅。

鉴于大多数人的注意力无法在一篇文章里上集中太久,更多的内容请大家先自行去阅读吧,不是自己理解到的东西是消化不了的。有机会的话我会把更多的读书心得放在后面的文章。

更多值得学习的知识点

  • stat() 的使用方法;
  • 复制文件描述符的方法 (dup, fcntl) 与使用场景;
  • 目录相关的操作;
  • 高级文件 io 接口;
  • 文件 io 与标准 io 的对比;
  • VFS 的具体实现;
  • ext2 文件系统的实现;
  • ...

四、相关参考

1. 参考书籍

  • 《Linux 程序设计》(BLP)

    • 3 - 文件操作
  • 《Linux 系统编程》(LSP)

    • 1.4.1 - 文件和文件系统
  • 《UNIX 环境高级编程》(APUE)

    • 3.10 - 文件共享
    • 3.12 - dup
    • 4.3 - 文件类型
    • 8.3 - fork 文件共享
  • 《Linux/UNIX 系统编程手册》(TLPI)

    • 2.5 - 文件I/O模型
    • 4 - 文件I/O:通用的I/O模型
    • 5.4 - 文件描述符和打开文件之间的关系
  • 《linux内核设计与实现》(LKD)

    • 13 - 虚拟文件系统
  • 《深入理解LINUX内核》(ULK)

    • 3.2 - 进程描述符
    • 12 - 虚拟文件系统
  • 《深入Linux内核架构》(PLKA)

    • 6.3 - 与文件系统关联
    • 8.2 - 通用文件模型
  • 《UNIX 操作系统设计》

    • 4 - 文件的内部表示



嵌入式ARM 关注这个时代最火的嵌入式ARM,你想知道的都在这里。
评论
  • 车身域是指负责管理和控制汽车车身相关功能的一个功能域,在汽车域控系统中起着至关重要的作用。它涵盖了车门、车窗、车灯、雨刮器等各种与车身相关的功能模块。与汽车电子电气架构升级相一致,车身域发展亦可以划分为三个阶段,功能集成愈加丰富:第一阶段为分布式架构:对应BCM车身控制模块,包含灯光、雨刮、门窗等传统车身控制功能。第二阶段为域集中架构:对应BDC/CEM域控制器,在BCM基础上集成网关、PEPS等。第三阶段为SOA理念下的中央集中架构:VIU/ZCU区域控制器,在BDC/CEM基础上集成VCU、
    北汇信息 2025-01-03 16:01 173浏览
  • 在快速发展的能源领域,发电厂是发电的支柱,效率和安全性至关重要。在这种背景下,国产数字隔离器已成为现代化和优化发电厂运营的重要组成部分。本文探讨了这些设备在提高性能方面的重要性,同时展示了中国在生产可靠且具有成本效益的数字隔离器方面的进步。什么是数字隔离器?数字隔离器充当屏障,在电气上将系统的不同部分隔离开来,同时允许无缝数据传输。在发电厂中,它们保护敏感的控制电路免受高压尖峰的影响,确保准确的信号处理,并在恶劣条件下保持系统完整性。中国国产数字隔离器经历了重大创新,在许多方面达到甚至超过了全球
    克里雅半导体科技 2025-01-03 16:10 117浏览
  • 在测试XTS时会遇到修改产品属性、SElinux权限、等一些内容,修改源码再编译很费时。今天为大家介绍一个便捷的方法,让OpenHarmony通过挂载镜像来修改镜像内容!触觉智能Purple Pi OH鸿蒙开发板演示。搭载了瑞芯微RK3566四核处理器,树莓派卡片电脑设计,支持开源鸿蒙OpenHarmony3.2-5.0系统,适合鸿蒙开发入门学习。挂载镜像首先,将要修改内容的镜像传入虚拟机当中,并创建一个要挂载镜像的文件夹,如下图:之后通过挂载命令将system.img镜像挂载到sys
    Industio_触觉智能 2025-01-03 11:39 113浏览
  • 物联网(IoT)的快速发展彻底改变了从智能家居到工业自动化等各个行业。由于物联网系统需要高效、可靠且紧凑的组件来处理众多传感器、执行器和通信设备,国产固态继电器(SSR)已成为满足中国这些需求的关键解决方案。本文探讨了国产SSR如何满足物联网应用的需求,重点介绍了它们的优势、技术能力以及在现实场景中的应用。了解物联网中的固态继电器固态继电器是一种电子开关设备,它使用半导体而不是机械触点来控制负载。与传统的机械继电器不同,固态继电器具有以下优势:快速切换:确保精确快速的响应,这对于实时物联网系统至
    克里雅半导体科技 2025-01-03 16:11 164浏览
  • Matter加持:新世代串流装置如何改变智能家居体验?随着现在智能家庭快速成长,串流装置(Streaming Device,以下简称Streaming Device)除了提供更卓越的影音体验,越来越多厂商开始推出支持Matter标准的串流产品,使其能作为智能家庭中枢,连结多种智能家电。消费者可以透过Matter的功能执行多样化功能,例如:开关灯、控制窗帘、对讲机开门,以及操作所有支持Matter的智能家电。此外,再搭配语音遥控器与语音助理,打造出一个更加智能、便捷的居家生活。支持Matter协议
    百佳泰测试实验室 2025-01-03 10:29 141浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 159浏览
  • 影像质量应用于多个不同领域,无论是在娱乐、医疗或工业应用中,高质量的影像都是决策的关键基础。清晰的影像不仅能提升观看体验,还能保证关键细节的准确传达,例如:在医学影像中,它对诊断结果有着直接的影响!不仅如此,影像质量还影响了:▶ 压缩技术▶ 存储需求▶ 传输效率随着技术进步,影像质量的标准不断提高,对于研究与开发领域,理解并提升影像质量已成为不可忽视的重要课题。在图像处理的过程中,硬件与软件除了各自扮演着不可或缺的基础角色,有效地协作能够确保图像处理过程既高效又具有优异的质量。软硬件各扮演了什么
    百佳泰测试实验室 2025-01-03 10:39 137浏览
  • 前言近年来,随着汽车工业的快速发展,尤其是新能源汽车与智能汽车领域的崛起,汽车安全标准和认证要求日益严格,应用范围愈加广泛。ISO 26262和ISO 21448作为两个重要的汽车安全标准,它们在“系统安全”中扮演的角色各自不同,但又有一定交集。在智能网联汽车的高级辅助驾驶系统(ADAS)应用中,理解这两个标准的区别及其相互关系,对于保障车辆的安全性至关重要。ISO 26262:汽车功能安全的基石如图2.1所示,ISO 26262对“功能安全”的定义解释为:不存在由于电子/电气系统失效引起的危害
    广电计量 2025-01-02 17:18 218浏览
  • 【工程师故事】+半年的经历依然忧伤,带着焦虑和绝望  对于一个企业来说,赚钱才是第一位的,对于一个人来说,赚钱也是第一位的。因为企业要活下去,因为个人也要活下去。企业打不了倒闭。个人还是要吃饭的。企业倒闭了,打不了从头再来。个人失业了,面对的不仅是房贷车贷和教育,还有找工作的焦虑。企业说,一个公司倒闭了,说明不了什么,这是正常的一个现象。个人说,一个中年男人失业了,面对的压力太大了,焦虑会摧毁你的一切。企业说,是个公司倒闭了,也不是什么大的问题,只不过是这些公司经营有问题吧。
    curton 2025-01-02 23:08 289浏览
  • 本文继续介绍Linux系统查看硬件配置及常用调试命令,方便开发者快速了解开发板硬件信息及进行相关调试。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。查看系统版本信息查看操作系统版本信息root@ido:/# cat /etc/*releaseDISTRIB_ID=UbuntuDISTRIB_RELEASE=20.04DISTRIB_CODENAME=focalDIS
    Industio_触觉智能 2025-01-03 11:37 137浏览
  • 光耦合器,也称为光隔离器,是一种利用光在两个隔离电路之间传输电信号的组件。在医疗领域,确保患者安全和设备可靠性至关重要。在众多有助于医疗设备安全性和效率的组件中,光耦合器起着至关重要的作用。这些紧凑型设备经常被忽视,但对于隔离高压和防止敏感医疗设备中的电气危害却是必不可少的。本文深入探讨了光耦合器的功能、其在医疗应用中的重要性以及其实际使用示例。什么是光耦合器?它通常由以下部分组成:LED(发光二极管):将电信号转换为光。光电探测器(例如光电晶体管):检测光并将其转换回电信号。这种布置确保输入和
    腾恩科技-彭工 2025-01-03 16:27 155浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦