宋宝华:为了不忘却的纪念,评Linux 5.13内核

原创 Linux阅码场 2021-08-30 20:29

Linux 5.14于14小时之前发布了,而我5.13的总结还没有写出,我早觉得有写一点东西的必要了,这虽然于搬砖的码农毫不相干,但在追求进步的工程师那里,却大抵只能如此而已。为了不忘却的纪念,我们列出5.13内核的个激动人心的新特性:

  1. Apple M1的初始

  2. Misc cgroup

  3. Landlock安全模块

  4. 系统调用的堆栈随机化

  5. printk无锁ringbuffer的进一步优化

  6. BPF可调用内核函数

  7. 公共的IO PAGE Fault支持


Apple M1的初始支持


5.13最爆炸性的新闻无非是初始的Apple M1支持,但是然并卵,实用性几乎为0。因为,已经合入的patch非常类似于SoC bringup的初级阶段:

  • 带earlycon支持的UART (samsung-style) 串口驱动

  • Apple中断控制器,支持中断、中断亲和(affinity )和IPI (跨CPU中断)

  • SMP (通过标准spin-table来支持)

  • 基于simplefb的framebuffer驱动

  • Mac Mini的设备树

这样一个东西,是没法用的,发烧友玩玩可以,但是我们感激并欣赏Hector Martin “marcan”领导的Asahi Linux项目开了一个这样的好头。但是,在Apple M1上面跑Ubuntu啥的,近期、中期和长期的选择还是用Parallels虚拟化技术比较好。


Misc cgroup

众所周知,cgroup具备一个强大的控制CPU、内存、I/O等资源在不同的任务群间进行分配的能力。比如,你通过下面的命令,限制A这个群的CFS调度类进程,最多只能耗费20%CPU

这个世界上的绝大多数资源都是可以进行抽象的,比如属于cpuacctcpumemoryblkionet_cls什么的,但是,总有一些不同于常人的人,他们既不是男人,也不是女人,而是“妖如果有了仁慈的心”的人。Linux内核的驱动子系统多达100多个,但是还是有极个别驱动不属于这100多类中的任何一类,于是在drivers下面有个misc

现在内核碰到了类似的问题,它的资源要进行配额控制,但是不属于通用的类型,而是:

  • Secure Encrypted Virtualization (SEV) ASIDs

  • SEV - Encrypted State (SEV-ES) ASIDs

这些有限的 ASIDs用于在AMD平台上,进行虚拟机内存加密,不能归于现有cgroup的任何一类。那么,咱们加个misc类的cgroup吧,于是Misc control-group controller5.13内核诞生了。这再次证明了,不要重新造轮子,但是你可以在现有的轮子里面放一个“杂交”轮子。Misc cgroup允许进行一些特殊资源的控制,透过3个接口完成。

  • misc.capacity描述资源的能力(只读),比如:

$ cat misc.capacityres_a 50res_b 10
  • 透过misc.current描述当前资源的占用(只读),比如:

$ cat misc.currentres_a 3res_b 0
  • 透过misc.max设置这个cgroup最多只能使用多少资源(可读可写),比如:

# echo res_a 1 > misc.max

同志们,有了这个misc cgroup的支持,以后咱们的阿猫阿狗资源限制,也可以往里面塞了。它相当于开了一道门。

 

Landlock安全模块

曾经有一个真诚的patch摆在我面前,但是我没有珍惜,发了V1被人怼了后就放弃了,等到失去的时候才后悔莫及,尘世间最痛苦的事莫过于此,如果上天可以给我一个机会再来一次的话,我会对那个patch说我要继续迭代发!如果非要在这个迭代的次数上加上一个期限,我希望是一百遍。5.13内核,最励志的事情无疑是,"Landlock" Lands In Linux 5.13 !在迭代了超过5年之后,安全组件landlock终于合入了Linux内核,这份始于2016年的爱情,终于有了一个美好的结局。为此,Linux内核doc的维护者,LDD3的作者之一Jonathan Corbet发文指出:Kernel development is not for people who lack persistence; changes can take a number of revisions and a lot of time to make it into a mainline release。文章链接:

https://lwn.net/Articles/859908/

所以,没有耐力、不能持之以恒,想一夜暴富的人,真地不适合做kernel开发。Landlock LSM主要给非特权进程提供安全沙盒的能力,比如你可以对一个普通进程,施加自定义的文件系统访问控制策略。

它的操作原理是,先创建一个规则集ruleset,比如,如下的ruleset就是涉及到文件的读、写、执、读DIR、写DIR等:

ruleset对用户以文件描述符fd的形式存在,再次证明了“一切都是文件”。接下来,我们可以透过这个fd,向这个ruleset里面添加rule,比如我们添加一个/usr目录的“读”规则,这样进程就不能写/usr了:

我们把这个ruleset施加起来让它生效:

想要体验的童鞋可以用这个例子启动你的进程,它设置好ruleset后,会去call exec启动命令行参数指定的程序:

https://github.com/landlock-lsm/linux/blob/landlock-v34/samples/landlock/sandboxer.c

LL_FS_RO环境变量是可读文件的列表,LL_FS_RW环境变量是可读写文件的列表,运行方法:


LL_FS_RO=”只读路径” \LL_FS_RW=”可写路径” \sandboxer  ./a.out

a.out是你的想要安全沙盒的程序。

在下已经一睹为快,在/home/baohua下面创建2个目录1,2,然后创建/home/baohua/1/1/home/baohua/2/12个文件,限制第一个目录只读:

童鞋们看明白了吗?我用sandboxer去启动cat,2个文件都是成功的。但是,去启动echo,/home/baohua/1/1是不允许写的,但是/home/baohua/2/1是可以写的。实际上,/home/baohua/1/1和/home/baohua/2/1并没有丝毫的不同。landlock在发挥作用了!


系统调用的堆栈随机化

这是一项安全增强,它允许对系统调用发生时,内核使用的堆栈添加一个随机偏移。这给基于stack的攻击增加了难度,因为stack攻击通常要求stack有个固定的layout。现在每次系统调用,stacklayout都变化的话,黑客就比较捉摸不定了。比如ARM64主要修改了invoke_syscall()这个函数:

这个东西听起来很高大上,但是它的原理可能简单地你想哭,NO BB! show me the code:

它实际上就是每次系统调用把offset随机化一下,然后通过__builtin_alloca()stack里面分配一些stack空间,于是导致stack的位置移动。我们可以写个非常简单的应用程序来验证原理:

然后编译

gcc 1.c  -fno-stack-protector -O0

运行:

亲爱的,你有没有发现,10次函数调用的时候,每次stack临时变量的位置都不一样!!?


printk无锁ringbuffer的进一步优化

锁什么,不锁什么,锁大还是锁小,从来都是一个问题。宫锁心玉、宫锁珠帘、宫锁沉香、宫锁连城、宫锁printk......

内核工程师,可能真地被printk宠坏了,printk的优势是在Linux的任意CPU、任意线程、任意中断(甚至包括NMI)都可以调用,呼之即来挥之即去。你有没有想过,printk的实现里面可能有很大的锁代价的?你怎么保证一个人在打印”abc”,另外一个人再打印”def”,它不把2个人的打印串扰呢?如何避免各种死锁的可能性?很多操作系统为了避免这种代价,干脆禁止了一些上下文对类似print函数的调用,比如VxWorks的中断服务程序是不能调用printf()的。所以Linuxprintk是一个极端复杂的存在。John Ogness <john.ogness@linutronix.de>童鞋曾经说过:If it is part of printk, it is already implicitly on every line of code.

生命不息,内卷不止。printk在内核不断演进,可以看成一个锁粒度逐步缩小,直至lockless的一个典范。

19910.01版的printk非常简单,没有现代意义上的logbuf这个环形缓冲区,直接把buffertty里面写:

这个时候,显然还没有loglevelconsole的概念,也完全不支持多核;上世纪90年代的内核逐步在printk加入了ringbuffer(logbuf)loglevlconsole等的概念,以及对syslogd等用户态服务唤醒的支持。

直至1998年,Linux 2.1.80开始支持多核printk,通过一个spin_lock,把所有多核的printk串行化,各个处理器顺序打印(图片来源https://elinux.org/images/7/7c/Elce-printk-v1.pdf):

2printk必须等第1printk彻底完成才能开始,这个printk的效率是非常低的。按照Amdahl定律,此种实现串行度100%,显然scalability很差。

现代意义上的printk,诞生于20019月的2.4.10,开始支持异步的打印。这个时候,printk开始使用2个锁:

  • console_lock semaphore:用于在console打印

  • logbuf_lock spinlock:用于写环形缓冲区logbuf

2个锁其实把写logbuf和在console打印的动作某种意义上并行化了:

只有拿到console_lock的任务负责打印,但是在打印的同时,其他任务只要能拿到logbuf_lock,是可以写logbuf的。

由于printk拿了logbuf这样的锁,如果在printk的过程中,发生不同寻常的NMI(比如,即便logbuf_lock的附加屏蔽IRQ版本——logbuf_lock_irqsave也屏蔽不了NMI),而这个NMI也要printklogbuf啥的,则可能造成死锁。所以在Linux 3.19后,引入了seq_bufferNMIlog,写入一个安全的per-CPUbuffer,而不是像其他printk那样写入全局的logbuf。之后,在NMI handler结束后的相对安全的上下文,把per-CPU seq_buffer里面的东西flush出去(比如Linux 4.7通过irq_work延后这个工作)。所以,此时的逻辑变成了:


这样就导致了printk依赖一个临时的所谓safe buffer。这种safe buffer的理念,也被用来避免printk自己递归(printk的实现调用printk)引起的死锁。在递归的printk里面,内容也如NMI那样写入safe buffer,之后在安全的上下文才把这个buffer的内容flush出去。这种思路,其实也是数据结构分化以避免全局锁的思路,比如太平天国洪秀全暂时没有办法夺取北京城,就先在南京城占山为王,然后伺机再取北京。北京城1个数据结构,南京城是另1个。

printklogbuf有各种NMI、递归的坑的,前面基本就是在想办法绕坑。绕坑的话,进取心实在有限,比如天王后面放弃了007,选择了躺平,天国最后完蛋了。但是内核的进取心很大,在5.10中,内核提交了一个locklessringbuffer,可安全地用于一切上下文,避免了死锁,也为避免NMI等场景对临时的per-CPU safe buffer依赖的去除提供了可能性,应该是更加接近printk需求的本质。注意,5.10内核printk的这个lockless ringbuffer支持多个读者、多个写者安全的,它本身的实现比较复杂,更多涉及数据结构的知识,具体的细节可以参考这个commit(大约2000行代码):

但是5.10仍然有少量代码路径依赖 logbuf_lock,比如kmsg_dumpsyslog 、格式化消息用的临时buffer等(毕竟5.10之前的代码用logbuf_lock用地比较奔放)。

5.13中,内核进一步移除了 logbuf_lock,从而基本接近了locklessprintk。移除的方法是要么直接删没必要的 logbuf_lock调用,要么用一个特定的更小锁来替换。比如,之前syslog里面的 syslog_seq, syslog_partial, syslog_time clear_seq 是靠 logbuf_lock保护的,现在重新引入一个它自己的锁syslog_lock

这种思路其实就是分而治之,逐步细化瓦解。就像以前内核有个BKL,后面它的使用场景,被一个个更小的锁细化代替,直至最后BKL被彻底消灭一样。


BPF可调用内核函数

技术上来讲BPF程序载入内核的时候,内核会执行严格的检查,内核和BPF程序能实际互动的范围非常有限,主要是内核调用BPF而不是反过来。Linux 5.13内核则允许特定program typeBPF程序直接调用特定的内核函数,为确保调用的安全,目前内核仅仅授权了 tcp_slow_start() tcp_cong_avoid_ai()等这种TCP拥塞控制相关的函数(tcp-cc helper)供BPF拥塞控制程序直接调用,这样BPF拥塞控制程序不需要把这些函数再copy-paste一遍。

内核net/ipv4/bpf_tcp_ca.c的代码显示了这个verify的过程,需要在相应的bpf_verifier_ops中添加check_kfunc_call()成员函数:

check_kfunc_call()的成立条件就是特定函数必须是在bpf_tcp_ca_kfunc_ids集合里面的白名单函数,比如:

这个时候,哥在想,如果我把kprobe这种program typeBPFcheck_kfunc_call()永远返回真,我不是可以在kprobeBPF中为所欲为?

比如我可以尝试在任何kprobe点对应的BPF程序上,调用barrysong_hack_print()这个函数?目前还没有尝试,想做实验的童鞋,可以仿照这个commit中的例子完成,这是一个测试案例:


公共的IO PAGE Fault支持

这个特性主要用于用户空间的DMA,特别适用于SVA的场景,Shared Virtual Addressing (SVA)

SVA模式下,设备的IOMMU采用和CPUMMU共享的页表,从而让进程地址空间对设备可见。

图片来源:

https://events19.linuxfoundation.cn/wp-content/uploads/2017/11/Shared-Virtual-Addressing_Yisheng-Xie-_-Bob-Liu.pdf

5.13内核中,ARM SMMU和UACCE (Unified/User-space-access-intended Accelerator Framework) 合入了共享SVA的支持,并将相关IO Page FaultIOPF)的代码提炼成了通用的drivers/iommu/io-pgfault.c代码。我们都知道,Linux的内存管理重度近乎强迫症式地依赖CPUpage fault,比如demanding page, swapCoW等,内存都是在page fault发生后申请内卷进来的。现在,设备也共享了进程的内存,这样设备访问这些页面的时候,仍然可能产生类似CPUpage fault帮忙把进程缺少的页面申请出来。不过设备是先发一个中断,然后内核在中断服务程序里面调用handle_mm_fault()来处理缺页,这样设备产生的IOPF同样可以帮忙demanding page(比如设备DMAmalloc()后还没获得的内存)。似乎设备变地非常类似进程里面的一个线程,不过我们仔细一想,这里仍然有一个逻辑讲不通,如果我们把线程和Device并列:

当线程写空指针,CPU会收到同步的Page Fault(在*p=10的指令卡住,并最终给进程产生segment fault);但是进程启动设备在用户态去做DMA,设备写无效的地址,显然也会收到IOPF,但是我们却没办法定位到对应的代码行。在加上中断啥时候进ISR的问题,这种IOPF行为总体对进程而言异步的。比如:

p = malloc(1M);device_write(p, 2M);

其实写前1MB都没有问题,但是到1MB后,其实就是非法地址了,设备啥时候写完1MB,这个完全是异步的。

另外这个时候,内核应该给进程发什么信号也是个问题?CPU碰到这种情况,显然就是发SIGSEGV;设备这里,IOPF的中断服务程序,目前似乎是没有发,理想情况下,是不是至少也应该发一个类似SIGBUS或者什么信号,不过无论如何,进程也无法同步检测到哪里的代码出了问题,更加不要说支持ASAN(Address Sanitizer)这种内存越界检查技术了。

我们期待后续内存继续对这个问题给出一个明确的说法,也期待更多的童鞋发patch来让内核能自圆其说。

时光永是流逝,街市依旧太平。内核的每个新版本发布,之于搬砖的码农,已泛不起任何的涟漪。但是,钟爱内核的人们,仍然在孜孜不倦地追随。

Linux阅码场 专业的Linux技术社区和Linux操作系统学习平台,内容涉及Linux内核,Linux内存管理,Linux进程管理,Linux文件系统和IO,Linux性能调优,Linux设备驱动以及Linux虚拟化和云计算等各方各面.
评论
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 82浏览
  • 1月7日-10日,2025年国际消费电子产品展览会(CES 2025)盛大举行,广和通发布Fibocom AI Stack,赋智千行百业端侧应用。Fibocom AI Stack提供集高性能模组、AI工具链、高性能推理引擎、海量模型、支持与服务一体化的端侧AI解决方案,帮助智能设备快速实现AI能力商用。为适应不同端侧场景的应用,AI Stack具备海量端侧AI模型及行业端侧模型,基于不同等级算力的芯片平台或模组,Fibocom AI Stack可将TensorFlow、PyTorch、ONNX、
    物吾悟小通 2025-01-08 18:17 38浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 94浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 51浏览
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 39浏览
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 51浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2025-01-09 09:58 33浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 100浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 80浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 37浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦