TCP/IP协议栈在内核态的好还是用户态的好

一起学嵌入式 2023-10-14 09:26

扫描关注一起学嵌入式,一起学习,一起成长


“TCP/IP协议栈到底是内核态的好还是用户态的好?”

问题的根源在于,干嘛非要这么刻意地去区分什么内核态和用户态。


引子

为了不让本文成为干巴巴的说教,在文章开头,我以一个实例分析开始。

最近一段时间,我几乎每天深夜都在做一件事,对比mtcp,Linux内核协议栈的收包处理和TCP新建连接的性能,同时还了解了一下腾讯的F-Stack。这里指明,我的mtcp使用的是netmap作为底层支撑,而不是DPDK。

测试过程中,我确认了Linux内核协议栈的scalable问题,并且确认了用户态协议栈是如何解决这个问题的。然而这并没有让我得出用户态协议栈就一定比内核态协议栈好这么一个明确的结论。

具体怎么讲呢?先来看一张图,这张图大致描述了我的测试结论:

可以看出,Linux内核协议栈存在严重的scalable问题(可伸缩性),虽然我们看到用户态协议栈性能也并非完美地随着CPU核数的增加而线性扩展,但已经好太多了。
看到这个结论,我们不禁要问,Why?两个问题:
  • 为什么内核协议栈PPS曲线呈现严重上凸?
  • 为什么内核协议栈的CPS(TCP每秒新建连接数)随着CPU核数的增加几乎没有什么变化?

第一个问题好回答,就像《人月神话》里说的一样,任何事情都不能完美线性扩展,因为沟通需要成本。好吧,当我巧妙绕开第一个问题后,我不得不深度解析第二个问题。
我们知道,Linux内核协议栈会将所有的Listener socket和已经建立连接的establish socket分别链接到两个全局的hash表中,这意味着每一个CPU核都有可能操作这两张hash表,作为抢占式SMP内核,Linux处理TCP新建连接时加锁是必须的。
好在如今的新内核的锁粒度已经细化到了hash slot,这大大提升了性能,然而面对hash到同一个slot的TCP syn请求来讲,还是歇菜!
特别严重的是,如果用户态服务器仅仅侦听一个Nginx 80端口,那么这个机制就相当于一个全局的内核大锁!对于Listener的slot锁,那是为多个Listener而优化的(最多INET_LHTABLE_SIZE个bucket,即32个),对于仅有一个Listener的新建连接而言,不会起到任何作用。但是这个只是在频繁启停服务+reuseport的时候才会发生,无关我们描述的场景。
对于TCP新建连接测试,很显然要频繁操作那张 establish hash 表,握手完成后加锁插入 hash 表,连接销毁时加锁从 hash 表删除!
问题已经描述清楚了,要揭示答案了。
对于TCP CPS测试而言,会有频繁的连接创建和链接销毁的过程在执行,映射到代码,那就是inet_hash和inet_unhash两个函数会频繁执行,我们看一下unhash:
void inet_unhash(struct sock *sk){struct inet_hashinfo *hashinfo = sk->sk_prot->h.hashinfo;    spinlock_t *lock;int done;
if (sk_unhashed(sk))return;
if (sk->sk_state == TCP_LISTEN) lock = &hashinfo->listening_hash[inet_sk_listen_hashfn(sk)].lock;else // 多核SMP且高压力下,难免会有多个socket被hash到同一个slot lock = inet_ehash_lockp(hashinfo, sk->sk_hash);
   spin_lock_bh(lock); // 这里是问题的根源   done =__sk_nulls_del_node_init_rcu(sk);   if (done)       sock_prot_inuse_add(sock_net(sk), sk->sk_prot, -1); spin_unlock_bh(lock);}

关于hash的过程就不赘述了,同样会有一个spinlock的串行化过程。

这似乎解释了为什么内核协议栈的CPS如此之低,但依然没有解释为什么内核协议栈的CPS如此不scalable,换句话说,为何其曲线上凸。
从曲线上看,虚线的斜率随着CPU核数的增加而减小。而曲线的斜率和沟通成本是负相关的。这里的沟通成本就是冲突后的自旋!
不求完全定量化分析,我们只需要证明另外一件事即可,那就是随着CPU核数的增加,slot冲突将会加剧,从而导致spinlock更加频繁,即CPU核心和spinlock频度是正相关的!!
这是显然的,且这很容易理解。如果我们的hash函数是完美的,那么每一次hash都是不偏不倚的,最终的hash bucket分布将是概率均匀的。CPU核数的增加并不会改变这个结论:

结论是,CPU核数的增加,只会加剧冲突,因此CPU核数越多,spinlock频度就越高,明显地二者正相关!spinlock随着CPU核数的增加而增加,CPU核数增加的收益被同样增加的spinlock成本完美抵消,所以说,随着CPU核数的增加,CPS几乎不会变化。
好了,这就是内核协议栈的缺陷,它能不能改进取决于你的决心,以上的描述没有任何细节证明在内核态实现协议栈是不好的,相反,它只是证明了Linux内核如此这般的实现方法存在问题,仅此而已。

现在回到Linux内核协议栈CPS问题的spinlock,其也是一个NAK协议,冲突了就等,直到等到,这是一种完全消极的被动应对方式。注定会失去scalable!!
Linux内核里充斥着大量的这种被动逻辑,但却没有办法去优化它们,因为一开始它们就这么存在着。典型的场景就是,TCP短链接加上nf_conntrack。二者全部都需要操作全局的spinlock,呜呼,悲哀!
说一下HTTP。搞底层协议的一般不会太关注HTTP,但是HTTP请求头里的Connection字段会对性能产生巨大的影响,如果你设置为close,那就意味着服务器在完成任务后就断开TCP连接,如果你设置为Keep-Alive,就意味着你可以在同一个TCP连接中请求多个HTTP。
但这看起来也不是很有用。作为一个浏览器客户端,谁管你服务器能撑得住多少CPS啊!就算我个人将Connection设置为Keep-Alive,别人不从,又能把他们怎样?

ACK和NAK

一般认为NAK协议可以最大限度的节约空间,但是却浪费了时间,然而在带宽资源非常紧缺的TCP协议诞生伊始,多发一个字节都嫌多,为什么却选择了ACK而不是NAK?
答案正是空间换取scalable。后来的事实证明,TCP选择了ACK,这是一个正确的选择。
NAK表明你必须被动地等待坏消息,没有消息就是好消息,但是要等多久呢?不得而知。而ACK的主动报送则可以让你规划下一步的动作。
有没有深夜喝完酒和朋友分开的经历。我酒量还可以,所以一般都是担心朋友路上出点什么事情,一般我都会让朋友到家后发个微信表明自己到家了,这样我收到他的信息后就能安然入睡了。
如果这个时候用NAK协议会怎样?对于一个本来就不可信的信道而言,就算他给我打了求救电话也有可能接不通,我要等到什么时候才能确保朋友已经安全到家?
TCP的ACK机制作为时钟驱动其发送引擎源源不断地发送数据,最终可以适应各种网络环境,也正为如此,30多年前的TCP到现在还依然安好(PS:这里并不能让我释怀,因为我讨厌TCP。我在这里说TCP的好话,仅仅是因为它选择了ACK而不是NAK这件事是正确的,仅此而已)。

鄙视链

内核态用户态做了一个界限分明的区分,于是一条鄙视链就形成了,或者说反过来就是是一条膜拜链。在内核态写代码的鄙视写应用程序的,写用户态代码的膜拜搞内核的(然后把Java和C都扯进来,搞C的鄙视搞Java的?)。
先不谈鄙视链,也不谈膜拜链。只要区分了内核态和用户态,那么想要实现一个功能的时候,就必然面临一个选择,即在什么态实现它。紧接着而来的就是一场论战,随便举几个例子。
  • Linux 2.4内核中有个小型的WEB服务器,结果被鄙视了

  • 现如今Facebook搞了个KTLS,旨在把SSL过程放在内核里以支持高性能HTTPS

  • 我自己把OpenVPN数据通道移植进内核,见人就拿这事跟人家炫耀

  • 腾讯F-Stack把BSD协议栈嫁接在用户态,美其名曰高效,灵活

  • mtcp貌似也做了同样的事

  • Telira的销售不厌其烦告诉我用户态的DPI是多么高效

  • 微软的很多网络服务都实现在内核态


无论怎么搞,套路基本就是原来在内核态实现的,现在移到用户态,原来在用户态实现的,现在移到内核态,就这么搞来搞去,其中有的很成功,有的就很失败。
所谓的成功是因为这个移植解决了特定场景下的特定问题,比如用户态协议栈的mmap+Polling 模式就解决了协议栈收包PPS吞吐率低的问题,然而很多移植都失败了,这些失败的案例很多都是为了移植而移植,故意捣腾的。
请注意,不要被什么用户态协议栈所误导,世界上没有万金油!

正文

很多人混淆了原因和结果,正如混淆目标和手段一样常见。
我们都知道,Linux内核协议栈收包吞吐低,然而当你问起Linux内核协议栈为什么这样时,回答大多是“切换开销大”,“内存拷贝太多”,“cache miss太高”,“中断太频繁”…
但是注意,作为使用协议栈的业务方没人会关注这些,实际上这些都是原因而不是结果,业务关注的就是收包吞吐低这个事实,为什么吞吐低这正是内核工程人员要查明并搞定的,上面那些关于切换,拷贝,cache miss,中断之类的描述,其实都是造成收包吞吐低的原因而不是问题本身。
同时,优化掉这些问题并不是目的,目的只有一个,就是提高收包吞吐,优化掉这些问题全部是达到目的的手段。
手段和目的混淆非常常见,这也是为什么很难有手机卖过苹果手机的原因。看看苹果的广告宣传的是什么,是产品本身,而很多安卓机的广告都是在拼数据,大肆宣传什么CPU,内存等硬件采用了什么先进的技术,但是那些买手机拍视频的网红懂这些吗?关注这些吗?
回到协议栈话题。现在,我们优化的目标只有一个,那就是提高收包吞吐,我们的优化目标并不是什么避免切换,降低cache miss,避免频繁中断这些,这些只是达到目标的手段,如果有更好地手段,我们大可不关注这些。
同样的,把协议栈移来移去的,并不是目标,没有什么公司会把“将协议栈移植到用户态”,“在内核态实现HTTP协议”这种作为KPI,这些都是手段而已,把协议栈在内核态用户态移来移去除了能展示自己高超的水平之外,对整体目标是没有帮助的。
那么很显然,如果不用移植,能就地解决问题,那岂不更好?如果我有点石成金的本事,我干嘛还要通过辛勤地工作来让我的老婆和女儿崇拜我?
接下来就要评估到底是用移植的手段,还是就地解决的手段来解决协议栈收包吞吐低的问题。在评估之前,首先我们要明确问题的原因到底出在哪里。嗯,上面已经列举了一些了,切换开销大内存拷贝昂贵cache miss高中断太频繁
原因知道了,自然就能对症下药了,现在的问题是,需要评估用户态和内核态搞定这些问题的可行性,成本以及难度,来决定到底在什么态来解决问题,最终其实会发现用户态实现一套协议栈是更容易的。
换句话说,如果能在内核态协议栈通过patch的方式解决这些问题,谁也不会去搞用户态协议栈了。
不是内核态实现协议栈不好,而是内核态解决多核下的收包扩展性问题很难,因为Linux内核设计之初并没有考虑多核扩展性。一旦面对多核,以下的问题是积重难返的:
  • 任务切换
  • 内存拷贝
  • CPU跳跃
  • 锁和中断

内核,至少是Linux内核没有提供任何基础设施来完美解决上述问题,随着CPU核数越来越多,为了应对上述很多问题将会导致越来越多的trick加入内核,内核将会变得越来越重。
简而言之,如果能在内核态实现一个稳定的内核线程高效收包,那也并不是不可以,而不是说必须要搞在用户态。然而,在内核态实现这个确实不易,正是因为用户态完成同样的工作更加简单,才会出现大量的用户态协议栈。

中断和轮询
现在来看一下中断和轮询背后的哲学。
中断本质上是一种节约的思维影响下的产物,典型的“好莱坞法则”之实例。这是让系统被动接收通知的方式,虽然在主观上,这种方式可以让系统“在没有收到通知时干点别的”,但是在客观现实看来,这段时间任何系统都没法一心一意地去做所谓的“别的”。
都面试过吧,如果你不是什么太牛的人,那么一般很难拿到招聘方人员的联系方式,面试完后一句“回去等通知吧”,会让多少人能平常心态等通知的同时还能继续自己的当前工作?(我之前不能,但现在确实可以了,我除外)这个时候,很多人都会想,如果能问一下就好了,然而并不能。
此外,有没有这样的经历,当你专注地想做一件事时,最烦人的就是手机响。此时很多人都会手机静音且扔远一点,等事情做完了再去看一下。
对,这就是中断和轮询的特征。中断是外界强加给你的信号,你必须被动应对,而轮询则是你主动地在处理事情。对于中断而言,其最大的影响就是打断你当前工作的连续性,而轮询则不会,完全在你自己的掌控之中。
对于我自己而言,我的手机基本上是常静音的,微信则是全部“消息免打扰”,我会选择在自己idle的时候主动去看手机消息,以此轮询的方式治疗严重的电话恐惧症。
那么如何来治疗Linux内核收包的电话恐惧症呢?答案是暂时没有办法。
因为如果想中断变轮询,那就必然得有一个内核线程去主动poll网卡,而这种行为与当前的Linux内核协议栈是不相容的,这意味着你要重新在内核实现一套全新的协议栈,面临着没完没了的panic,oops风险。
虽然Linux已经支持socket的busy polling模式,但这也只是缓解,而非根治!相反,完全在用户态实现poll,则是一个非常干净的方案。
关于内存拷贝,任务切换以及cache miss,试着用上面的思路去分析,最终的结论依然是在用户态重新实现一个自主的处理进程,将会比修改内核协议栈的方式来的更加干净。
几乎所有的评估结论表明,用户态协议栈是一个干净的方案,但却并不是唯一正确的方案,更没有证据说用户态协议栈是最好的方案。选择在用户态实现协议栈解决收包吞吐低的问题,完全是因为它比在内核态解决同样的问题更加容易,仅此而已。

意义

这里聊一个哲学问题。

有人说内核就应该只负责控制平面数据平面的操作全部应该交给用户态。

好吧,这里又一个柏拉图式的分类,实际上依然毫无意义。当然,引出类似概念的人肯定有十足的理由去说服别人相信他的分类是客观的,有依据的,但那仍然不过是一种主观的臆断。

继续说下去的话,也许最终的结论将是,只有微内核体系的操作系统才是最完美的操作系统。但事实上,我们都在用的几乎所有操作系统,没有一个是完全的微内核操作系统,微软的 Windows 不是,而 Linux 更是一个宏内核系统,没有微内核系统。

看来似乎只有一个说法能解释这种矛盾,那就是完美的东西本来就是不存在的,我们看到的世界上所有的东西,都是柏拉图眼中的影子,而完美则代表了抽象的本质,那是上帝的范畴,我们甚至无力去仰望!从小的时候,我们就被老师告知,世界上不存在完美的球形。

因此,如果微内核宏内核根本就不存在,那么凭什么内核态就只能处理控制平面呢?如果内核态处理网络协议栈这种做法是错误的,那为什么UNIX/Linux的内核网络协议栈却存在了40多年呢?嗯,存在的即是合理的。

世界是进化而来的,而不是设计而来的,即便是存在设计者,也是一个蹩脚的设计者,你看,我们人体本身不就存在很多bug吗?因此,即便是上帝那里,存在的也是柏拉图眼里的影子。

原文:https://blog.csdn.net/dog250/article/details/80532754

文章来源于网络,版权归原作者所有,如有侵权,请联系删除。



扫码,拉你进高质量嵌入式交流群


关注我【一起学嵌入式】,一起学习,一起成长。


觉得文章不错,点击“分享”、“”、“在看” 呗!

一起学嵌入式 公众号【一起学嵌入式】,RTOS、Linux编程、C/C++,以及经验分享、行业资讯、物联网等技术知
评论
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 80浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2025-01-09 09:58 22浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 22浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 115浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 21浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 100浏览
  • 1月7日-10日,2025年国际消费电子产品展览会(CES 2025)盛大举行,广和通发布Fibocom AI Stack,赋智千行百业端侧应用。Fibocom AI Stack提供集高性能模组、AI工具链、高性能推理引擎、海量模型、支持与服务一体化的端侧AI解决方案,帮助智能设备快速实现AI能力商用。为适应不同端侧场景的应用,AI Stack具备海量端侧AI模型及行业端侧模型,基于不同等级算力的芯片平台或模组,Fibocom AI Stack可将TensorFlow、PyTorch、ONNX、
    物吾悟小通 2025-01-08 18:17 29浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 82浏览
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 23浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 128浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 150浏览
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 27浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 92浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦