面试官:为什么在中断里不能sleep?

TsinghuaJoking 2021-12-15 08:56

大家好,我是老吴。

今天是周一,大家工作顺利吗?

这篇文章给大家分享一点小知识:为什么中断里不能睡眠?

网上很多文章尝试解释这个问题,看后我觉得头皮发麻。

下面,我试着总结一下原因。


明确问题

首先,让我们明确一下问题。

对于这个问题,稍微准确一点的问法是:为什么在 Linux 的中断里,不能 sleep?

但是这个问法仍然不准确。

中断 (interrupt) 和中断服务程序 (interrupt service routine, ISR,或者是 interrupt handler),是 2 个不同的概念。

前者是硬件相关的概念,后者是软件相关的概念。

所以,对于这个问题,最准确的问法是:为什么在 Linux 的 ISR 里,不能 sleep?

由于 sleep 意味着 call scheduler,所以更直白一点的问法是

为什么在 Linux 的 ISR 里,不能 call scheduler?

最后,再加点限制条件会更准确:为什么在 Linux 的 ISR 里,即便 ISR 没有 hold 住任何 lock 的时候,都不能 call scheduler?


一种常见的解释

不能在 ISR 里睡眠的原因是:ISR 与任何 process context (进程上下文) 无关。

process context 是进程的状态信息,包括:

  • kernelspace and userspace stack pointers;
  • register set,或者称为 hardware context;
  • page table;

对于每一个进程,在内核都会有一个 pcb (process control, block,即 Linux 里的 task_struct 结构体) 来管理这些信息。

scheduler 可以访问所有这些信息,以抢占一个进程并运行另一个进程。

与此相反,取决于内核和迎接架构的版本,ISR 使用单独的中断栈或被中断的进程的内核栈,并且在中断中会有自己的 hardware context.

因此,由于在 ISR 里没有 process context,所以不能进行调度。

但是,这个说法描述的其实是当下设计的状况,而不是当初这样设计的原因。

在 Linux 的早期版本中,ISR 总是借用当前进程的栈。

所以如果内核想设计成允许在 ISR 里睡眠,是可以很自然地实现进程上下文切换的。

但是,Linux 采用的设计是:在 ISR 里禁止睡眠。

现在,我们的问题变成了

为什么在 Linux 里,ISR 被设计成不能睡眠?


将 ISR 设计成不可睡眠的原因

sleep 会导致 call scheduler 以选择另一个进程来运行。

内核代码里有大量的 critical section (临界区)。

critical section 本质上是一段会访问或操作共享资源的代码,例如:

static int copy_fs(unsigned long clone_flags, struct task_struct *tsk)
{
 struct fs_struct *fs = current->fs;
 if (clone_flags & CLONE_FS) {
  /* tsk->fs is already what we want */
  spin_lock(&fs->lock);
  if (fs->in_exec) {
   spin_unlock(&fs->lock);
   return -EAGAIN;
  }
  fs->users++;
  spin_unlock(&fs->lock);
  return 0;
 }
 tsk->fs = copy_fs_struct(fs);
 if (!tsk->fs)
  return -ENOMEM;
 return 0;
}

在 critical section 里,是不能 call scheduler 的。

因为已经有一个进程持有锁了,如果这时切换到另一个进程,最好的情况下是等待一段无法预测的时间后前一个进程会将锁释放出来,最坏的情况是死锁。

硬件中断是随时可能发生的,即便内核执行的路径正处于 critical section 中。

如果想在 ISR 里支持 sleep,也就是支持 call scheduler 的话,那么所有的 critical section 都必须得禁用中断,否则硬件中断一旦来临系统就会出现 race condition,接下来大概率是死锁。

Sleep 和 ISR

我查阅了一下 Linux 4.9 的代码,当你在一个不能调度的地方 call scheduler (例如 ISR 里 sleep) 的话,内核可以提示你写的代码有 BUG:

static inline void schedule_debug(struct task_struct *prev)
{
#ifdef CONFIG_SCHED_STACK_END_CHECK
 if (task_stack_end_corrupted(prev))
  panic("corrupted stack end detected inside scheduler\n");
#endif

 // 错误的时机 call sheduler ?
 if (unlikely(in_atomic_preempt_off())) {
  __schedule_bug(prev);
  preempt_count_set(PREEMPT_DISABLED);
 }
 [...]
}

我在某个设备驱动的中断处理函数 XXX_ISR() 里加了 msleep(10) 之后:

[   27.221560] BUG: scheduling while atomic: swapper/0/0x00010002
[   27.221609] Modules linked in: 8021q garp stp mrp llc usb_f_eem g_ether usb_f_rndis u_ether exfat(O)
[   27.221712] CPU: 0 PID: 0 Comm: swapper Tainted: G           O    4.9.203 #640
[   27.224736] Hardware name: Samsung Device
[   27.230575] [] (unwind_backtrace) from [] (show_stack+0x10/0x14)
[   27.238267] [] (show_stack) from [] (__schedule_bug+0x64/0x84)
[   27.245802] [] (__schedule_bug) from [] (__schedule+0x3fc/0x550)
[   27.253512] [] (__schedule) from [] (schedule+0x50/0xb4)
[   27.260533] [] (schedule) from [] (schedule_timeout+0x114/0x1e8)
[   27.268246] [] (schedule_timeout) from [] (msleep+0x2c/0x38)
[   27.275612] [] (msleep) from [] (XXX_ISR+0x34/0x8c)
[   27.282982] [] (XXX_ISR) from [] (__handle_irq_event_percpu+0x88/0x124)
[   27.292075] [] (__handle_irq_event_percpu) from [] (handle_irq_event_percpu+0x1c/0x58)
[   27.301693] [] (handle_irq_event_percpu) from [] (handle_irq_event+0x38/0x5c)
[   27.310532] [] (handle_irq_event) from [] (handle_edge_irq+0xe0/0x1a4)
[   27.318764] [] (handle_edge_irq) from [] (generic_handle_irq+0x24/0x34)
[   27.327091] [] (generic_handle_irq) from [] (exynos_irq_eint0_15+0x44/0x98)
[   27.335751] [] (exynos_irq_eint0_15) from [] (generic_handle_irq+0x24/0x34)
[   27.344415] [] (generic_handle_irq) from [] (__handle_domain_irq+0x54/0xa8)
[   27.353080] [] (__handle_domain_irq) from [] (vic_handle_irq+0x58/0x94)
[   27.361398] [] (vic_handle_irq) from [] (__irq_svc+0x6c/0xa8)
[   27.368847] Exception stack(0xc0d01f58 to 0xc0d01fa0)

总结一下

硬件中断是超级宝贵的资源,想在中断里睡眠的话就得在大量的 critical section 中关闭中断才能避免 race condition,而关闭硬件中断将会大大地增加中断响应的延迟,降低系统的反应速度,这是操作系统的用户所无法接受的, 因此内核开发者采用的设计是在中断里不允许睡眠,并且 ISR 应尽快执行并返回以便系统里的进程继续运行。

那么,那些很耗时的工作该怎么处理呢?

ISR 里如何处理耗时的工作

由于硬件中断可能随时发生,ISR 随时会执行。因此,它必须快速运行并退出,以便尽快恢复被中断代码的执行。在操作系统看来,无论是硬件中断还是被中断的代码,两者都是很重要的,因此,ISR 应在尽可能短的时间内执行完毕。

但是,现实情况是,许多 ISR 有大量工作要执行。例如网络设备的 ISR 除了响应硬件之外,还需要 将网络数据包从硬件复制到内存中,处理它们,并将数据包向下分发到适当的协议栈或应用程序。

Linux 如何解决这种活多钱少的问题?

答:将 ISR 分为 top half 和 bottom half。

top half 在收到中断后立即运行,仅执行时间紧迫的工作,例如确认收到中断或重置硬件,执行完 top half 后,如果进入 ISR 前是处于 critical section 且内核抢占是被关闭 ( 例如 spinlock ) 的话,就会返回到 critical section 里继续运行,不会产生 race condition 的问题。

void irq_exit(void)
{
#ifndef __ARCH_IRQ_EXIT_IRQS_DISABLED
 local_irq_disable();
#else
 WARN_ON_ONCE(!irqs_disabled());
#endif

 account_irq_exit_time(current);
 preempt_count_sub(HARDIRQ_OFFSET);

 // 内核抢占没被关闭、已经没有其他 hardirq 了、有 softirq 在 pending 等条件都被满足时,才会处理 softirq
 if (!in_interrupt() && local_softirq_pending())
  invoke_softirq();

 [...]
}

而晚一点执行也没问题的工作将推迟到 bottom half。bottom half 将在某个未来更方便的时间运行,并且是在使能所有中断、使能内核抢占的情况下进行,那时我们想怎么折腾就怎么折腾吧。

Linux 提供了许多 bottom half 的机制,例如 softirqs、tasklets、workqueues。

点击查看大图

所以,有了 bottom half 之后,在 ISR 里睡眠这种需求,其实是完全没有必要的。

到此,这个问题就解释完毕了,感谢大家的阅读。

—— The End —

推荐阅读  点击蓝色字体即可跳转
☞ 使用FreeRTOS要好好理解任务状态机
☞ 手把手教你在STM32F4上跑freeRTOS
 图解FreeRTOS原理系列之任务管理器基本框架
 傅里叶变换、拉普拉斯变换、Z 变换的联系是什么?为什么要变换

欢迎转发、留言、点赞、分享给您的朋友,感谢您的支持!

TsinghuaJoking 这是一个公众号,它不端、不装,与你同游在课下、课上。 卓晴博士,清华大学中央主楼 626A。010-62773349, 13501115467,zhuoqing@tsinghua.edu.cn
评论 (2)
游客_697302021-12-15 09:15
写的全面,举例论证,赞
游客_951822021-12-15 09:04
今天是周三啦!
  • 在CAN总线分析软件领域,当CANoe不再是唯一选择时,虹科PCAN-Explorer 6软件成为了一个有竞争力的解决方案。在现代工业控制和汽车领域,CAN总线分析软件的重要性不言而喻。随着技术的进步和市场需求的多样化,单一的解决方案已无法满足所有用户的需求。正是在这样的背景下,虹科PCAN-Explorer 6软件以其独特的模块化设计和灵活的功能扩展,为CAN总线分析领域带来了新的选择和可能性。本文将深入探讨虹科PCAN-Explorer 6软件如何以其创新的模块化插件策略,提供定制化的功能选
    虹科汽车智能互联 2025-04-28 16:00 174浏览
  •  探针台的维护直接影响其测试精度与使用寿命,需结合日常清洁、环境控制、定期校准等多维度操作,具体方法如下:一、日常清洁与保养1.‌表面清洁‌l 使用无尘布或软布擦拭探针台表面,避免残留清洁剂或硬物划伤精密部件。l 探针头清洁需用非腐蚀性溶剂(如异丙醇)擦拭,检查是否弯曲或损坏。2.‌光部件维护‌l 镜头、观察窗等光学部件用镜头纸蘸取wu水jiu精从中心向外轻擦,操作时远离火源并保持通风。3.‌内部防尘‌l 使用后及时吹扫灰尘,防止污染物进入机械滑
    锦正茂科技 2025-04-28 11:45 107浏览
  • 网约车,真的“饱和”了?近日,网约车市场的 “饱和” 话题再度引发热议。多地陆续发布网约车风险预警,提醒从业者谨慎入局,这背后究竟隐藏着怎样的市场现状呢?从数据来看,网约车市场的“过剩”现象已愈发明显。以东莞为例,截至2024年12月底,全市网约车数量超过5.77万辆,考取网约车驾驶员证的人数更是超过13.48万人。随着司机数量的不断攀升,订单量却未能同步增长,导致单车日均接单量和营收双双下降。2024年下半年,东莞网约出租车单车日均订单量约10.5单,而单车日均营收也不容乐
    用户1742991715177 2025-04-29 18:28 201浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 169浏览
  • 在电子电路设计和调试中,晶振为电路提供稳定的时钟信号。我们可能会遇到晶振有电压,但不起振,从而导致整个电路无法正常工作的情况。今天凯擎小妹聊一下可能的原因和解决方案。1. 误区解析在硬件调试中,许多工程师在测量晶振时发现两端都有电压,例如1.6V,但没有明显的压差,第一反应可能是怀疑短路。晶振电路本质上是一个交流振荡电路。当晶振未起振时,两端会静止在一个中间电位,通常接近电源电压的一半。万用表测得的是稳定的直流电压,因此没有压差。这种情况一般是:晶振没起振,并不是短路。2. 如何判断真
    koan-xtal 2025-04-28 05:09 217浏览
  • 晶振在使用过程中可能会受到污染,导致性能下降。可是污染物是怎么进入晶振内部的?如何检测晶振内部污染物?我可不可以使用超声波清洗?今天KOAN凯擎小妹将逐一解答。1. 污染物来源a. 制造过程:生产环境不洁净或封装密封不严,可能导致灰尘和杂质进入晶振。b. 使用环境:高湿度、温度变化、化学物质和机械应力可能导致污染物渗入。c. 储存不当:不良的储存环境和不合适的包装材料可能引发化学物质迁移。建议储存湿度维持相对湿度在30%至75%的范围内,有助于避免湿度对晶振的不利影响。避免雨淋或阳光直射。d.
    koan-xtal 2025-04-28 06:11 142浏览
  • 你是不是也有在公共场合被偷看手机或笔电的经验呢?科技时代下,不少现代人的各式机密数据都在手机、平板或是笔电等可携式的3C产品上处理,若是经常性地需要在公共场合使用,不管是工作上的机密文件,或是重要的个人信息等,民众都有防窃防盗意识,为了避免他人窥探内容,都会选择使用「防窥保护贴片」,以防止数据外泄。现今市面上「防窥保护贴」、「防窥片」、「屏幕防窥膜」等产品就是这种目的下产物 (以下简称防窥片)!防窥片功能与常见问题解析首先,防窥片最主要的功能就是用来防止他人窥视屏幕上的隐私信息,它是利用百叶窗的
    百佳泰测试实验室 2025-04-30 13:28 239浏览
  • 文/郭楚妤编辑/cc孙聪颖‍越来越多的企业开始蚕食动力电池市场,行业“去宁王化”态势逐渐明显。随着这种趋势的加强,打开新的市场对于宁德时代而言至关重要。“我们不希望被定义为电池的制造者,而是希望把自己称作新能源产业的开拓者。”4月21日,在宁德时代举行的“超级科技日”发布会上,宁德时代掌门人曾毓群如是说。随着宁德时代核心新品骁遥双核电池的发布,其搭载的“电电增程”技术也走进业界视野。除此之外,经过近3年试水,宁德时代在换电业务上重资加码。曾毓群认为换电是一个重资产、高投入、长周期的产业,涉及的利
    华尔街科技眼 2025-04-28 21:55 147浏览
  • 一、智能家居的痛点与创新机遇随着城市化进程加速,现代家庭正面临两大核心挑战:情感陪伴缺失:超60%的双职工家庭存在“亲子陪伴真空期”,儿童独自居家场景增加;操作复杂度攀升:智能设备功能迭代导致用户学习成本陡增,超40%用户因操作困难放弃高阶功能。而WTR096-16S录音语音芯片方案,通过“语音交互+智能录音”双核驱动,不仅解决设备易用性问题,更构建起家庭成员间的全天候情感纽带。二、WTR096-16S方案的核心技术突破1. 高保真语音交互系统动态情绪语音库:支持8种语气模板(温柔提醒/紧急告警
    广州唯创电子 2025-04-28 09:24 185浏览
  • 随着电子元器件的快速发展,导致各种常见的贴片电阻元器件也越来越小,给我们分辨也就变得越来越难,下面就由smt贴片加工厂_安徽英特丽就来告诉大家如何分辨的SMT贴片元器件。先来看看贴片电感和贴片电容的区分:(1)看颜色(黑色)——一般黑色都是贴片电感。贴片电容只有勇于精密设备中的贴片钽电容才是黑色的,其他普通贴片电容基本都不是黑色的。(2)看型号标码——贴片电感以L开头,贴片电容以C开头。从外形是圆形初步判断应为电感,测量两端电阻为零点几欧,则为电感。(3)检测——贴片电感一般阻值小,更没有“充放
    贴片加工小安 2025-04-29 14:59 195浏览
  • 文/Leon编辑/cc孙聪颖‍2023年,厨电行业在相对平稳的市场环境中迎来温和复苏,看似为行业增长积蓄势能。带着对市场向好的预期,2024 年初,老板电器副董事长兼总经理任富佳为企业定下双位数增长目标。然而现实与预期相悖,过去一年,这家老牌厨电企业不仅未能达成业绩目标,曾提出的“三年再造一个老板电器”愿景,也因市场下行压力面临落空风险。作为“企二代”管理者,任富佳在掌舵企业穿越市场周期的过程中,正面临着前所未有的挑战。4月29日,老板电器(002508.SZ)发布了2024年年度报告及2025
    华尔街科技眼 2025-04-30 12:40 184浏览
  • 4月22日下午,备受瞩目的飞凌嵌入式「2025嵌入式及边缘AI技术论坛」在深圳深铁皇冠假日酒店盛大举行,此次活动邀请到了200余位嵌入式技术领域的技术专家、企业代表和工程师用户,共享嵌入式及边缘AI技术的盛宴!1、精彩纷呈的展区产品及方案展区是本场活动的第一场重头戏,从硬件产品到软件系统,从企业级应用到高校教学应用,都吸引了现场来宾的驻足观看和交流讨论。全产品矩阵展区展示了飞凌嵌入式丰富的产品线,从嵌入式板卡到工控机,从进口芯片平台到全国产平台,无不体现出飞凌嵌入式在嵌入式主控设备研发设计方面的
    飞凌嵌入式 2025-04-28 14:43 140浏览
  • 贞光科技代理品牌紫光国芯的车规级LPDDR4内存正成为智能驾驶舱的核心选择。在汽车电子国产化浪潮中,其产品以宽温域稳定工作能力、优异电磁兼容性和超长使用寿命赢得市场认可。紫光国芯不仅确保供应链安全可控,还提供专业本地技术支持。面向未来,紫光国芯正研发LPDDR5车规级产品,将以更高带宽、更低功耗支持汽车智能化发展。随着智能网联汽车的迅猛发展,智能驾驶舱作为人机交互的核心载体,对处理器和存储器的性能与可靠性提出了更高要求。在汽车电子国产化浪潮中,贞光科技代理品牌紫光国芯的车规级LPDDR4内存凭借
    贞光科技 2025-04-28 16:52 233浏览
  • 一、gao效冷却与控温机制‌1、‌冷媒流动设计‌采用低压液氮(或液氦)通过毛细管路导入蒸发器,蒸汽喷射至样品腔实现快速冷却,冷却效率高(室温至80K约20分钟,至4.2K约30分钟)。通过控温仪动态调节蒸发器加热功率,结合温度传感器(如PT100铂电阻或Cernox磁场不敏感传感器),实现±0.01K的高精度温度稳定性。2、‌宽温区覆盖与扩展性‌标准温区为80K-325K,通过降压选件可将下限延伸至65K(液氮模式)或4K(液氦模式)。可选配475K高温模块,满足材料在ji端温度下的性能测试需求
    锦正茂科技 2025-04-30 13:08 178浏览
  • 在智能硬件设备趋向微型化的背景下,语音芯片方案厂商针对小体积设备开发了多款超小型语音芯片方案,其中WTV系列和WT2003H系列凭借其QFN封装设计、高性能与高集成度,成为微型设备语音方案的理想选择。以下从封装特性、功能优势及典型应用场景三个方面进行详细介绍。一、超小体积封装:QFN技术的核心优势WTV系列与WT2003H系列均提供QFN封装(如QFN32,尺寸为4×4mm),这种封装形式具有以下特点:体积紧凑:QFN封装通过减少引脚间距和优化内部结构,显著缩小芯片体积,适用于智能门铃、穿戴设备
    广州唯创电子 2025-04-30 09:02 205浏览
我要评论
2
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦