从草图到产品,“半导体器件在制造前后往往面临诸多危害,这将导致它们过早失效”。“芯片的工作环境恶劣,半导体行业已经学会了如何应对这些挑战。但随着制造尺寸越来越小或采用了新的封装技术,新的问题随之出现。”设计、制造、静电处理、关联问题、操作……诸多细节都是导致芯片故障的元凶,本文就将具体介绍导致芯片之死的五大原因。
作者:BRIAN BAILEY
译者:苏本如
以下为译文:
半导体器件包含数亿个晶体管,它们在极端温度和恶劣环境下工作,因此,许多器件未能如预期那样工作或寿命有限,这并不奇怪。有些器件永远无法走出实验室,还有许多器件则死于车间。人们希望发布到产品中的大多数器件在过时之前都能存活下来,但很多事情都可能发生,让它们无法走到那一步。即使是运行正常的器件也会受损,导致它们不能产生正确的结果。
器件失败及其原因可以列出一大长串。但它们通常分为几个类别,具体如下。
死于设计
Mentor/Wilson 的功能验证研究结果指出,2018 年 ASIC 芯片的一次投片成功率只有 26%,这个值低于之前的研究结果。成功率低的部分原因是新的工艺节点引起了一些尚未完全理解的问题。在此之前,已经存在了一段时间的问题被整合到工具和流程中,使这些已知的问题不那么具有威胁性。然而,在 2018 年,混合信号接口、串扰(Crosstalk)、时序和 IR-Drop,所有这些已知的问题导致了芯片改版的比例大大上升。
导致芯片改版的 ASIC 缺陷类型 | 来源:2018 年功能验证研究报告,由 Wilson Research Group 和西门子 Mentor 事业部发布
“一些客户的芯片之所以失败,是因为它们的设计过程较为特殊。”Synopsys 的产品经理 Kenneth Chang 说道。“一位客户进行了 block 级功耗分析,然后进行了集成。他们认为在那个阶段他们可以修复问题,但是事与愿违,芯片也就失败了——原因在于旧方法不再适用于新的先进技术。”
并非说一个芯片只有在不能工作时才是失败。Cadence 公司 Digital 和 Signoff 部门产品管理总监 Jerry Zhao 认为,“如果一个芯片没有达到性能目标,那也是失败”,“如果芯片的运行速度比预期低 10%,那么它在市场上可能就没有竞争力了。”
电源正成为一个挑战,尤其是当电源是在芯片上的时候。ARM 公司的物理设计团队高级解决方案营销经理 Lisa Minwell 表示,“电力传输网络(PDN)是一个分布式 RLC 网络,可以分为三部分:片上、封装和板上”,“片上需要更快的时钟频率、更低的工作电压和更高的晶体管密度。虽然先进的 finFET 技术实现了性能的持续提升,但功率密度的增加使 IR Drop 闭合成为一个挑战。精确建模和最小化电压裕度对于平衡能量效率和鲁棒性至关重要。”
但裕度可能是悲观的,从而限制了竞争力。尽管发现了问题,一些公司还是冒着风险继续前进。 “一家大型存储器公司在明知有大量的 IR Drop 问题的情况下照样出带(tape out)”,Kenneth Chang 说道 ,“只要看起来不太糟糕,他们就会选择 tape out,因为日程表对他们来说更加重要。客户正在学习,在这种情况下,他们的芯片并没有失败。如果他们不失败,他们就会继续做他们正在做的。当它们到达更具进取性的节点时,它们就需要变得更加受指标驱动,并执行 EMIR 分析。”
越来越多的问题也开始并发出现,例如功率、IR Drop、发热、时序、电迁移都是相互联系的,但对大部分问题的分析都是分开进行的。Jerry Zhao 指出,“电源噪音是个问题”,“电压供应正在下降,同时用户希望获得更高的性能。电池没有提供太多动力,也许有 850 毫伏,但你仍然想要 3GHz 的性能。电源噪声会产生重大影响,尤其是当晶片中存在变化时,这种噪声会随时间和位置而变化。因此,不同位置的同一个电池可能会因电压下降而失效,从而导致时序延迟。你必须在电压下降的背景下分析电池,并进行静态电压感知时序分析。有些路径对电压变化非常敏感。”
随着问题得到更好的理解,工具可以执行更好的分析,并且可以使用设计方法来规避问题。 “复杂性导致更大的功率密度,这反过来又在芯片内产生局部加热(热点)。” Moortec 公司的营销副总裁 Ramsay Allen 解释道,“栅极密度的增加也会导致供电电压更大的下降。在整个设计中,高精度的温度传感器和电压监控器使系统能够管理和适应这些条件,通过为热管理和电源异常检测提供解决方案,提高设备可靠性并优化性能。这在数据中心和人工智能设计中尤其重要,因为性能要求的提高使设计在温度和电压方面承受了巨大的压力。”
死于制造
半导体器件的制造涉及到仅有几纳米的结构。作为参照,人类的 DNA 链直径为 2.5 纳米,而人类的头发直径为 80000 至 100000 纳米。一粒灰尘可以摧毁晶圆上的几个单元裸片。如果裸片的尺寸变大,随机失效的几率就会增加。对于成熟的工艺节点,可以获得 80% 到 90% 的出片率。然而,对于较新的节点,出片率可能显著低于 50%,尽管实际的数字是严格保密的。
晶圆缺陷图案 | 资料来源:Marvell Semiconductor,ITC 2015。
即使是不受灾难性影响的裸片也可能不被划在可工作的范围内。制造步骤不完善时,即使只有一个原子的工艺变化也会产生显著的差异。虽然这可能不会对设计的某些部分产生影响,但如果工艺变化恰好与关键的时序路径相吻合,则可能会使器件不符合规范。
ANSYS 公司的 ESD/Thermal/Reliability 产品经理 Karthik Srinivasan 表明,“随着设计演变为具有先进封装的深亚微米技术,现有的模拟工具和设计方法不能很好地捕捉到变异性及其对可靠性的影响”,“这会导致设计流程中出现漏洞,从而引发一些故障。”
设计流程越来越多地允许在开发早期就考虑到变化,以最大程度地减少其影响,而冗余等设计技术可以减少需要丢弃的“几乎可以工作”的芯片的数量。“几乎可以工作”的芯片在大型内存阵列中非常常见,按照它们在测试中表现出的性能进行相应的分类(binning)是常用于处理器的另一种做法。也就是,在高频率下运行的优良器件可以以更高的价格出售,而那些只有在低频率时才能成功工作的器件则以折扣价出售。
测试的作用是找出哪些裸片功能完好。那些处于临界状态的裸片通常会被丢弃,但是一些有功能缺陷的裸片也会被漏检,并最终进入正式产品中。
死于静电处理
有很多种方法可以杀死芯片。如果将 0.5V 的电压施加到芯片的外部,就会在 1 纳米的电介质上产生 0.5MV/m 的电场。这足以使高压电线起弧。现在想象一下当你接触芯片的引脚时会发生什么。
“通常情况下,这是一个很高的电压,根据引脚的接触方式,会有不同的模型,例如人体模型或电荷分布模型(CDM)。”Jerry Zhao 解释说,“这些模型定义了电流如何被引入引脚,这是一种随时间变化的动态波形。”
通常,芯片都会有静电放电(ESD)保护。“对于封装内的单个裸片,它们的目标是像 2KJ 这样的标准,”Karthik Srinivasan 指出,“像 HBM 这样的多芯片解决方案的标准稍低一些。采用 2.5D 或 3D IC 的一个原因是为了性能,而 ESD 是性能的障碍。你试图最小化 ESD,甚至在这些 Wide I/O 接口或任何类型的多芯片接口通道上消除它,这意味着你不能真正地按照针对单个裸片的相同标准来测试每个裸片。它们必须通过更专业的测试方法,因为它们的 ESD 保护非常小,甚至可能没有 ESD 保护。”
即使在操作过程中,静电放电事件也会引起问题。ARM 公司的 Minwell表示:“在便携式电子产品中,ESD 可以导致许多类型的软错误。”在 ESD 事件期间,由于某些集成电路(振荡器集成电路、CPU 和其他集成电路)的灵敏度,或由于其与配电系统(PDN)的场耦合,都可能导致在配电系统上产生噪声。
死于关联问题
“软错误可以以多种方式发生,如果是系统性的设计错误,它可以使芯片看起来好像不工作。三维集成电路(3D IC)正在增加对电磁感知设计方法的需求,”Helic 公司的营销副总裁 Magdy Abadir 指出,“这是因为产生的功率密度更高,叠加层的数量也在增加,从而引发了增加天线的风险,这会放大整个设计过程中产生的磁场。”
供电不足也会带来问题。Jerry Zhao 指出,“芯片的功能取决于晶体管的跃迁”,“这取决于供电电压。如果它能在 1V 电压下工作,它可能会再下降 10% 或 20% 也仍然可以正常工作。但时序会有所不同,因此可能需要降低最大时钟频率。”
随着电压的降低,电路更容易受到噪声的影响。“电磁干扰(EMI)是芯片对环境产生的噪音,”Ansys 公司的半导体事业部首席技术专家 Norman Chang 表示,“噪声源来自有源电路,它将在电源地线和信号线上产生电流。电源线/接地线将通过封装到 PCB,如果它看到封装或 PCB 有天线结构,就会引起空中辐射,然后通过天线结构辐射到环境中并产生干扰。”
但出去的东西也会进来。“电磁敏感性(EMS)是人们不得不担心的一个新问题,” Norman Chang 指出,“电力注入测试是从 150kHz 开始注入 1W 电量,一直到 1GHz。在每个频率,你将向系统注入 1W 的电量。如果你没有足够的保护,就会破坏沿路径进入芯片的电路。测试的目的不是为了破坏芯片,而是测试这种噪声是否会影响电路。或者引脚处的电压可能过高,如果电压过高,则会产生过电应变。”
死于操作
此时,芯片已经到达“现场”并被认为是可以工作的。“可靠性是个大问题,”Microchip 公司模拟电源和接口部门的首席产品营销工程师 Fionn Sheerin 指出,“在很多情况下,糟糕的热设计并不会导致瞬间灾难性的故障,甚至不会产生平庸的产品。但是它会使器件的使用寿命缩短。观察布局中的热点或最佳布局实践以及良好的层次规划可能会产生不同的效果。这也是验证和可靠性测试真正重要的地方,同时也是汽车应用的功能安全问题。”
西门子 Mentor 事业部的产品营销总监 Joe Davis 也赞同这一观点,“发热导致的问题不仅仅是你的手机在口袋里变热。它会导致晶体管和它们之间的连接退化。这会影响性能和可靠性。”
热量由两个来源产生,“首先是路由层,” Jerry Zhao 分析表示,“这是与导线中的电流有关的热量。模拟电路的电流比数字电路大。因此,模拟电路的设计人员不得不担心的一个问题就是,如果温度过高,会使电线熔化;第二个来源是晶体管。当我们迁移到 finFET 时,其中一个新的现象是自热。热量沿着弱电阻路径运动,然后从晶体管的散热片中垂直逸出,这会增加电线中的热量。”
当高电流和高热量聚集在一起时,电迁移效应会慢慢损坏导线。同样地,负偏压温度不稳定性(NBTI)等物理效应也会有同样的效果。当电流很大时会对器件产生应力,如果持续足够长的时间,则会导致永久性损伤。
结论
本文仅仅包含了芯片从设计到产品,再到产品的整个生命周期中所面临的一些挑战。
芯片的工作环境恶劣,半导体行业已经学会了如何应对这些挑战。但随着制造尺寸越来越小或采用了新的封装技术,新的问题随之出现。有时,这些新的影响会导致器件失败故障。但从历史上看,该行业很快学会了规避新的问题或将问题最小化的方法。
原文:https://semiengineering.com/why-chips-die/
文章来源: CSDN 翻译
免责声明:本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并按国家标准支付稿酬或立即删除内容!本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。