智能汽车安全新媒体
功能安全是一个在其他业界老早就有的概念。最近比较火基本上都是感谢ISO26262对车用的规范。所以好吧,既然饭碗就是要提车用功能安全,那就来提这壶茶来勾引你一下~但在你继续读下去之前。
我先告知,如果你就是纯粹为了拿证书的话,请不要浪费时间读这篇了。去和你认证单位的审核老师喝茶比较重要 - 他八成有人家做过的样本,也有一堆自动化公式模板,也可以就你的数字轻轻放过或仔细的鸡蛋里挑骨头。
而如果你真的是一个热血工程师,虽然当不了超人但希望可以透过你的工程研发超能力来拯救那无辜大众的生命的话,那你来对地方来。请慢慢细读也欢迎和我就这个题材探讨-让我们共同进步!
01
ISO26262对失效之定义
这段落先以ISO26262的角度来看失效。我会提供几个范例,但我不会注重在这些范例。这些范例目的只是让你知道ISO26262是如何定义和规范失效。
ISO 26262对系统失效之定义
在这个大框架下ISO26262透过数字化来定义一个系统的可靠性(ASIL A/B/C/D)和规范从设计到验证等等需要完成的工作。
ISO26262-5:2018 7.4.1.6 Table 1
ISO26262-5:2018 7.4.3.1 Table 2
ISO26262-5:2018 10.4.5 Table 11
而当然其中大家最常讨论的就是从Probabilistic Metric for random Hardware Failure(PMHF)来的ASIL等级。
ISO26262-5:2018 9.4.2.2 Table 6 加上FIT注释
就ISO26262对失效讨论我就先停在这里。如一开始就说的,这篇目的不是讨论规范。而是在这些规范下要如何评估失效。
所以简单来说,身为一个研发人员,你有一个失效的目标。规范中写了一篇研发流程和验证的规定。然后呢?ISO26262-5:2018甚至有就失效模式,其SM,和FIT技术都还提供范例。依样画葫芦就好了吗?
02
随机性失效模式
由于系统性失效一般研发人员应该已经够明白了,不懂的话回去问老师或公司大神。接下来我们主要为讨论随机性失效。这个品管同仁们应该是倒背如流而且可以告诉你一票客诉/退货/等等但无法反显其错误/失效的案例。
失效之浴缸曲线图
基本上依据上图,我们可以把失效归为两类。一类是身为研发人员IC/或系统可以做些什么的,另一类(如infant mortaility)是挑对供应商如(晶圆代工/封装厂)就可以压低的。这个题目本身也太广所以我们再进一步就较为少人讨论由于辐射效应导致的软失效(还记得这篇题目是“单粒子反转效应”吗?)来继续讨论。
商业应用辐射来源
所以由于单粒子反转引起的商业应用失效来源如下 - 航太需要评估的proton, heavy-ion等等的这篇不讨论。等我写有关航太应用-譬如低轨卫星什么的再讨论~商业应用定义依照JESD89来说为高度0~4公里之应用。
1.中子(Neutron) - 从那遥远的太阳和宇宙中来的辐射源导致的中子。而这个辐射效应又分高能量(high energy neutron)和低能量中子(thermal neutron)。重点是ISO26262里面提到的JESD89规范有就这两个中子效应讨论。这也是如果人家要是懂得话,你拿proton数字或单一能量(mono-energy neutron)的测试数字是不会被专家买单的。因为那些加速辐射测试无法准确模拟大气环境。好了 - 刚刚那段应该有点难啃。简单来说就是你要考虑中子造成的失效。
2. Alpha - 这个主要来源在于封装还有原料。所以你会听到有人会号称自己用了ULA (ultra low lead alpha)来确保由于在链接Die的C4 bump等等中由于alpha导致的失效可以被降到最低。这个也是有些晶圆代工厂的silicon-on-insulator(SOI)号称可以解决掉alpha导致的失效的点。而有些厂家也会用这个来作弊 - 利用alpha失效数字替代中子失效数字来忽悠。
封装材料之Alpha来源
好了,在这里有人会问,我东西放在车里面或放在层层水泥保护的高楼中。凭什么我要考虑中子?是的。如个你有去做过加速中子测试的话,请你就躲在你觉得可以保护你的铁板或水泥块后面。Flux开下去,你敢在里面待个一小时后我们再讨论。
实际面来说,大气环境中的中子能量太高。层层的水泥的确可以attenuate但无法完全中断辐射导致的失效。除非你用铅或挖个深深的地洞 (的确有这样的实验室可以用来确认Alpha导致的失效率),否则你还是要考虑中子导致的失效。
我也可以告诉你我就被(非车用)客户叫去就这个问题解释并告诉为什么他们在大楼中的系统会失效还要重启以及要如何透过设计来保护。
辐射导致的失效模式
既然辐射会导致失效,那我们需要考虑什么失效呢?辐射可以导致的失效基本上可以分为3大类:dose effect, dose-rate effects以及single event effects (SEE). 在商业应用来说。我们考虑SEE即可。
辐射失效模式之关联性
而SEE可以导致的失效又再分为毁灭性(Desctructive)和非毁灭性失效(Non-destructive). 這兩塊可以再進一步細分。
毁灭性((Destructive)
Single Event Hard Error (SHE)
Signel Event Latchup (SEL)
Single Event Snap Back (SESB)
Single Event Burnout (SEB)
Single Event Gate Rupture (SEGR)
Single Event Dielectric Dupture (SEDR)
非毁灭性((Non-Destructive)
Single Event Upset (SEU)
Multible Bits Upset (MBU)
Multiple Cells Upset (MCU)
Single Event Functional Interrupt (SEFI)
Single Event Transient (SET)
Single Event Disturb (SED)
下图列出常见辐射对器件产生的效应。要特别留意的是这个是参考。工艺,厂家,设计都有会导致差异。譬如说FPGA或ASIC也有SET问题,但相较SEU,SET问题简直是小巫见大巫,所以基本上可以忽略。又或是Microprosessors就没有SEL问题了吗?这个也是要看厂家。不过一般来说商业应用基本上比较少需要评估毁灭性失效。不是没有,而是真的很少。
各器件常見輻射效應失效模式
非毁灭性SEE之进一步讨论 - 从ISO26262的Diagnotic Coverage来看
接下来我们就非毁灭性SEE的几个案例再讨论。主要目的为让你知道为什么我在其他几篇文章里面对ISO26262的Diagnostic Coverage的滥用极度不满。我最常见到的就是研发人员会号称他们做了ECC所以失效的FIT基本可以忽略。但是问题来了。
在90nm以下,特别是SRAM,MBU基本上已经摧毁大部分ECC的保护机制。因为大部分ECC都是single error correct double errors detect (SECDEC)。而比较硬的Flash呢?大部分问题是更严重的来自譬如说BIST的SEFI。
MBU和SEFI之概念
IBM SRAM之MBU相关数字参考
在上图"IBM SRAM之MBU相关数字参考"中我没有细列其他相关信息如电压, Std Cell信息(如4T/6T等等),但这个数值离业界常见数字其实不远。
当在65nm时候,已经大约有25%辐射导致的SEE为MBU,所以ECC其实基本上反而变成比较复杂的CRC。而在40nm甚至更先进制程,这个数字已经到达40%以上,这还是假设我们辐射源角度和器件角度为90度。
03
小结
这篇是目前我写最多的。但我写烦了。如果你是直接跳到这里,这篇基本上就是简单介绍辐射效应会导致的失效。我下一篇会进一步就辐射会如何对IC和系统失效继续讨论 - 为什么ISO26262那套失效模式分析的理论真的是又臭又长还和实际失效一点都搭不上边。
譬如说业界认证单位总是告诉你random failure中的transient error就是暂态性失效。而我会告诉你实际上那个就是不懂的人说的鬼话。
又譬如说ISO26262写了一堆就processor失效和保护的分析但实际测试告诉你那个理论值真的就是做给认证单位看的。
内容来源:知乎ChenWeiT
www.zhihu.com/people/chenweit1978
- THE END -
专业社群
精品活动推荐
因文章部分文字及图片涉及到引用,如有侵权,请及时联系17316577586,我们将删除内容以保证您的权益。