ISO 26262中对“Functional Safety, 功能安全”的定义如下:Absence of unreasonable risk due to hazards caused by malfunctioning behavior of E/E systems.(不存在由电子电气系统的功能异常表现引起的危害而导致不合理的风险)。而从本质上来讲,电子电器系统的功能异常表现由两类失效引起:
从这个角度,可以认为功能安全的目标就是将电子电器系统的随机硬件失效和系统性失效控制在合理的(或者说可接受的)范围内。适当且充分的安全分析可以帮助功能安全开发更好地实现这一目标。安全分析方法包含两类:ISO 26262标准中对这两类分析方法分别推荐了FMEA (Failure Mode and Effects Analysis)和FTA (Fault Tree Analysis)。另一方面,ISO 26262中对功能安全开发的要求既有定性分析的要求,也有定量分析的要求。当试图将这些要求与分析方法对应时存在着一些误解,认为FMEA只能用于定性分析,而FTA则只用于定量分析,其实不然。作为两种被很多行业广泛使用的分析方法,FMEA和FTA均既能用于定量分析也能用于定性分析,只是不同行业会基于不同的目标加以筛选使用。而实际上在功能安全开发过程中,FMEA和FTA的定量分析和定性分析均所有体现且发挥着不同的作用。本文将对这一点进行说明。1.FMEA中的定性分析与定量分析
1.1.FMEA简介
FMEA(Failure Mode and Effects Analysis)历史悠久,最早于1949年在美国军事装备开发中提出,后来形成了国际标注1977年引入汽车行业,目前被汽车行业广泛使用的标准为德国汽车工业协会VDA和美国汽车工业行动小组AIAG联合发布的“Failure Mode and Effects Analysis – FMEA Handbook”。FMEA主要针对技术风险,是对产品开发和生产流程中进行预防性质量管理的一种分析方法。FMEA分析方法最大的特点是从系统各元器件的失效原因到它们的失效对系统的影响,从而对可能造成不可接受的影响的失效原因制定优化措施,是一种“自下而上(bottom-up)”的分析方法。
FMEA 图解,自下而上的方法
1.2.FMEA与定性分析——“七步法”
在2019版的《Failure Mode and Effects Analysis – FMEA Handbook》中FMEA定性分析归纳为七步,如下图所示。
其中第1步和第7步是新版本加上去的,分别对计划和最后的文档工作进行了指导,而中间五步则是FMEA的核心。接下来将重点对这五步的关键点进行阐述。1.2.1.Structural Analysis(结构分析)
这里的结构指的是系统的结构。系统由若干个要素(element)组成,这些要素都具备相应的特征同时通过一定的关系与其他要素相互联系。同时系统具有将系统与外界环境分开的明确的边界,并且其与环境的关系由输入和输出定义。结构分析的目的就是清晰、完整地描述产品的组成部分,包括系统的边界。在FMEA中用树状图的形式描述了整个系统中的要素。
1.2.2.Function Analysis(功能分析)
功能分析的目的是保证产品功能被适当地分配给了相应的要素,从而将产品功能和要素功能关联起来形成功能网络。而这个工作将在已经确定的系统结构树的基础上完成。
1.2.3.Failure Analysis(失效分析)
对失效的定义来源于功能定义,当功能不能被实现时即为失效。功能的失效模式可以从以下几个方面定义:Loss of function (e.g. inoperable, fails suddenly)
Degradation of function (e.g. performance loss over time)
Intermittent function (e.g. operation randomly starts/stops/starts)
Partial function (e.g. performance loss)
Unintended function (e.g. operation at the wrong time,
unintended direction, unequal performance)
Exceeding function (e.g. operation above acceptable threshold)
Delayed function (e.g. operation after unintended time interval)
一条完整的失效网包含以下三个因素,三者的关系如下。失效分析的目的是正确地识别出失效原因(failure cause)、失效模式(failure mode)和失效影响(failure effect), 从而基于功能网确定失效网。失效原因(failure cause)
失效模式(failure mode)
失效影响(failure effect)
failure mode是使要素无法满足预期功能的方式;而failure cause则为使failure mode发生的原因;failure effect被定义为failure mode所引起的后果。
1.2.4.Risk Analysis (风险分析)
风险分析的目的是通过评估风险的严重度(Severity)、频度(Occurrence)和探测度(Detection)来确定需要采取优化措施的优先级。Severity值指的是最顶层(整车层)的failure effect所造成的严重程度。简单来说,10表示最严重,0表示最不严重。
Occurrence值反映的是在为避免failure cause发生所采取的预防措施的作用下failure cause发生的可能性。简单来说,10表示发生的可能性最大,0表示可能性最小。
Detection值则反映了在产品量产释放之前采取的探测failure cause的措施的有效性。简单来说,10表示探测的有效性最差,0表示有效性最好。
1.2.5.Optimization(优化)
在确定失效网的S\O\D值后,将进行风险分析,确定需要采取优化措施的优先级。对于风险评估的标准每个公司都可能有自己的标准,有些公司用RPN值,RPN=O*D*S,根据RPN的结果大小来确定优先级。有些公司采用S*O值的结果来进行确定。不管采取哪一种评价标准,核心的目的是识别出系统中最需要优化的点。优化的目的是对需要采取进一步措施的failure cause定义新的预防措施和探测措施,以降低O/D值从而将风险降低到可接受的范围。1.3.FMEA与定量分析——FMEDA
在功能安全开发中,FMEDA(Failure Modes, Effects and Diagnostic Coverage Analysis)作为对电子元器件的随机硬件失效分析方法而被广泛熟知,而实际上FMEDA是在FMEA的“自下而上(bottom-up)”的分析思路的基础上,加入以下两部分内容发展而来的:从这个角度,可以认为FMEDA就是FMEA分析方法进行定量分析的典型应用。FMEDA的第一步是识别出电子元器件的每一个故障模式对系统造成的影响。完成这一目标需使用上节提到的FMEA定性分析步骤中的“结构分析”、“功能分析”与 “失效分析”,从而构建出功能网和失效网。当失效网确定后,有安全影响的电子元器件及其失效模式也随之确定。FMEDA的第二步是对每一个与安全相关的失效模式确定以下三个值,从而为定量分析提供数据支持(这一点在2.3.3节“FTA与FMEDA的合作”中有更进一步的说明)。 | |
| |
故障模式占比(failure mode distribution) | Reliability Engineering等手册 |
诊断覆盖率(Diagnostic Coverage) | ISO 26262,part5指南、企业know-how与专家经验 |
举例来说,假设下图中电阻R72通过标准和相关手册确定的故障模式及失效率信息如下:
λ _unsafe:电子元器件所有安全相关的总失效率λ _type:电子元器件某个故障模式下的总失效率假设R72短路会直接违背安全需求,但不会构成多点失效电路中对短路故障有监控机制且覆盖率为90%。则该失效模式的分析结果为:λ _SPF = 0 (FIT)
λ _RF = λ _type * (1-90%) = 28 * 10% = 2.8 (FIT)
λ _PMF_L = 0 (FIT)
假设R72断路不会直接违背安全需求,但是它会与另一个元器件的失效共同构成双点失效。且电路中对断路故障有监控机制且覆盖率为80%。则该失效模式的分析结果为:
λ _SPF = 0 (FIT)
λ _RF = 0 (FIT)
λ _PMF_L = λ _type * (1-80%) = 8 * 20% = 1.6 (FIT)
综上,FMEDA对R72的分析总结如下:
2.FTA中的定性分析与定量分析
2.1.FTA简介
1961年以前的安全与失效分析方法仅局限于对系统部件的失效模式何失效影响进行定性分析。但是随着系统复杂性逐渐提高,要想把每个失效模式对系统可能造成的影响理清越来越困难;与此同时,这种分析方法不适用于对系统的可靠性进行定量分析。1961年,基于可靠性理论的知识,贝尔实验室的布尔代数工程师H. Watson将带有逻辑符号的布尔模型引入失效分析方法中去定量评估控制系统的可靠性,FTA便诞生了。在波音公司首次在Minuteman I发射控制安全研究中公开使用FTA并获得很好的实践结果后,FTA随后被引入航空航天、核工程、机器人行业,几十年的发展使得FTA在评估复杂系统的安全性和可靠性方面得到了广泛的应用。2011年ISO 26262将FTA作为推荐的演绎分析法(Deductive analysis method)引入到汽车的功能安全开发中。何为演绎分析法?简单来说就是从影响出发找出到原因的“自上而下(top-down)”的分析方法。通常把顶层影响成为顶层事件或顶事件(top event),底层原因称为原始事件或底事件(primary event)。
1).识别出可能引起顶层事件非预期发生的原始事件和原始事件组合2).筛选出最有可能导致顶层事件非预期发生的原始事件或组合3).通过布尔代数理论计算导致顶层事件非预期发生的可能性2.2.FTA与定性分析——割集(cut set)
FTA的定性分析的主要作用是通过构建故障树识别顶事件与底事件之间的关系,同时识别出可能引起顶层事件非预期发生的原始事件和原始事件组合。由于FMEA是从系统的底层原因触发,因此在分析某个底层事件的某个失效模式时会假定其他底层事件都是正常状态,而不考虑与其他底层事件同时发生故障对系统顶层造成的影响,所以FMEA仅用于分析单点故障。而FTA的优势则可以分析多点故障。接下来以EPB系统(电子驻车系统,Electric Parking Brake)为例对FTA的定性分析的这一优势进行说明。搭建故障树是进行FTA定性分析的第一步,而确定顶事件是搭建故障树的第一步。在功能安全分析中,系统的Safety Goal通常定义为顶事件。选取EPB系统的一条Safety Goal为例搭建故障树并对说明FTA如何做定性分析。Safety Goal:EPB应避免错误建压而造成过高的减速度,ASIL: C这条Safety Goal对应EPB系统的动态液压制动功能。法规要求EPB能够作为第二套行车制动系统,通过拉起EPB开关,可以触发电控液压制动单元主动建压以实现最低1.5m/s2的减速度。动态液压制动功能由ESC Assy的SSM模块实现,SSM模块的功能主要包括:evaluation of the state of the vehicle (static/dynamic)
respond driver bottom intention to release and apply the parking brake
comfort functions such as automatic release and application
Requesting the dynamic deceleration function
动态液压制动功能信号链,由ESC Assy(蓝色)实现
当动态液压功能正确工作时,其信号链为:EPB开关拉起 → SSM模块计算目标减速度 → ESC响应目标减速度建压。反之,以下事件任何一个发生都会导致顶事件的发生(或门):EPB开关非错误拉起
SSM模块错误请求动态建压
ESC错误主动建压
最终搭建的故障树如下所示(此处故障树仅作示例使用,略去很多细节,与真实开发存在差距):
基于顶事件与底事件之间的关系,也就识别出了可能引起顶层事件非预期发生的原始事件和原始事件组合,也即识别出割集(cut set)。当一个原始事件即可以引起顶层事件非预期发生时,记为order=1; 当两个原始事件同时发生才会引起顶层事件非预期发生时,记为order=2,以此类推。割集结果验证了前面提到的FTA定性分析相比FMEA既可以识别单点故障又可以识别多点故障的优势。基于分析结果可以筛选出对安全目标有影响的故障以及故障的类型(单点故障或者多点故障),从而优化设计。Cut set | order |
SSM软件bug | 1 |
EE存储错误 | 1 |
(EPB开关电路错误,EPB开关监控失效) | 2 |
2.3.FTA与定量分析——SPFM, LFM, PMHF
在功能安全开发中,FTA定量分析被广泛运用于计算电子电器系统的随即硬件失效率是否满足以下两个方面的要求:1).硬件架构度量的评估(Evaluation of the hardware architectural metrics)2).随机硬件失效导致违背安全目标的评估(Evaluation of safety goal violations due to random hardware failures)
2.3.1.要求1:硬件架构度量的评估
简单来说,硬件架构度量用来评估相关项的架构应对随机硬件失效时的有效性。这些度量所针对的随机硬件失效仅限于相关项中某些安全相关电子和电气硬件元器件,即那些能对安全目标的违背或实现有显著影响的元器件,并限于这些元器件的单点故障、残余故障和潜伏故障。显示用于防止硬件架构中单点或残余故障风险的安全机制的覆盖率是否足够(单点故障度量,single-point fault metric, SPFM);
显示用于防止硬件架构中潜伏故障风险的安全机制的覆盖率是否足够(潜伏故障度量, Latent fault metric, LFM)
ISO 26262中对单点故障度量的要求如下,对ASIL A的安全目标没有要求,对ASIL B的安全目标没有强制要求,对ASIL C和ASIL D的安全目标有强制要求。ISO 26262中对潜伏故障度量的要求如下,对ASIL A的安全目标没有要求,对ASIL B的安全目标没有强制要求,对ASIL C和ASIL D的安全目标有强制要求。2.3.2.要求2:随机硬件失效导致违背安全目标的评估
简单来说,对随机硬件失效导致违背安全目标的评估是用来确定违背安全目标的残余风险已经足够低。最常用的方法为“随机硬件失效概率度量”( Probabilistic Metric for random Hardware Failures,PMHF)。PMHF表示在汽车运行周期中每小时平均失效概率。ISO 26262对PMHF的要求如下:2.3.3.FTA与FMEDA合作
FTA定量分析的目标为计算并分析电子电器系统的随机硬件失效是否满足ISO 26262对SPFM, LFM以及PMHF的要求。这一过程需要FTA和FMEDA合作完成。从微观角度讲,对于一个电子电器系统的的ECU电路图,我们可以确定电路图中所有电子元器件的失效模式与对应的失效率以及对失效的诊断覆盖率。但是,从宏观角度讲有两点需要明确:因此需要对所有电子元器件的失效模式进行分析和筛选。FTA定性分析过程中搭建的故障树中的底事件中已经识别出了能造成整车安全影响的硬件失效,将这些底事件转换成系统对硬件的需求输入给FMEDA,以构建出顶层失效与底层电子元器件故障的失效网络;失效网络确认后,通过FMEDA分析确定和安全相关的电子元器件的失效率、故障模式占比以及安全机制的诊断覆盖率,并将相关数据作为FTA的输入。在此需要指出,除了在ECU层设计安全机制外,在软件层也可以设计满足一定诊断覆盖率的安全机制(即软件监控),而这一部分在FMEDA中是没有的,它存在于FTA故障树中。因此,FTA在计算SPFM, LFM以及PMHF时,输入并不完全是来自FMEDA,而应该是FMEDA加上软件层的安全机制覆盖率。
总结
1、FMEA和FTA作为两种不同的分析方法被引入功能安全开发中,两者均能进行定性分析,也能进行定量分析;
2、FMEA进行定性分析的主要目标是从系统各元器件的失效原因到它们的失效对系统的影响,从而对造成不可接受的影响的失效原因制定优化措施;3、FMEDA作为对电子元器件的随机硬件失效分析方法,实际上是在FMEA的方法论基础上发展而来,因此可以认为FMEA的定量分析体现在FMEDA的应用中;4、FTA进行定性分析的主要作用是通过构建故障树识别顶事件与底事件之间的关系,同时识别出可能引起顶层事件非预期发生的原始事件和原始事件组合;5、确定电子电器系统的随即硬件失效是否满足ISO 26262的定量要求,通常需要借助FTA和FMEDA共同完成,FTA的底事件为FMEDA提供设计需求,FMEDA为FTA提供随机硬件失效相关的数据。
ISO 26262标准涵盖了汽车全生命周期的安全要求,但比例最大的是站在产品设计阶段这个时间节点上,考虑怎样从设计上实现产品安全,可以基于原有的功能实现安全,也可以额外添加功能,实现安全。
汽车学堂推出的《ISO 26262》功能安全标准课程,涵盖了产品全生命周期的安全学习要求,对功能安全整体管理进行讲解,包含整体的安全管理、项目内的安全管理、生产发布后的安全管理以及支持过程,从系统、硬件和软件开发设计、测试验证阶段分别进行功能安全详细讲解。
1. 能了解建立公司级整体安全管理;
2. 能理解系统设计的技术安全要求;
3. 能根据技术安全要求推导硬件安全要求;
4. 能根据技术安全要求推导软件安全要求
第一章 功能安全概要及整体管理;
第二章 功能安全系统设计;
第三章 功能安全硬件设计
第四章 功能安全软件设计
本门课程是零基础课程,拥有本科阶段学习经验的学员均可在本门课程中掌握到功能安全知识。
企业学员建议:
安全经理
项目经理
硬件工程师
软件工程师
质量工程师
备注:
1. 如果您对培训课程感兴趣,想要报名相关课程,或有些许困惑,想进一步了解课程的情况,请扫描以下二维码添加微信。加微信前请务必备注“培训课程”以表明来意,否则无法验证通过,多谢支持。
推荐阅读
CAN总线详解 |附下载
关于总线时间同步的理解
一文详解奥迪e-tron内部系统 |附下载
ID.3 和大众的电气化平台 |附下载
一文详解CAN总线错误帧|附下载
DoIP协议介绍,资料分享!
详解车载网络 OTA系统的开发|文末附下载
一文了解汽车嵌入式AUTOSAR架构|附下载
特斯拉Autopilot系统安全研究|附dbc下载