车辆多核系统失效操作安全研究

汽车电子与软件 2022-08-04 18:41

目录

01

背景介绍及现存挑战

02

先前研究回顾

03

嵌入式系统的安全机制

04

常用多核架构的安全特性

05

未来硬件软件架构的概念

06

结语


1

背景介绍及现存挑战

目前,由于功能和应用的不断发展,汽车电子电气系统(E/E systems)的复杂性不断增加,对额外的电子控制单元(ECUs) 的需求也越来越大。安全相关的驾驶系统必然是确定的标准配置。对于用户来说,驾驶系统必须是可理解的,因此它应该越简单越好。与此相比,大量的增加新功能会导致出现较高系统失效率。因此,需要针对软件的复杂性进行相应的安全分析。


如制动或转向功能,传统的车辆功能及其的未来应用将逐步被没有机械后备(Fallback)的电子系统取代。自动驾驶电子线控(X-by-Wire)便是这一趋势的产物。在车辆电子系统中,有一些是安全相关的,特别是动力和底盘功能系统,如果这些系统发生故障,就会引发整车层面的失效,从而造成一系列危险情况,如车辆非预期的加速。有鉴于此,ISO 26262中规定应通过明确的安全分析来导出相应的安全要求,以便实现基于硬件和软件的故障探测和控制机制。


在高度集成的多核系统中,交叉开关(Crossbar)过度争用可能是导致内核故障的原因。发生故障的内核连续阻塞整个系统请求接口(SRI)的交叉开关(Crossbar)的部分调度,受阻塞的调度继而影响其他内核的输入/输出(I/O)以及内存访问,这将潜在地导致执行速度大幅下降。另外,由于各个内核之间存在功能上的依赖关系,一个内核的故障也可能影响系统行为。如果AUTOSAR标准中规定的基础软件(Basic Software)在故障的内核上运行,则其他内核将无法访问外设。更有甚者,倘若与其他内核存在功能依赖关系的内核发生故障,这可能会造成系统部分或完全破坏。


本文的主要贡献在于提出了用于失效操作(fail-operational)的汽车E/E系统的架构。为此,许多整车制造商(OME)、半导体供应商、工具供应商以及大学致力于从概念层面改进软件实现和硬件架构。在这篇文章中,提出了重要的概念设计和想法。


2

先前研究回顾

编码处理(Coded processing)方案可以通过在软件中增加冗余来减少硬件冗余。对于实现编码处理的失效安全(fail-safe)系统和fail-operational系统,可以估算平均故障时间(MTTF)的改进。这种方法可显著延长fail-safe系统的MTTF,但对fail-operational系统的MTTF影响不大,因此我们难以充分论证这种方法所需的算力损耗。


文章提出了一种新颖灵活的微控制器架构,可用于fail-safe与fail-operational系统。该微控制器架构符合IEC 61508和ISO 26262的相关规定,并通过预先认证的硬件故障监控器以降低成本。该方法要求半导体厂商优化硬件结构,使其符合功能安全要求。文章重点关注ECU的硬件架构,而我们的文章重点在软件概念,同时综合考虑了车辆的网络以及通信架构。


文章提出了另一种方法,即系统层面简单架构。通过硬件/软件协同设计,该架构能对逻辑应用层故障,以及如实时操作系统(RTOS)和微处理器等相关层的故障提供fail-operational保证。


文章回顾了应用于工业领域的故障容错(fault-tolerant)架构的相关研究,此外还提出了低成本的双锁步(lockstep)平台,可应用在要求单点fail-operational的单元或双点失效静默(fail-silent)通道。


文章同时概述了电子驾驶辅助系统以及具备或不具备机械后备(Fallback)的电子线控系统,作者充分考虑到不同冗余方式的fault-tolerance原则,从而产生了fail-operational、fail-silent和fail-safe系统。

3

嵌入式系统的安全机制

在安全相关的嵌入式系统中,特别是车辆实时系统,制动和转向功能即使在系统发生局部故障失效时也必须得到保证。为避免系统失效或将系统失效降至最低,常规做法是风险最小化。一般来说,可以通过缩短操作时间或降低失效率来降低失效情况的发生概率。风险最小化的另一种方法是实现改进的控制策略,如安全关机,或者实现更高的容错性。安全关机应用于fail-silent或fail-safe系统,而高容错性系统主要应用于fail-operational系统。Fail-operational本身可以通过多样性或冗余来实现。

图1呈现了这些方法:

图1.最小化风险实现


A  Fail-Safe

在Fail-Safe场景中,当检测到不可容忍故障时,E/E系统切换到系统安全状态。该系统存在两种不同的状态,即不受影响继续运行,或者是停止运行。此外,如果发生瞬态故障,系统停止运行后重启。在考虑失效系统时,需要采取额外措施使其具有容错性


在常见的多核处理器中,同时并行的运行同一组操作的锁步核有助于实现冗余系统。典型的车辆故障安全系统包括防抱死制动系统(ABS),牵引力控制系统(ASR),电子稳定控制系统(ESC)及制动辅助系统(BA)

Fail-safe架构概述如图2所示:


图2.Fail-Safe架构


B  Fail-Operational

与fail-safe系统对比,如果在发生故障时关闭Fail-Operational系统,由于关键的安全目标无法得到满足,会导致危险的系统行为。这种情况下,为了实现替代和安全执行,额外的fault-tolerance措施必不可少。


Fail-operational的行为可以通过设计多样性或冗余来实现(图1)。多样性意味着两种或更多不同的实现以完成同样的任务,功能等价,但算法、架构或实现不同。在冗余系统中,计算是由两个或多个等价的实例完成的。在下文中,我们将简要介绍fail-operational系统的可能实现方法。


2oo3架构

冗余故障操作架构的典型代表是2oo3决策,这也被称为具有表决功能的三模冗余(Triple Modular Redundancy, TMR),是航空电子领域和多安全相关系统的代表性参考架构。在这种架构中,三个子系统独立计算各自的结果,然后,对三个子系统输出的结果进行比较,如果至少有两个结果相同,则输出为真(图3)。建议每个单元和表决单元使用独立的电源。如果考虑通信总线,这种方法是否适用于车辆系统严重依赖于通信速率。对于较慢的数据输出速率,实现的复杂性是可接受的。相比之下,对于高速以太网来说,它要复杂得多。

2oo3架构如图3所示:

图3.2oo3架构


2oo2DFS架构

2oo2 DFS架构将主系统分成两个子系统,它们可以是等价的,也可以是不同的。每个子系统被设计成fail-safe系统,并使用自己的监控概念检测其自身的错误(Fail-Safe (FS))。此外,该系统可以监测另外一个子系统,以便在失效情况发生时采取适当的措施(Diagnosis (D))。如图4所示,该架构意味着每个子系统具备独立的电源,展现了一种车辆系统fail-operational的方法。该系统既可以设计为全冗余系统,也可以设计为所谓的由主控制系统和备用系统组成的跛行系统(Limp-Home system)。具体架构方案可由每个通道中的软件设计,或由实现部分或完全冗余的输入拓扑达成。此外,如果架构方案不需要在同一个ECU上实现,可以使用两个独立控制器或主/从方法。

2oo2DFS系统架构如图4所示:

图4.2oo2DFS系统架构

4

常用多核架构的安全特性

当代汽车ECU的功能高度集成化可以通过高性能多核处理器实现。然而,将它们整合到新的架构中是一项更加困难和富有挑战性的任务。


Fail-operational系统需要对应的ECU硬件设计,用于处理失效和系统的非预期行为。为实现这一点,半导体供应商提供了多种安全特性和全面的错误管理设计。锁步核可以检测CPU(中央处理器)的随机硬件故障,而内存和总线的瞬态故障可以通过纠错码(ECC, Error Correcting Codes)进行保护。


多核处理器的另一个优点是提供了架构上的隔离,因此,由于采用了独立的内核,它们具有额外的独立性。该架构允许两个软件实例在不同的内核上同时运行。同时,性能提高也使集成额外的安全特性成为可能。


虽然现代微控制器应用了许多硬件安全特性,如锁步核、纠错码等,但多核处理器也存在缺点。首先,与单核CPU相比,多核处理器更易出错。CMOS内比特翻转的概率会影响计算逻辑,并可能在长期运行中导致瞬时或永久故障。此外,时序行为的可预测性和混合关键性应用程序的隔离受到共享资源的共同使用的影响。大多数的MCU非常复杂,几乎不可能预测关键软件的时序。能够运行并行算法的多核CPU也会面临更高的同步工作量的影响,尤其是当运行在不同内核上的进程并发地访问同一资源时,就可能出现竞争情况。运行在所有ECU上的整个软件代码库的复杂性治理变得难以管理。这是除了(同构)冗余之外,多样性是必要的另一个原因。当2oo2架构由不同的MCU(代码和/或硬件基础)组成时,由于软件bug或同步问题导致两个ECU同时失效的概率远低于同构架构。此外,我们的目标是确保在一个内核持有另一个内核正在等待的资源时不会出现死锁。但结果却是两个内核都被阻塞,无法继续运行。

5

未来硬件软件架构的概念

在过去,就单个ECU而言,fail-safe行为足以应对安全问题。对于fail-operational系统,焦点转移到系统层面。由于ECU的独立性只能在系统层面得到保证,没有明确系统边界的情况下,无法实现冗余或n取m决策(m-out-of-n)。如果我们觉得无法证实新ECU的存在价值,可以预见,冗余将通过把不同的功能集成到多个域控制单元(DCU)来实现,这一方面凸显了系统视角的重要性,另一方面将给汽车制造商带来新的挑战。


A  新软件层

失效操作(Fail-Operational)系统利用冗余计算资源实现其功能。整个系统必须知道不同子系统的状态才能采取相应的行动,这就需要一个安全的通信层,它不仅能够交换数据,还能够控制消息流。例如,如果一个子系统生成了错误的数据,为保持系统稳定性,就必须停止传播这一错误数据。最后,必须实现分布式逻辑来处理不同类型的故障。


通过使用更多域控制器来减少单个ECU数量的方法需要新的fail-operational概念,以便在一个控制器中实现冗余系统。下面的小节将我们将对硬件和软件架构设计的一些相关概念进行概述。


B  多核架构相关概念

未来的fail-operational系统需要改进的软件设计,下面的讨论中介绍了一些不同的方法。


用于自动驾驶汽车EPS的 2oo2 DFS架构

在这种方法中,所谓的自动驾驶ECU将两个独立的锁步MCU作为2oo2DFS架构的基础。两个输出信号代表EPS ECU的冗余输入信号,同时EPS ECU也被设计为2oo2DFS系统。每个ECU也可设计为仅支持跛行系统(Limp-Home),例如一个仅提供基本功能的8位小CPU被用作备份系统。但是,MCU使用同一电路板上的两个物理隔离的CPU(图 5)。通常情况下,衡量系统可靠性的指标称为平均故障间隔时间(Mean Time Between Failures,MTBF),它表示平均故障前时间(Mean Time To Failure,MTTF)和平均故障修复时间(Mean Time To Repair,MTTR)的总和。对于Fail-safe系统,针对瞬时故障采取系统重启等修复措施。2oo2DFS方法通过缩短MTBF提高了整个系统的可靠性。第二个子系统可以直接替换失效子系统的功能,从而缩短整个系统的MTTR。由于采用了fail-operational方案,延长了MTTF。同时,与fail-safe系统相比,该系统的容错能力更高。

自动驾驶汽车中的2oo2DFS架构如图5所

图5.自动驾驶汽车中的2oo2DFS架构


高度集成的多核ECU中的2oo2DFS架构

此架构类似于1)中提出的 2oo2DFS。相比之下,ECU利用单个多核芯片设计成冗余系统。该架构需要为多核CPU提供多个电源,例如,每个内核一个电源。此外,硬件架构必须能够支持每个内核的复位机制,以便在出现失效时重启(图6)。从软件层面看,应该尽可能只复位最小受影响部分,即故障数据或控制流处理器指令序列(control flow processor instruction sequence),尽可能保持较高的整体可用性。如果ECU的其中一个内核发生故障,则必须由另一个内核检测到这一故障,剩余的内核才可以发挥备用系统的作用。因此,两个内核必须持续地相互监控。两个内核都通过芯内互连连接到总线接口。冗余总线连接能够确保传输数据到其他的ECU,为防止失效传播,失效的内核必须与系统隔离并断开连接,这就意味着要将失效的内核与芯片内部的互连断开,并关闭失效内核的电源。总而言之,这种方法大有可为,因为它不仅降低了现代车辆的成本和重量,同时提高了可靠性和可用性。图7呈现了一种更面向软件的方法。具有不同安全要求的应用程序封装在虚拟机(Virtual Machine, VM)中。(图7)显示了一个具有三个内核的示例,每个内核执行一个客户操作系统。客户操作系统使用不同的传感器信号,这些信号直接路由到对应的VM。为实现与外设及虚拟机间的通信,每个内核都配备虚拟机监视器(hypervisor)。两级2oo3表决器被用于VM输出(L1)的安全机制以及作为安全机制的监控(L2)。后者控制执行器。其优点之一便是,瞬时故障发生时,可以复位VM。此外,VM可以托管不同的、独立的且彼此完全隔离的操作系统。因此,当主系统在另一VM中执行时,Limp-Home功能能够在VM中运行。

高度集成电子控制装置中的2oo2DFS如图6所

图6.高度集成电子控制装置中的2oo2DFS


高度集成电子控制装置中的流程虚拟化如图7所

图7.高度集成电子控制装置中的流程虚拟化

6

结语

对汽车工程师来说,从fail-safe到fail-operational的转变是一个长期存在且无法避免的巨大挑战。汽车多核处理器的通用硬件架构提供了大量的安全特性,这些特性是fail-operational实现的先决条件。在我们的合作工作中,我们开发了新概念来实现此类系统新功能,如自动驾驶和电子线控等。本文展示了一些有关如何设计未来的fail-operational架构的概念及想法。特别是,我们认为2oo2DFS架构应用灵活,具有广阔前景

END

免责声明:如涉及侵权请及时与我们联系反馈,我们会在第一时间做更正声明或做删除处理。文章版权及解释权归原作者及发布单位所有,仅供参考学习。





汽车电子与软件 主要介绍汽车电子软件设计相关内容,每天分享一篇技术文章!
评论
  • 流量传感器是实现对燃气、废气、生活用水、污水、冷却液、石油等各种流体流量精准计量的关键手段。但随着工业自动化、数字化、智能化与低碳化进程的不断加速,采用传统机械式检测方式的流量传感器已不能满足当代流体计量行业对于测量精度、测量范围、使用寿命与维护成本等方面的精细需求。流量传感器的应用场景(部分)超声波流量传感器,是一种利用超声波技术测量流体流量的新型传感器,其主要通过发射超声波信号并接收反射回来的信号,根据超声波在流体中传播的时间、幅度或相位变化等参数,间接计算流体的流量,具有非侵入式测量、高精
    华普微HOPERF 2025-01-13 14:18 482浏览
  • 数字隔离芯片是现代电气工程师在进行电路设计时所必须考虑的一种电子元件,主要用于保护低压控制电路中敏感电子设备的稳定运行与操作人员的人身安全。其不仅能隔离两个或多个高低压回路之间的电气联系,还能防止漏电流、共模噪声与浪涌等干扰信号的传播,有效增强电路间信号传输的抗干扰能力,同时提升电子系统的电磁兼容性与通信稳定性。容耦隔离芯片的典型应用原理图值得一提的是,在电子电路中引入隔离措施会带来传输延迟、功耗增加、成本增加与尺寸增加等问题,而数字隔离芯片的目标就是尽可能消除这些不利影响,同时满足安全法规的要
    华普微HOPERF 2025-01-15 09:48 83浏览
  • ARMv8-A是ARM公司为满足新需求而重新设计的一个架构,是近20年来ARM架构变动最大的一次。以下是对ARMv8-A的详细介绍: 1. 背景介绍    ARM公司最初并未涉足PC市场,其产品主要针对功耗敏感的移动设备。     随着技术的发展和市场需求的变化,ARM开始扩展到企业设备、服务器等领域,这要求其架构能够支持更大的内存和更复杂的计算任务。 2. 架构特点    ARMv8-A引入了Execution State(执行状
    丙丁先生 2025-01-12 10:30 466浏览
  • 根据Global Info Research(环洋市场咨询)项目团队最新调研,预计2030年全球无人机电池和电源产值达到2834百万美元,2024-2030年期间年复合增长率CAGR为10.1%。 无人机电池是为无人机提供动力并使其飞行的关键。无人机使用的电池类型因无人机的大小和型号而异。一些常见的无人机电池类型包括锂聚合物(LiPo)电池、锂离子电池和镍氢(NiMH)电池。锂聚合物电池是最常用的无人机电池类型,因为其能量密度高、设计轻巧。这些电池以输出功率大、飞行时间长而著称。不过,它们需要
    GIRtina 2025-01-13 10:49 193浏览
  • 食物浪费已成为全球亟待解决的严峻挑战,并对环境和经济造成了重大影响。最新统计数据显示,全球高达三分之一的粮食在生产过程中损失或被无谓浪费,这不仅导致了资源消耗,还加剧了温室气体排放,并带来了巨大经济损失。全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,艾迈斯欧司朗基于AS7341多光谱传感器开发的创新应用来解决食物浪费这一全球性难题。其多光谱传感解决方案为农业与食品行业带来深远变革,该技术通过精确判定最佳收获时机,提升质量控制水平,并在整个供应链中有效减少浪费。 在2024
    艾迈斯欧司朗 2025-01-14 18:45 66浏览
  • PNT、GNSS、GPS均是卫星定位和导航相关领域中的常见缩写词,他们经常会被用到,且在很多情况下会被等同使用或替换使用。我们会把定位导航功能测试叫做PNT性能测试,也会叫做GNSS性能测试。我们会把定位导航终端叫做GNSS模块,也会叫做GPS模块。但是实际上他们之间是有一些重要的区别。伴随着技术发展与越发深入,我们有必要对这三个词汇做以清晰的区分。一、什么是GPS?GPS是Global Positioning System(全球定位系统)的缩写,它是美国建立的全球卫星定位导航系统,是GNSS概
    德思特测试测量 2025-01-13 15:42 495浏览
  • 新年伊始,又到了对去年做总结,对今年做展望的时刻 不知道你在2024年初立的Flag都实现了吗? 2025年对自己又有什么新的期待呢? 2024年注定是不平凡的一年, 一年里我测评了50余块开发板, 写出了很多科普文章, 从一个小小的工作室成长为科工公司。 展望2025年, 中国香河英茂科工, 会继续深耕于,具身机器人、飞行器、物联网等方面的研发, 我觉得,要向未来学习未来, 未来是什么? 是掌握在孩子们生活中的发现,和精历, 把最好的技术带给孩子,
    丙丁先生 2025-01-11 11:35 457浏览
  •   在信号处理过程中,由于信号的时域截断会导致频谱扩展泄露现象。那么导致频谱泄露发生的根本原因是什么?又该采取什么样的改善方法。本文以ADC性能指标的测试场景为例,探讨了对ADC的输出结果进行非周期截断所带来的影响及问题总结。 两个点   为了更好的分析或处理信号,实际应用时需要从频域而非时域的角度观察原信号。但物理意义上只能直接获取信号的时域信息,为了得到信号的频域信息需要利用傅里叶变换这个工具计算出原信号的频谱函数。但对于计算机来说实现这种计算需要面对两个问题: 1.
    TIAN301 2025-01-14 14:15 108浏览
  • 01. 什么是过程能力分析?过程能力研究利用生产过程中初始一批产品的数据,预测制造过程是否能够稳定地生产符合规格的产品。可以把它想象成一种预测。通过历史数据的分析,推断未来是否可以依赖该工艺持续生产高质量产品。客户可能会要求将过程能力研究作为生产件批准程序 (PPAP) 的一部分。这是为了确保制造过程能够持续稳定地生产合格的产品。02. 基本概念在定义制造过程时,目标是确保生产的零件符合上下规格限 (USL 和 LSL)。过程能力衡量制造过程能多大程度上稳定地生产符合规格的产品。核心概念很简单:
    优思学院 2025-01-12 15:43 525浏览
  • 随着数字化的不断推进,LED显示屏行业对4K、8K等超高清画质的需求日益提升。与此同时,Mini及Micro LED技术的日益成熟,推动了间距小于1.2 Pitch的Mini、Micro LED显示屏的快速发展。这类显示屏不仅画质卓越,而且尺寸适中,通常在110至1000英寸之间,非常适合应用于电影院、监控中心、大型会议、以及电影拍摄等多种室内场景。鉴于室内LED显示屏与用户距离较近,因此对于噪音控制、体积小型化、冗余备份能力及电气安全性的要求尤为严格。为满足这一市场需求,开关电源技术推出了专为
    晶台光耦 2025-01-13 10:42 504浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦