2.2 神经网络处理器混合计算容错架构
神经网络处理器的可靠性对于车载人工智能应用至关重要。为在线检测处理单元阵列中的处理引擎(PE)故障并实现实时容错,本文设计了一个统一的混合计算容错架构HyCA来容忍PE的多种故障配置[15]。
如图2所示,在常规的二维计算阵列外部署了一个点积处理单元DPPU,用于重新计算映射到出现错误的PE的所有操作,其中出错的PE可以在计算阵列的任意位置。当DPPU的大小大于二维计算阵列中故障PE的数量时,DPPU总能在新的权重和输入数据就绪之前完成重计算任务。
针对工艺偏差、电源噪声等引起的小时延缺陷的测试,构建了电路的统计时延模型,在统计时延模型下,小时延缺陷的测试路径选择问题形式化为:从条电路总通路数选择条通路进行小时延缺陷测试,使时延失效捕获概率最高,其本质是一个最小集合交集求解问题。国际上基于蒙特卡洛的测试路径选择方法产生个电路实例来模拟,计算复杂度为。而将测试路径选择问题转换为了最小集合交集问题,计算复杂度为,因此计算时间相比于国际上的蒙特卡洛方法显著降低,且可以获得与前者相当的小时延缺陷测试覆盖率。进一步,本文基于精确小信号串扰源故障模型来指导设计与测试,其中为关键通路,为关键通路上的一条受害线,为导致发生串扰减速效应的侵略线,是传播侵略跳变到所用的子通路。为保证准确测试串扰效应,线,发生跳变的时间窗必须在指定工艺参数下重叠,且两线必须以相反方向跳变。PCPDF模型巧妙地将串扰的逻辑约束和时间约束统一表征,在测试生成中确保侵略跳变和受害跳变是沿着故障模型中指定的路径传播到发生串扰的故障点,从而能保证生成的测试向量一定激活了故障模型中期望的串扰效应。与国际上的CTF[17]和CPDF[18]串扰故障模型相比,基于PCPDF模型的测试具有更高的串扰故障测试覆盖率,可应用于EDA流程中进行考虑布线和时延的串扰故障收集、物理设计优化和自动测试生成,如图3所示,对AECQ-100标准未能考虑的串扰故障进行精准分析和测试。
基于上述攻关成果,本文采用40 nm车规级工艺实现一款车载核心控制芯片,芯片版图见图5。经第三方测试,该芯片集成4核功能安全处理器核,计算性能大于3000DMIPS,智能计算能力大于1TOPS,可靠性达AEC-Q100 Grade-1等级,功能安全满足ISO26262 ASIL-D 等级要求,与现有技术相比,执行效率显著提升近两个数量级,减少多核处理器的吞吐量损失达30%,将安全机制的性能开销和面积开销减少20%以上,在大幅提升计算性能的同时,显著提升芯片的可靠性与功能安全性水平,能够满足未来智能汽车的电子电气架构向集中化演进的技术需求。
3 车控操作系统的可靠性与功能安全性关键技术
智能汽车传感器的种类和功能愈加多样,自动化程度越来越高,为保障汽车行驶的安全性与舒适性,对车控操作系统的多任务管理能力和实时性提出了更高的挑战,但传统车控操作系统存在实时性差、随机故障严重、多任务不确定性等瓶颈问题。因此,我国亟需开展车载操作系统的高可靠性与高安全设计和实现技术研究。
3.1 支持安全控制、智能驾驶的一体化操作系统架构
高度变化的需求、智能化的持续演进、车载硬件和软件系统复杂程度的提升对车控操作系统的性能、可扩展性、易用性、系统可靠性提出了严峻的挑战。智能新能源车控操作系统运行基础是异构、分布式计算平台,既须满足安全车控操作系统的高安全(通常安全等级是ASIL-D)等功能和特点,还须提供高性能、高可靠的计算、传感、时间同步、分布式通信等功能以支持自动驾驶感知、规划、决策与控制的实现。车控操作系统总体架构与电子电气架构的革新和对应的车载计算架构相辅相成,因此从整个驾驶闭环角度,将安全车控操作系统与智能驾驶操作系统进行整体架构研究。
本文设计的车控操作系统采用纵向分层、横向分区式架构如图6所示。在逻辑层次上包含系统软件和功能软件框架,是车载智能计算基础平台安全、实时、高效的核心和基础。系统软件创建复杂嵌入式系统运行环境,可以实现与Classic和Adaptive两个平台的兼容和交互。功能软件根据智能网联汽车应用特点,以及各类辅助驾驶/自动驾驶功能的核心共性需求,明确定义和实现各共性子模块,并进行通用模块定义和实现。
上述车控操作系统架构的特色体现在既能够兼容Classic AUTOSAR平台,基于Classic AUTOSAR平台的扩展满足高安全、强实时控制要求,又能够与Adaptive AUTOSAR平台适配,满足新能源汽车复杂行驶场景下感知、决策及控制的要求。
3.2 车控操作系统关键技术
3.2.1 智能新能源汽车高安全决策方法
智能汽车的决策及控制是车辆安全行驶的基础,尤其是复杂交通场景下安全高效的决策及控制方法。基于深度学习、强化学习的智能汽车决策模块中,通常会建立复杂场景下行驶安全模型,并根据安全模型确定或学习安全决策机制。一般采用的方法是建立能量函数形式的安全模型,但满足车辆强安全约束的完美的能量函数安全模型通常难以获得,因此影响到决策的安全性和效率。本文提出了一种在通用复杂场景零状态约束违反的安全控制策略,同时进行安全模型和安全策略学习的智能汽车安全决策方法[20]。
针对难以得到合适的安全模型函数的困难,提出一种基于控制闸函数能量函数的安全模型。能量函数
而一个完备的能量函数要求系统在任意时刻安全动作集合都不为空集,即
因此,建立一个损失函数,通过最小化损失函数使其在状态空间中任意状态都存在非空安全动作集合:
如果能量函数设计是完备的,该损失函数会降为0。
在安全策略学习的部分,本文建立了一种约束强化学习方法,在最大化期望奖励的同时保证安全控制约束(即使系统安全能量函数下降):
同时提出使用拉格朗日对偶梯度上升法来求解这样的约束型强化学习问题,构建拉格朗日函数并计算其最优值。
本文进一步将安全模型学习和安全决策学习合并为同一优化问题。对于最优的策略和拉格朗日乘子对,最优条件(KKT条件)使只有约束一定被违反时,拉格朗日函数的后半部分不为0。因此,可以得到两个优化问题的损失函数实际上线性相关:
进而可以证明两个问题实际上具有相同的极小值:
在此基础上,构建安全状态增强的强化学习型能量函数生成方法[21],以及自动驾驶轨迹规划方法[22],结合周车预测结果动态调整状态约束的不确定性边界,交替迭代更新拉格朗日乘子网络与策略网络,实现了典型多车道场景(包括侧方车辆切入、前车减速、下匝道拥堵等)下安全、灵活、经济的智能决策控制[23]。
3.2.2 车控操作系统功能安全机制
本文研发的车控操作系统须满足ISO 26262功能安全要求,须据此进行操作系统故障分析及功能安全设计的研究。
首先采用FEMA方法对车控操作系统的故障进行分析。所研制的安全车控操作系统主要包括以下组件:基本功能、保护功能、平台依赖、配置信息。每个组件包含若干子模块,子模块又包含系统调用接口函数,按层次由高到低划分为:系统—模块—接口函数。对基本功能组件中的各个模块以接口函数为粒度进行软件故障分析,本文结合ISO 26262标准、行业开发经验等生成软件故障模型。
进一步在软件故障模型的基础上,建立操作系统安全机制。针对系统软件层,设计了系统健康管理、资源管理隔离、数据通信保护等功能安全组件。针对功能软件层,设计了软件冗余、硬件冗余等安全监控组件。
综上所述,本文提出了一种多业务解耦的新能源汽车安全可靠操作系统架构与功能安全机制,研发了一个车控操作系统原型,支持对内核、通信、诊断、存储、网络管理等基础软件模块的图形化配置功能,相关工具链软件ORIENTAIS-Studio应用于ECU软件开发过程。
该操作系统原型可支持智能控制与安全控制,将ADP计算时间降至6 ms内,提高了安全车控操作系统的安全、实时性,与AUTOSAR标准兼容,支持CAN、CAN-FD、LIN、FlexRay、以太网等5种主流通信协议,中断响应时间达2.396 μs,任务实时调度时间达4.956 μs;实现了安全监控、软件冗余、数据通信保护,满足ASIL-D安全等级要求,已在量产BMS、整车、车身域等多种控制器上验证,有望实现国产操作系统的产业化上车应用。
3.2.3 车控操作系统调度算法
智能新能源汽车的控制涉及感知、决策、控制等多种算法。根据算法的复杂程度,实现单个节点的多线程,并监视每个节点进程的CPU利用率;通过Linux核心分配的工作原理(调度API),根据不同的CPU利用率,动态绑定节点进程与CPU的核数,实现算力的动态分配。在进行资源调度前,需要对算法的任务集进行确定。多处理器系统的任务集描述如下。 (1)任意可表示为一个多元组。其中:为任务的到达时间;为任务开始处理的时间;为任务所需的处理时间;为任务的截止期;为任务
一般情况下,一个调度算法不能使上述指标同时达到最优。对于实时性要求较高的系统,调度成功率最重要,应在保证调度成功率的前提下,尽可能提高其他指标,以使系统的整体性能得到优化。
指标确认后,研究优化调度算法实现算法任务的优化运行。设系统中每个资源对应一个入口,拥有两个记录变量。其中一个记录变量负责记录访问该资源的任务数,另一个则负责记录以互斥方式访问该资源的任务数。当生成一个新任务时,根据任务使用资源的情况来修改各资源所对应的这两个记录变量。以该方式分别记录该资源的被访问任务数及访问模式(专用或共享),并用资源列表记录所有资源的信息。优化的目标函数为
式中:为任务的理想最早可用时间;和为权值,分别表征任务的理想最早可用时间和运行时间对目标函数的影响程度。
总的来说,根据任务集与处理器处理能力之间的匹配关系构建任务及处理器的一般模型,分析任务数量与系统处理能力之间的关系,实现多处理器系统的动态调度。
4 车载高速光纤通信的功能安全性关键技术
智能化和电气化快速发展使汽车内部需要传输的数据量愈发增多,作为数据传输的媒介,车载网络起着关键的作用。但是传统的车载网络协议和介质具有通信带宽小、延时高和稳定性差等诸多问题,难以满足智能电动汽车的要求。目前,车载高速光纤通信是核心解决方案之一,亟需开展相关技术攻关。
4.1 车载光纤通信协议栈及调度机制设计
对于智能电动汽车而言,其搭载的网络既需要满足实时音视频的传输需求,又需要满足实时运动控制要求。然而现有通信协议及协议栈机制难以保证带宽资源和节点之间通信的实时性。本文中提出采用分层和实时调度机制结合构建光纤车载通信协议栈思路,以保证高速、实时、确定性数据传输,车载光纤通信技术的关键点是光纤、元器件和拓扑、网络协议。光纤的性能直接影响通信速率,采用光纤通信技术后元件和拓扑结构也需要相应改变。要保证信息传输的实时性和安全性,网络协议也必不可少。考虑到消息传输的实时性、公平性和安全性,光纤网络的通信协议必须有相应的消息调度机制。所构建的分层+调度融合车载光纤通信协议栈结构设计[25]如图8所示,通过在传统的以太网通信协议栈引入实时调度机制,以及将分层协议簇规范化,实现构建车载高安全性光纤通信协议栈。
如图10所示,各消息队列调度算法首先根据消息的最早截止时间确定消息的优先级,使用优先级排队,在排队过程中发生延迟时(消息队列不能即进即出,发生排队即产生延时,因为消息较多在队列中累积就会发生延时,延迟的后果将会导致汽车的实时性和安全性下降),需要不断更新(例如消息队列中出现了两个具有相同ID的消息,该消息的优先级为3,将前一个消息删除,后一个消息的优先级升级为2,重新插入队列中优先级为2的消息的首位)及删除现有消息(现有消息与队列中已存在消息重复,进一步增多在队列中排队的消息,所以将重复的具有相同ID的消息删除可以减少延迟,且删除已发送消息,这里的删除消息是删除队列中的重复消息),从而避免消息的长期累积。当消息更新时,具有相同ID的消息可以适当提升其优先级(提升的程度是可以将该消息的优先级提升一级,且置于同等优先级之首),以此避免低优先级始终处于消息队列,无法转发甚至丢失的情况,使低优先级的消息也可以尽快传输。当有紧急消息时,可直接设定为最高优先级传输该消息,避免延时带来的损失。
4.3 基于分数型基本周期的网络调度策略
网络信息的传输质量直接影响车辆的运动控制性能,因此须尽可能降低网络诱导延时和不同步对控制系统的消极影响。本文提出了一种分数型基本周期的网络调度策略[27],并将其应用到横摆力矩控制中。图11显示融合分数型基本周期理论的直接横摆力矩的混合调度-控制框架。在该框架下,分数型基本周期的柔性时间触发的调度策略,用以消除多包传输带来的不同步问题,并将延时组织到更小的范围,控制回路中的延时被减少到以内。分数型基本周期的网络调度策略实现了网络流量的主动管控,提高了系统的实时性和稳定性。
具体来讲,系统学是从系统的角度描述回路信息的传递路径,结构学是从结构角度分解并定义节点服务时间、链路服务时间和聚合多服务回路延时的概念,推导各构件数学公式及其求和公式,最值公式是从最值计算角度推导寻求聚合多服务回路延时上确界的公式。该分析方法分别在电动车辆的传动系统控制和域架构下自适应巡航系统和紧急制动系统的设计上进行验证。
基于上述理论研究,研制了车载高速分布式光纤通信接口芯片初样,支持车载高速分布式光纤通信接口的SERDES串化解串功能,支持1.25、2.5、4.25 Gbps等速率光模块,支持波长850、1 310、1 550 nm等不同规格的光模块,具有体积小、功耗低等优点,非常适合于功耗、体积以及电磁兼容性要求苛刻的车载应用。
5 实车验证
在上述技术攻关成果的基础上,研制了集成车载核心控制芯片和车控操作系统的整车控制器(图13),通过在高温(环境平均温度不低于35 ℃,最高温度不低于50 ℃)、高寒(环境平均温度不高于-15 ℃,最低温度不高于-40 ℃)、高湿(环境平均温度不低于20 ℃,平均湿度不低于50%,最大湿度不低于95%)、高原(平均海拔不低于3 000 m,最高海拔不低于4 700 m)等典型极端环境条件下的实车(图14)道路验证,构建了支持自主车载核心控制芯片和自主车控操作系统的软硬件一体化集成评测的新能源汽车新技术开放整车验证平台,支持自主车载核心控制芯片、自主车控操作系统、自主车载高速光纤通信系统的快速搭载验证,为正向开发奠定了坚实的基础。
在芯片机制允许访问、不影响芯片正常运行功能和性能的前提下,对车载控制芯片进行实车验证过程中的数据采集,架构如图15所示。当接口通信速率足够大时(比如采用以太网),可支持直接对芯片上寄存器数据的同步采集传送,如图中红色线示意。当接口通信速率较低时,则须增加一个存储器做为数据的存储缓存,分时上传,如图中黑色和褐色线示意。
将车载芯片采集和评价的数据分为芯片运行数据和环境数据两大类,如表1所示。分别采集核心关键指标,对极值、均值、标准差、时间序列等指标进行分析,评价车载芯片的运行状态是否正常。
6 结论
以车载核心控制芯片、车控操作系统与车载高速光纤通信系统为核心的车载控制基础软硬件负责整车控制功能,是保障系统可靠性与功能安全性的关键。我国企业尚未全部掌握车载核心控制芯片及车控操作系统的可靠性设计与安全性评测关键技术,严重制约了我国新能源汽车的自主安全发展。
本文针对国产基础软硬件与整车产品高安全性和高可靠性要求的巨大差距,介绍了车载核心控制芯片可靠性与功能安全性、车控操作系统可靠性与功能安全性、车载高速分布式光纤通信功能安全性、车载核心软硬件集成与评测等关键技术的最新研究成果,并基于北汽集团的新能源汽车完成了自主研制的车载核心控制器件和车控操作系统的实车验证,为我国新能源汽车车载控制基础软硬件的自主可控奠定了坚实的基础。
参考文献
[1]
[2]李寒洋. 浅谈智能网联汽车发展现状及趋势[J]. 汽车工业研究,2020(1):2-9.LI H Y. Discussion on the development status and trends of intelligent connected vehicles [J]. Auto Industry Research, 2020(1):2-9.
[3]崔明阳,黄荷叶,许庆,等.智能网联汽车架构、功能与应用关键技术[J].清华大学学报(自然科学版), 2022,62(3):493-508.CUI M Y,HUANG H Y, XU Q, et al. Survey of intelligent and connected vehicle technologies:architectures, functions and applications [J]. Journal of Tsinghua University(Science and Technology), 2022,62(3):493-508.
[4]英飞凌科技股份公司. TC397器件数据手册[G]. 2020.Infineon Technologies Co., Ltd. TC397 device data manual[G]. 2020.
[5]朱敏慧.瑞萨R-Car系列助力自动驾驶研发[J]. 汽车与配件,2021(8):56.ZHU H M. Reza R-Car series assists in the development of autonomous driving [J]. Automobile & Parts, 2021(8):56.
[6]XU Dawen, HE Meng, LIU Cheng, et al. R2F:a remote retraining framework for AIoT processors with computing errors[J]. IEEE Transactions on Very Scale Integration(VLSI) System, 2021, 29(11):1955-1966.
[7]WANG Mingyu, LI Zhaolin. A spatial and temporal locality-aware adaptive cache design with network optimization for tiled many-core architectures[J]. IEEE Transactions on Very Large Scale Integration Systems,2017, 25(9):2419-2433.
[8]潘妍,张也,周瑞坤,等.我国智能网联汽车操作系统研究[J]. 电子元器件与信息技术,2022(5):142-146.PAN Y, ZHANG Y, ZHOU R K, et al. Research on the intelligent connected vehicle operating system in China [J]. Electronic Components and Information Technology, 2022(5):142-146.
[9]李鲁苗,周玮.全球车用操作系统发展现状[J].汽车纵横, 2022(1):39-42.LI L M, ZHOU W. Current situation of global automotive operating system development [J]. Auto Review, 2022(1):39-42.
[10]盛炜杰, 陈锦云, 王雅思, 等. 车载网络发展趋势和车载光纤传输研究进展[J]. 激光与光电子学进展,2023, 60(5):1-11.SHENG W J, CHEN J Y, WANG Y S, et al. Development trend of in-vehicle networks and research progress of in-vehicle optical fiber transmission [J]. Laser & Optoelectronics Progress, 2023, 60(5):1-11.
[11]郑志超,南金瑞,南江峰.车载网络 CAN FD 总线的应用前景和技术研究[J]. 现代电子技术, 2021, 44(1):5-9.ZHENG Z C, NAN J R, NAN J F. Research on application prospect and technology of CAN FD bus of vehicle network [J]. Modern Electronics Technique, 2021, 44(1):5-9.
[12]HE Yintao, WANG Ying, LIU Cheng, et al. TARe:task-adaptive in-situ ReRAM computing for graph learning[C]. ACM/IEEE Design Automation Conference (DAC), 2021:577-582.
[13]HE Lei, LIU Cheng, WANG Ying, et al. GCiM:a near-data processing accelerator for graph construction[C]. ACM/IEEE Design Automation Conference, 2021:205-210.
[14]HAN Jianhui, FEI Xiang, LI Zhaolin, et al. Polyhedral-based compilation framework for in-memory neural network accelerators[J]. ACM Journal on Emerging Technology in Computing Systems, 2021, 18(1):1-23.
[15]LIU Cheng, CHU Cheng, XU Dawen, et al. HyCA:a hybrid computing architecture for fault tolerant deep learning[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2021, 41(10):3400-3413.
[16]ZHANG Ying, DING Yi, PENG Zebo, et al. BMC-based temperature-aware SBST for worst-case delay fault testing under high temperature[J]. IEEE Trans. Very Large Scale Integration Systems, 2022, 30(11):1677-1690.
[17]LI Huawei, LI Xiaowei. Selection of crosstalk-induced faults in enhanced delay test[J]. Journal of Electronic Testing:Theory and Applications, 2005, 21(2):181-195.
[18]KRSTIC A, LIOU Jingjia, JIANG Yimin, et al. Delay testing considering crosstalk-induced effects[C]. Proceedings of IEEE International Test Conference, 2001:558-567.
[19]LI Wen, WANG Ying, LIU Cheng, et al. On-line fault protection for reram-based neural networks[J]. IEEE Transactions on Computers, 2023,72(2):423-437.
[20]MA Haitong, LIU Changliu, LI Shengbo Eben, et al. Joint synthesis of safety certificate and safe control policy using constrained reinforcement learning[J]. PMLR, 2022, 144:97-109.
[21]ZHENG Haotian, CHEN Chaoyi, LI Shuai, et al. Learning-based safe control for robot and autonomous vehicle using efficient safety certificate[J]. IEEE Open Journal of Intelligent Transportation Systems, 2023,4:419-430.
[22]GU Ziqing, GAO Lingping, MA Haitong, et al. Safe-state enhancement method for autonomous driving via direct hierarchical reinforcement learning[C]. IEEE Transactions on Intelligent Transportation Systems, 2023.
[23]GU Ziqing, YIN Yuming, LI Shengbo Eben, et al. Integrated eco-driving automation of intelligent vehicles in multi-lane scenario via model-accelerated reinforcement learning[J]. Transportation Research Part C,2022,144:1-14.
[24]王遵彤,李彩,吴启迪.多处理器系统动态调度负载均衡节约算法[J].控制与决策, 2011, 26(11):5.WANG Z T, LI C, WU Q D. Load-balancing thrift algorithm for dynamic scheduling of multiprocessor systems [J]. Control and Decision, 2011, 26(11):5.
[25]CAO Wanke, WANG Lecheng, LI Jianwei,et al. Analysis and design of drivetrain control for the AEV with network-induced compounding-construction loop delays[J]. IEEE Transactions on Vehicular Technology, 2021, 70(6):5578-5591.
[26]CAO Wanke, LU Jizhi, LI Jianwei, et al. Networked motion control for smart EV with multiple-package transmissions and time-varying[J]. IEEE Transactions on Industrial Electronics, 2022, 69(4):4076-4086.
[27]CAO Wanke, LIU Shao, LI Jianwei, et al. Analysis and design of adaptive cruise control for smart electric vehicle with domain-based poly-service loop delay[J]. IEEE Transactions on Industrial Electronics, 2023, 70(1):866-877.
[28]WANG Wenwei, YU Shiyao, CAO Wanke. Review of in-vehicle optical fiber communication technology[J]. Automotive Innovation, 2022,5(3):272-284.
[29]CAO Wanke, YANG Mengchao, WEI Zhongbao, et al. Autonomous emergency braking of electric vehicles with high robustness to cyber-physical uncertainties for enhanced braking stability[J]. IEEE Transactions on Vehicular Technology, 2022, 72(4):4426-4441.
报告下载
报告分享|2023中国汽车基础软件发展白皮书4.0
报告分享|2022中国汽车基础软件发展白皮书3.0