伴随先进工艺节点不断进步,系统定义芯片的日益普及,数字系统的应用场景也越来越复杂,芯片设计规模迎来指数级增长并进入百亿门级时代。特别是随着芯片集成度越来越高,商业IP的重复应用越来越广泛,以及系统级芯片变得越来越复杂,带着指令执行单元(CPU/DSP/NPU等)和软件进行大范围子系统或全系统的验证测试,在芯片验证工作中的比例越来越大。
庞大的验证规模与复杂的应用环境,只有借助系统级硬件验证工具,才具备搭建系统级应用环境和执行仿真所需的容量、性能与调试能力,做到在短时间内仿真高性能芯片数十秒甚至更长的实际运行时间(即数百亿以上运行周期)。
此前,硬件仿真系统长期由Cadence、Synopsys和Siemens EDA三巨头把持。但日前,国内系统级验证EDA解决方案提供商芯华章改变了这一局面,其发布的国内首台设计上支持超百亿门大容量的硬件仿真系统桦敏HuaEmu E1,可满足150亿门以上芯片应用系统的验证容量。
事实上,从高性能FPGA硬件验证系统HuaPro P1出发,到双模验证系统HuaPro P2E,再到本次发布的高性能硬件仿真系统HuaEmu E1,芯华章希望独立自主地摘下这颗验证领域“皇冠上的明珠”,并拥有“完整数字验证全流程工具链”的梦想一直都在。
这也是芯华章首席技术官傅勇将E1称之为“一款严格意义上的仿真系统”的原因之一。他认为在仿真验证产品最为看重的功能正确性、查错能力、运行速度、系统方案集成等方面,E1都实现了多重的创新和突破,填补了国产EDA在该领域的空白,标志着芯华章彻底搭建了完整的全流程数字验证平台,能够支持超大容量芯片设计完成系统级验证,并有能力进行深度调试。
国外巨头的仿真验证之路
可能有人对“150亿门以上芯片应用系统的验证容量”没有特别直观的感受,也不是很清楚芯华章用三年多时间就能实现该目标意味着什么?那让我们先一起简单回顾一下EDA行业三大巨头这一路是如何走过的?
- Cadence
- 2006年,Cadence推出的Cadence Incisive Palladium III加速器/仿真器,能够支持最多32位用户同时运作,单工作站每小时编译能力可达3000万门,并且其容量的调整范围可以从每个域/用户180万门到整个系统的2.56亿门。
- 2013年,Palladium XP II验证计算平台作为Palladium XP仿真系统的更新产品面世,最多可以将验证性能再提高50%,更将其业界领先的容量扩展至23亿门。
- 2015年,Cadence推出业内第一个数据中心级硬件仿真加速器Palladium Z1,凭借企业级的可靠性和可扩展性,最多能同时处理2304个并行作业,容量可扩展到92亿门。
- 2021年4月,推出全新的Palladium Z2和Protium X2企业级原型验证系统,100亿门的SoC编译可以在Palladium Z2系统10小时内即可完成,Protium X2系统也仅需不到24小时就可以完成。
- Synopsys
- 2014年3月,Synopsys推出构建在经过验证的ZeBu Server架构之上的ZeBu Server-3高性能仿真平台,它将性能提高了多达4倍,并使容量提升了3倍,支持最大为30亿门的芯片设计。
- 2018年6月,在ZeBu Server-3基础之上,Synopsys又推出了其新一代硬件仿真系统ZeBu Server 4,性能是前一代解决方案的两倍,可支持190亿门SoC设计,能够实现SoC验证和软件研发,对机房的空间需求减少了一半,同时功耗降低了5倍。
- 2021年3月,新思科技推出ZeBu Empower仿真系统,为数十亿门SoC设计的软硬件功耗快速验证提供可操作的功耗分析,实现每天多次迭代。同时,还可利用功耗分布图更早识别针对动态功耗和泄漏功耗的重大改进机会,将功率关键模块和时间窗口馈入新思科技的PrimePower引擎,加速RTL功耗分析和门级功耗签核。
- 2021年5月,Synopsys在硬件仿真领域取得的突破性技术创新——ZeBu EP1诞生。它可提供10MHz性能,以加速高性能计算(HPC)、5G、GPU、人工智能(AI)和汽车等领域规模高达20亿门级的复杂SoC的硬件和软件验证。
- 西门子EDA
- 2013年,Mentor在新的Veloce2产品中增加了VirtuaLAB虚拟实验室、TestBench加速器等新功能,不仅能够对软硬件加速,更可将验证门数拓展至20亿逻辑门。
- 2016年3月,西门子EDA的前身Mentor Graphics公司宣布推出用于Veloce硬件仿真平台的新型应用程序。新型Veloce Apps包括Veloce Deterministic ICE、Veloce DFT和Veloce FastPath,可以解决复杂SoC和系统设计中的关键系统级验证难题
- 2017年,西门子EDA宣布推出Veloce Strato硬件加速仿真平台,被称之为“五年以及更长远的未来,在硬件加速仿真发展路线上具有战略性里程碑式的产品。”该产品完全加载时容量可达2.5BG,总吞吐量提高了5倍,可见性时间加快了10倍,编译时间加快了3倍,以及协同模型带宽提高了3倍。
- 2021年4月,西门子EDA发布了包括可扩展至150亿门电路总处理容量的硬件仿真器Veloce Strato+在内的一系列Veloce硬件辅助验证系统新产品。按照西门子 EDA方面的说法,“该系统将虚拟平台、硬件仿真和FPGA原型验证技术融于一身,是业内首个完整的集成式解决方案,为应用硬件辅助验证的新方法奠定了坚实基础。”
大规模系统级芯片设计不可或缺的利器
在系统级芯片设计过程中,HuaEmu E1集成了芯华章自研的自动化、智能化全流程编译软件HPE Compiler,能自动实现完整的系统级芯片仿真,并进行和真实使用场景一致的硬件仿真,进而借助强大的调试能力,实现对全芯片的功能、性能、功耗进行系统级的验证与调试,用户只需要关心如何使用E1去发现和解决软硬件设计问题,在验证性能和易用性方面大大增强。
大容量、高性能和强大的调试能力,被芯华章研发副总裁颜体俨博士视作E1的三大亮点。测试数据显示,E1不但可以支持超过150亿门级的容量,还能够支持最高128个用户同时使用,每一个用户使用不同的资源时,资源颗粒度以2,000万门为单位。得益于relocation的能力,不同使用者在快速切换时,无需重新编译即可实现直接移转,这种高效率的使用也为支持芯华章EDA 2.0云原生系统奠定了基础。
这对系统级厂商而言无疑是极为重要的。毕竟所有的系统都不是由单个节点构成,当我们能够将应用系统涉及的多个节点,一次性全部放进一个超大容量的硬件仿真器之中时,其背后的价值是不言而喻的。
如果选用芯片时钟频率作为衡量仿真系统速度的标准,那么当客户只用到8000门容量时,E1的最高执行速度可以达到10兆赫;如果门数上升至8,000万—3.2亿,E1最高速度可以达到5兆赫;当门数超过3.2亿时,该数字则为1兆赫。
“E1能够做到这一点,是因为它内部有快速低延迟的连接,包括贯穿前后端非常高效的编译流程、对称的互联结构、以及能够高效的与主机上的虚拟仿真模型共同使用等特点。”颜体俨说。
众所周知,芯片验证的目的是找出芯片设计中的问题,但有经验的芯片设计工程师都了解,如何在复杂系统中精准高效地发现、定位错误并分析原因,常常是芯片验证过程中花费时间最多的部分,这也是为什么强大的调试能力对硬件仿真非常重要的原因所在。
E1在设计中也充分考虑到了这一痛点,除了支持高速全信号可见、无限深度信号抓取等功能,并提供比传统硬件仿真器更强大的可编程高性能精准触发器和全信号触发器外,精准触发、save-restore、虚拟主机混合仿真等灵活的调试功能也可以帮助客户有效定位问题之所在。
颜体俨强调称,E1产品的打造完全源自芯华章自研团队,没有通过收购等手段,这使得E1在兼容性上更具优势,与现有的P2E/P1/GalaxSim/GalaxFV/Fusion Debug等产品使用完全兼容、统一的软件和数据库,支持芯华章智V验证平台的统一调试,极大地提升了大规模系统的验证效率。