深入了解首台国产百亿级硬件仿真器

FPGA开发圈 2023-08-03 12:03

硬件仿真器(Emulator)从诞生至今,已经有接近40年的历史,经历了一个不断成熟的过程,它随着集成电路产业的发展仍在不断演进。


想了解Emulation的发展和技术演进的,可以观看Dr. T.C. Lin作为硬件仿真器发展的亲历者的精彩分享。


👉Emulation: From History to Technology Evolution👈


20世纪80年代后期,FPGA芯片刚刚诞生,立刻被用于电路逻辑的仿真。因为FPGA本质就是使用可编程的通用电路单元去仿真各种电路,非常适合电路逻辑的仿真验证。


那之后,用多颗FPGA芯片构建专用的硬件仿真器产品逐渐掀起热潮,这需要解决一系列的问题:大规模FPGA阵列的硬件设计、目标电路逻辑的分割、多FPGA之间的数据交换、如何实现分割之后的统一调试等等。


硬件仿真器以其容量、性能、可调试性方面的独特优势,从诞生以来不断发展,已经是仿真验证中的基础性EDA工具,也引领着芯片验证技术的不断革新。


本文将从发展的眼光来探讨“当代Emulator”应该满足哪些条件。


Emulator v.s. Prototyping

Emulator具备更深度和灵活的调试能力


总体上看,硬件仿真器能够支持超大规模(百亿门级)的设计容量,全自动化的软件设置实现流程,基本无需修改硬件连接配置,以及灵活多样的全系统仿真调试能力,Emulator的优势包括:


  • 依托自研综合工具的信号综合后全保留,以及完整、长时间的信号追踪(达数百亿周期)


  • 信号的高级触发模式态探针插入/离线虚拟调试

  • 拥有不限量的时钟域,它们可以从核心时钟资源中无限衍生

  • 全系统范围可见的Debug调试追踪

  • System Verilog/UVM Simulation/C++/Python等测试加速支持

  • 软硬件的协同验证、测试接口的虚拟化支持

  • 系统功耗预估/分析等



现代硬件仿真系统容量

进入 “百亿门规模”的级别


考虑到硬件仿真自身会占用大量的Debug(调试) 逻辑,这里的“大容量”,是指产品扣除了上述的调试逻辑后,能够供用户实际使用的最大设计容量。那么,这个指标必须匹配当前主流SoC和多片封装的Chiplet芯片设计规模。什么是主流芯片规模?


苹果M1 Pro处理器的规模约100亿门


按一般的4晶体管等效门来大致计算,GPU巨头英伟达公司目前主流GPU芯片规模为100多亿门(420亿晶体管),苹果M1 Pro处理器的规模约100亿门(400亿左右晶体管,单封装),国内某厂商的AI芯片是超过90亿门(370亿晶体管),即使是比较小的某厂商交换芯片,也接近50亿门规模(近200亿晶体管),而其它的大型CPU、GPU、DPU等主流系统级芯片也都在百亿门左右甚至更高的规模。

从这些数据来定义Emulator,我们可以提出一个很具体的百亿门容量指标。


不能通过全自动设计工具支持百亿门以上设计实现仿真的产品,只能说有一定的硬件仿真(Emulation)特性,但由于其无法容纳并验证一个全芯片规模的逻辑功能,所以很难被认定为完整的Emulator,即硬件仿真器产品。

从国外EDA公司的主流产品来看,目前也都达到了百亿门到三百亿门级别的容量指标,同时对大容量设计依然保持数百KHz以上甚至上MHz的性能。


硬件仿真器丰富的使用模式


ICE模式

  • ICE模式的吸引力在于能将现实测试中的激励,以可综合的方式注入到硬件中高速运行的DUT(待测设备)中,以此验证设计在硬件中的真实功能和性能


  • 在Emulator初生的年代,ICE模式是最主要的使用模式,一直到今天也是主流使用场景之一


  • 此外,典型的测试例子是需要在外部系统和硬件仿真器之间插入速度适配器(Speed Adapter),这样做是为了适应前者的快速时钟速率


TBA加速仿真模式

  • 软件的功能也大大加强。除了传统的ICE模式外,基于Transaction(事务级)、以收发包为传输单位的TBA加速仿真模式及Hybrid Mode的仿真模式(即在Server主机当中安装各类虚拟OS,DUT运行在Emulator中,两者通过特定的协议联通)


  • 虽然说这两者的运行速度不及ICE模式高,但由于其无需复杂连线,与传统软件仿真兼容的方案,以及十分丰富的调试手段,受到了验证工程师的广泛欢迎


Hybrid混合仿真模式

  • 随着Emulator要仿真的系统越来越复杂,将软件模型与Emulator中的DUT逻辑混合使用,去仿真更大的系统也成为了一个常用应用场景


  • 在主机上运行虚拟CPU模型,或者是虚拟化的完整x86主机,而把外设芯片电路放在Emulator中仿真,两者之间通过Transactor协议模型互联,就是一种典型的混合仿真


  • 相反,把CPU模型运行在Emulator中,而用软件去仿真丰富多样的存储或外设接口模型(HBM,DDR5/4,LPDDR/PCIe/MIPI PHY等),也大大增强了工程师的系统级验证手段



此外,对断言(Assertion)和覆盖率(Coverage)的支持、基于DPI-C的TLM扩展接口及对运行现场保存和恢复的支持等,这些高级功能的加入也给高速仿真验证工作提供了完整的解决方案。


不断发展的硬件仿真器


硬件仿真器是一个软件工具链和硬件平台互相配合、设计难度极高的复杂系统。因此,目前市场上能够提供真正意义上硬件仿真器及完整配套方案的公司也是凤毛麟角,过去主要是来自美国的EDA三大巨头:


  • Cadence的Palladium系列,以特制ASIC 处理器组成庞大系统

  • Synopsys基于商业FPGA的ZeBU产品线

  • 西门子EDA(原Mentor)基于自研FPGA芯片的硬件仿真器Veloce


而国产EDA厂商也在追赶、创新、超越,比如芯华章最新发布的国内首套百亿级HuaEmu E1硬件仿真器,不仅仅实现了传统仿真器在容量、调试、性能方面的各项能力,还创新发展了多项特色功能:



  • E1为了解决多级FPGA传输数据引起的延迟过大问题,采用了自研格式的高速光交换协议,和传统通用的Aurora协议相比,延迟降低50%同时在物理的部署上采用全光缆互联,更轻便灵活;较铜制线缆的应力影响更小


  • 系统最高支持128个用户同时使用,并采用了“隔离通道”的技术,来保证多用户情况下数据的独立性,防止互相干扰;并且支持基于云的使用模式


  • E1支持丰富的验证场景,如虚拟主机混仿、虚拟设备混仿、ICE在线仿真、系统性能分析、软仿测试加速、系统级调试等


  • E1还支持非常丰富的解决方案:从协议上,涵盖AXI/PCIe/MIPI/DDR5/DDR4/HBM2E Transactor等各种类型的应用


以下我们结合具体的应用场景,来简单说明芯华章硬件仿真系统为用户提供的丰富解决方案。


芯华章科技PCIe方案

Ø  在Host主机侧进行配置和控制的动作,运行一个包含PCIe协议相关测试用例的软件仿真器(Simulator),那么再在E1硬件上运行一个模拟PCIe Root Complex的可综合模型(内部包含了PCIe RC的IP);


Ø  通过PIPE接口连接到用户设计的待验证功能模块。这样的好处是避免了繁琐的硬件线路连接,从而使得验证过程更稳定可靠。




芯华章科技DDR5模型

Ø  芯华章自研的XRAM模块提供前后门读写等工作模式,可以方便用户的调试,通过连接DDR5的内存模型并提供到接口给用户,然后用户只需方便地把自己的设计接到内存接口上就可以实现模块的调用实现。





由此看来:在这些创新技术的驱动下,硬件仿真系统,特别是国产EDA厂商的百亿门级以上的硬件仿真产品,在实现智能设计流程、减少用户人工投入、缩短芯片验证周期方面,起到了极大的作用,一定会继续作为关键性EDA工具推动芯片设计验证方法的发展。


FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 88浏览
  • 概述 通过前面的研究学习,已经可以在CycloneVGX器件中成功实现完整的TDC(或者说完整的TDL,即延时线),测试结果也比较满足,解决了超大BIN尺寸以及大量0尺寸BIN的问题,但是还是存在一些之前系列器件还未遇到的问题,这些问题将在本文中进行详细描述介绍。 在五代Cyclone器件内部系统时钟受限的情况下,意味着大量逻辑资源将被浪费在于实现较大长度的TDL上面。是否可以找到方法可以对此前TDL的长度进行优化呢?本文还将探讨这个问题。TDC前段BIN颗粒堵塞问题分析 将延时链在逻辑中实现后
    coyoo 2024-12-10 13:28 102浏览
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 50浏览
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 88浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 80浏览
  • 智能汽车可替换LED前照灯控制运行的原理涉及多个方面,包括自适应前照灯系统(AFS)的工作原理、传感器的应用、步进电机的控制以及模糊控制策略等。当下时代的智能汽车灯光控制系统通过车载网关控制单元集中控制,表现特殊点的有特斯拉,仅通过前车身控制器,整个系统就包括了灯光旋转开关、车灯变光开关、左LED前照灯总成、右LED前照灯总成、转向柱电子控制单元、CAN数据总线接口、组合仪表控制单元、车载网关控制单元等器件。变光开关、转向开关和辅助操作系统一般连为一体,开关之间通过内部线束和转向柱装置连接为多,
    lauguo2013 2024-12-10 15:53 87浏览
  • 【萤火工场CEM5826-M11测评】OLED显示雷达数据本文结合之前关于串口打印雷达监测数据的研究,进一步扩展至 OLED 屏幕显示。该项目整体分为两部分: 一、框架显示; 二、数据采集与填充显示。为了减小 MCU 负担,采用 局部刷新 的方案。1. 显示框架所需库函数 Wire.h 、Adafruit_GFX.h 、Adafruit_SSD1306.h . 代码#include #include #include #include "logo_128x64.h"#include "logo_
    无垠的广袤 2024-12-10 14:03 71浏览
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 51浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 143浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 71浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-10 16:13 110浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦