现代芯片发展的方向是什么?
这是一个很大的问题,可以从多个角度去回答。如果从应用端去而言,那就是数智化,囊括了大数据、云计算、物联网、AI、5G及自动驾驶等创新方向。数智化芯片有两大明显的特征,功能更复杂以及对安全性要求更高,这就对芯片验证提出了更大的挑战。
芯片验证的评判标准:覆盖率
在数智化和摩尔定律等多重因素的推动下,当前的芯片功能越来越强大,内部结构也越来越复杂。回顾今年1月份刚刚发布的苹果M2 Max芯片,内部集成了670亿个晶体管,用以实现强大的CPU(12核CPU)、GPU(38核GPU)和内存系统(96GB内存和更大的L2缓存)等功能。
苹果M2 Max芯片当然是一款非常强大的产品,然而让数百亿个晶体管像人体细胞一样组成器官,然后再整体配合正常工作可不容易,因此要对功能模块和IP进行充分验证。我们都知道,这需要通过EDA工具完成芯片验证,包括架构设计、软件仿真、硬件仿真和原型验证等。
高效的验证工具能够从两个维度帮助芯片设计公司。一是降低成本,实现一次性流片成功。下一代先进SoC将采用3nm制程,根据市场研究机构International Business Strategies(IBS)的数据,3nm芯片的设计费用约达5-15亿美元,流片失败的损失将是巨大的。
其二是缩短研发周期。随着终端产品迭代速度提升,芯片成为一个真正的“风口”属性产品,需要在特定的时间周期内推出并满足市场需求,一旦延后也就失去了这颗芯片的价值。根据行业经验,验证在典型SoC项目中的工作量占比约70%。
验证的目标是获得无BUG的RTL(Register Transfer Level,电路寄存器传输级)代码,也就是在流片前的验证环节里,确保IP功能正确以及IP和功能模块的系统性功能正确。高昂的工艺成本已经不允许SoC在流片后才发现系统微码无法解决的BUG。
为了达到这一目的,芯片验证无论是从方法还是方式上都在积极创新。比如,UVM验证需要构建平台和测试用例,然而测试用例难以覆盖所有的边界情况,这样引入Formal工具的价值便体现了出来,能够以类似穷举的方式快速且全面地找到隐藏的BUG,那么就可以将有Formal工具的模块剥离出来,能够显著降低测试用例的复杂性。
▲IP新的验证流程示意图(图源:How formal verification saves time in digital IP design技术博文,作者:DAVID VINCENZONI)
这就引出了一个当前验证的主流基准:覆盖率,包括功能覆盖率和代码覆盖率。其中,功能覆盖率是通过编写covergroup和coverpoint去覆盖数据、地址和控制信号,寻找在用户想要的全部功能中是否有代码遗漏;代码覆盖率包括断言(assertion)、行(line)、状态机(FSM)、分支(branch)、表达式(condition)和信号翻转(toggle),目标是评估代码质量,包括查看代码完整性以及去除不必要的冗余。
提升覆盖率是个体力活
虽然基准和核心目标很清晰,不过基于传统的EDA工具去提升覆盖率还是会遇到很多方面的挑战。如下图所示,在仿真(simulation)验证中,需要做到功能覆盖率和代码覆盖率的结合,当功能覆盖率和代码覆盖率都达到100%时,验证工作结束。不过,在实际芯片验证过程中,代码覆盖率中的表达式和信号翻转类型很难达到100%,状态机类型也可能出现这种问题,因为很多状态之间并不存在相互关系;功能覆盖率理论上是要将具体功能细化到一个个不可分割的小点,然后编写coverpoint进行覆盖,不过功能分割和测试用例没有通用标准,基本主要依靠开发者的个人经验、认知以及思维逻辑。这就导致,仿真工具收集数据进而得到的覆盖率报告存在一定程度的不足。
▲仿真验证中的覆盖率挑战
为了实现待测设计的覆盖率达标,往往首次拿到覆盖率报告后,功能覆盖率只是覆盖了立项中最主要的一些功能。如上图所示,很多代码结构并没有被触发过。那么研发人员就需要走下图里的外围路径,也就是重做测试用例,对现有用例的随机约束、callback机制等进行手动调整。
看起来只是增加了一条测试用例的路径,但实际上是一个需要经过多轮次往复的工作流,虽然目前有很多加速覆盖率收敛、回归的工具可以使用,但这个过程依然会耗费大量机器、人力和时间等宝贵资源。
更具挑战性的是,当覆盖率回归测试到达“最后一公里”阶段时,往往经过很多轮修改都无法获得更好的覆盖率收敛,验证开发者有时候会在这个环节陷入覆盖率分析和用例调整的“迷宫”,有时候甚至需要回归到最开始的功能点划分或者增加RTL代码并重新运行回归以验证错误是否被修复。
更糟糕的情况是,当覆盖率达到100%依然存在新的设计漏洞,这个时候就证明是存在明显的功能覆盖率缺失,也就是用例配置错误。有研究发现,当回归测试的代码覆盖率达到90%时,平均只有54%被监测,因此需要高质量的用例来找到剩余代码的漏洞。这就是为什么我们强调,对于功能覆盖率来说,验证人员自身经验非常重要。
实际上,上述这些内容主要是从测试质量(QOR)和测试时间(TTR)角度来考虑。作为验证开发者,还需要关注达成结果所需的成本(COR),随着芯片复杂度提升,增加验证开发者和运算服务器都会增加额外的成本。并且,每次芯片改版(re-spin)都会带来不小的成本增加。
VSO.ai用AI驱动验证
在人类验证开发者的经验成为芯片验证的明显瓶颈时,产业将希望寄托于人工智能(AI)。AI,尤其是机器学习(ML)最大的魅力就在于能够在迭代循环中不断成长,并基于大数据发现代码中难以察觉的错误,进而实现更快速、更高质量的覆盖率收敛。
VSO.ai作为新思科技推出的全新一代VCS工具中用于覆盖率提升的一项技术,提供业界首个人工智能驱动的验证解决方案,帮助验证团队更快、更高质量地实现覆盖收敛。
▲VSO.ai对仿真覆盖率的改进
VSO.ai能够从三个方面给验证开发者带来非凡的助力:
当前,AI要在EDA领域发挥作用,依然需要融入到传统工具中,VSO.ai也不例外,因此工具的可集成特性是非常重要的。如下图所示,VSO.ai可以轻松集成到现有的新思科技VCS(R)回归环境中,而无需对设计或测试平台进行任何代码更改。
▲使用同步系统VSO.ai的仿真测试流程
对于芯片验证而言,一旦设置了芯片设计的RTL并配置了设计状态空间,验证过程就开始了。VSO.ai在开发者编译设计时就开始介入,它会自动识别和编排测试,用自动生成的覆盖率来替代开发者编写的代码覆盖率和功能覆盖率融合设计,以最大限度地减少用户选择的目标函数,例如回归CPU时间、测试运行次数、模拟周期或每秒周期数。
如下图所示,在整个仿真测试流程中,每一次运行VSO.ai都能够提供新的信息来改进约束求解和优化回归测试。验证开发者在此过程中可以灵活设置自己的覆盖率目标,比如验证开发者如果并不需要更高的覆盖率,那么VSO.ai产生的覆盖率就可以少得多。
▲VSO.ai如何使用ML来改进回归分析
综上所述,新思科技VSO.ai是一套自主工作系统,用以替代验证开发者负责的编译设计和编排测试等工作,以尽可能快、尽可能低开销地达到覆盖率目标,并获得最高质量的验证结果。比如,在OpenTitan HMAC这款IP验证示例中,VSO.ai在实现100%功能覆盖率的速度上是传统方案的3倍。
VSO.ai的典型应用
▲SoC上需要确保安全性的接口
结语
当前,AI已经逐渐渗透到EDA工具的每个工作流程中,让芯片设计开发者和验证开发者从反复循环的工作中解脱出来,能够专注于创建差异化的IP和SoC系统。随着工艺水平提高,以及终端应用迭代速度加快,AI在芯片验证中正如一场及时雨,为这项复杂工作节省时间的同时,也带来了更好的成本优化。相信随着AI+EDA融合逐渐深入,芯片验证这个“拖后腿”的毛病也能够被治愈,让我们拭目以待。
了解新思科技发布的业界首款全栈式AI驱动型EDA解决方案Synopsys.ai,更多详情可点击下方视频观看。