对于普通消费者,人工智能、机器学习、数字孪生、元宇宙这类科技名词简直让人目不暇给,其实这些都预示数字化大潮的来临。然而,如果没有好的大芯片,恐怕一切都是空谈。本文提出大芯片的设计之路,就是从架构到FPGA,再移植到ASIC。但这并非是平坦路,转换过程中存在各式各样的挑战。各团队必须清晰理解意图,牢记设计初衷。

也许某团队正在为边缘计算设计一款嵌入式推理引擎,或者正在进行进一步的汽车视觉处理,也许在数据中心领域具备可以挑战英伟达和谷歌的洞察力!然而在广泛的性能需求、环境和应用中,人工智能加速器架构不仅在设计方面,而且在验证和实现方面都面临着独特的挑战。从一个体系架构到FPGA(在这个领域几乎是强制性的一步),再到生产ASIC,将是一段不平凡的历程。不过,对于有经验且有充分准备的设计团队来说,如果提前做好规划,这也未必就一定意味着是一次冒险!

三个方向

如果像大多数研发团队一样,选择在FPGA中进行概念验证或验证平台,将从一开始就同时被拉往三个方向,具体如图1所示。架构师团队希望FPGA实现能够尽可能地接近他们的微体系架构,因为对他们来说,关键是要看设计如何有效地实现他们的算法。而软件团队将推动FPGA的性能设计优化,这意味着要对架构进行某种程度的折衷,以适应所选FPGA芯片的能力和局限性。此时,还必须考虑到来自市场营销方面的压力,如果他们计划想利用FPGA尽早进入市场的话。实际上还有一种风险,即概念验证本身会有自己的生命,就像弗兰肯斯坦生物(creature of Frankenstein)一样。

图1:如果选择在FPGA中进行概念验证或验证平台,将受到以下三个方向的拉力,分别来自:架构师团队、软件团队和制造需求。

如果设计的前两步分别是体系架构和FPGA设计,第三步则是需要将设计移植到ASIC以进行批量生产。这将为产品带来竞争力所需的性能、功率和面积。理想情况下,ASIC设计将准确反映原始理论架构,并结合对所选ASIC工艺和IP库的优化。不过,即便是通过转换经过验证的FPGA设计,但可以在多大程度上实现优异的ASIC设计,也仍是一个至关重要的问题。答案将归结于架构师团队、FPGA和ASIC团队合作的紧密程度。

能够支持这一说法的最好方式,也许就是充分研究各类人工智能加速器的架构特征,并在设计过程中予以遵循。

并行处理

并行处理是最普遍的,也是AI加速器的基础。它可以通过许多阵列的小型专用处理内核(如特定算法的GPU)来实现,或者以数据流(即专用处理器的流水线)的方式来实现。不过,这两种体系架构都给FPGA的实现带来了诸多挑战。

设计团队在RTL中可以对处理单元及其互连进行编码,并将RTL移交给FPGA设计工具。不过,要获得一个具有足够器件资源利用率和性能的设计,通常几乎接近100%的布线、或至少在平面规划和布局方面需要进行人工干预。

需要注意的是,该规划将不关注加速器的原型架构,而是关注FPGA中资源的可用性和位置。例如,体系架构可能希望计算单元聚集在本地组中,然而,FPGA则可能需要将计算单元分散在芯片上,甚至将它们拆分成更小的块,以确保足够的路由和RAM资源。这可能需要改变互连体系架构,例如改变总线架构。

不过,也会出现其他选项。例如,深度学习推理加速器的架构师团队经常利用精度较低的算法(比如说,8位而不是32位),来提高速度并节省能源。而出于性能和资源的原因,FPGA团队可能希望利用FPGA的32位乘法累加硬宏,而不是由逻辑单元构建的8位乘法器。这样的选择将会逐渐使FPGA设计脱离原来的架构,并给转换过程带来影响。

至此,是时候将实现移植转换到ASIC中去了。在小型、简单的SoC中,FPGA到ASIC的转换,意味着一个近乎机械式的逐步转换过程。剔除任何专用的FPGA功能,如乘法累加块、高速串行接口、PCIe接口和DRAM控制器。然后再用功能等效的ASIC IP对它们进行置换,并对内部总线或接口进行任何必要的更改,以实现它们之间的高效互联。再然后就是需要重新进行逻辑综合,并插入新的时钟网络和自检架构、分配电源和进行验证。

对人工智能加速器来说,这仍然有效。在FPGA中工作的任何实体,都可以通过这种方式转换到ASIC。然而,对于设计团队为优化FPGA设计所做的设计更改呢?答案是,由于ASIC中的逻辑和路由资源基本上是无限的,并且有大量的第三方IP库,这些专为FPGA所进行的更改将是不必要的,而且可能会出现适得其反的效果。

进行转换的团队必须了解原始设计意图,以便根据具体情况来决定是利用FPGA设计还是恢复到原始架构。对于确定综合哪种代码以及选择如何最好地利用IP来说,这肯定是正确的。

RAM

再举一个存储器的例子,可能对充分理解会有所帮助。由于存储器的并行架构,在处理单元内部或单元之间,人工智能加速器通常会利用许多具有不同形状、大小、类型和速度的小型RAM实例。这种做法完全符合ASIC设计的优势,但它可能会对FPGA造成严重破坏。虽然可以将单个FPGA逻辑单元组转换为逻辑架构内的小RAM,但在FPGA设计中,设计团队通常会利用大的、硬连接的、可配置的RAM块。这就给FPGA团队留下了两个选择:要么修改原始架构,即不是利用许多较小的RAM块,而是利用大型共享RAM块;要么是在FPGA的大块RAM周围设计一个wrapper,来模拟一批较小的实例,希望不会耗尽RAM块附近的路由资源。

图2:从FPGA到ASIC则提供了更多的选择。具体决策取决于对设计意图理解的清晰程度。

当需要从FPGA转换到ASIC时,则有更多的选择,具体如图2所示。转换团队是否应该对FPGA设计进行直接转换(在ASIC设计中实现FPGA的RAM块功能,这对于经验丰富的转换者不会有任何困难)?抑或是团队还应该恢复到具有许多分散RAM实例的原始体系架构(更小的RAM将更快、更节能,并可能恢复原始体系架构的数据流,从而消除可能的内存瓶颈)?但究竟如何决策,还取决于团队对设计意图的理解程度。

多合一

还有一个问题,那就是多片FPGA问题。许多加速器设计对于单个FPGA来说太大,必须分布在多颗芯片上。于是,这些芯片之间的通信方式将对转换过程带来影响。

例如,如果FPGA通过高速并行总线(例如存储器总线)进行连接,则设计团队可以将FPGA的所有内容移植到ASIC中,再通过安排相同的并行总线进行连接,比如利用类似PCIe的接口来实现多片FPGA之间的连接。在这种情况下,设计团队将不得不移除PCI接口,并根据块之间数据流的性质,用直接并行连接或可能的片上网络来替换它们。回溯最初的体系架构,看看是否为了适应芯片间接口的插入(例如,通过插入大缓冲存储器或创建消息传递协议)而被更改,然后对这些更改进行排除,这一点也至关重要。

密切合作

一旦功能设计被转换(translated),工作就可以进入时钟架构。这里再次指出,ASIC不受FPGA所施加的许多约束的影响。转换团队可以研究原始架构的操作理论,并充分利用其为本地时钟域、门控和频移提供的所有机会,因为所有这些在ASIC中都很容易获得。

图3:该表列出了FPGA到ASIC转换过程中的每个步骤,并明确了实施责任。

同样,经验丰富的转换团队可以利用加速器的并行架构来实现并行内置自检,利用他们对设计意图的清晰理解和对测试提供商能力的充分了解。实际上,这种优化不仅已经超越了ASIC设计本身,而是进一步深入到了供应链。如果各方对图3所示的步骤内容和责任充分理解并实施得好,将会大幅度降低测试成本,从而显著节省总单位成本。

至此已经看到,将人工智能加速器设计从中间FPGA转换为ASIC,几乎也是一个机械式的过程。但由于人工智能与加速器高度并行的性质,对于转换团队来说,如果能够充分理解原始设计意图和架构的微妙之处、能够识别FPGA特定优化、具有人工智能半导体设计经验、能够在客户和ASIC团队专家之间自由分配任务,就可以取得更好的结果。

不过,任何时候都要牢记,最终实现具有卓越功率、性能和面积的ASIC,才是设计的初衷。

(参考原文:Moving-from-fpga-to-asic-for-your-ai-chip-heres-what-you-should-know

本文为《电子工程专辑》2023年12月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅

责编:Jimmy.zhang
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
近日,华为终端BG CEO何刚在和紫牛基金创始合伙人张泉灵的对话中表示,华为Mate 70系列每一颗芯片都有国产的能力。此外,日前在深圳宝安中学的一场讲座中,华为终端BG 董事长余承东也自豪地宣布Mate70实现了芯片的100%国产化。
华为Mate 70系列中的Mate 70搭载了麒麟9010芯片,而Mate 70 Pro/Pro+/RS则首发了麒麟9020芯片。近日,百万粉丝的网红博主@杨长顺维修家 对华为Mate 70 RS进行了拆解……
常情况下,英特尔的CEO在65岁时退休,而现年63岁的基辛格突然被退休,让市场感到意外。为了确保平稳过渡,英特尔董事会立即着手寻找新的CEO人选……
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
投资界传奇人物沃伦·巴菲特,一位94岁的亿万富翁,最近公开了他的遗嘱。其中透露了一个惊人的决定:他计划将自己99.5%的巨额财富捐赠给慈善机构,而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
有博主基于曝光的信息绘制了iPhone 17系列渲染图,对比iPhone 16系列,17系列最大变化是采用横置相机模组,背部DECO为条形跑道设计,神似谷歌Pixel 9系列,这是iPhone六年来的
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
阿里资产显示,随着深圳柔宇显示技术有限公司(下称:“柔宇显示”)旗下资产一拍以流拍告终,二拍将于12月24日开拍,起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产,其中不
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益