GPGPU: C记 RTL 到Signoff 流程全解密

陌上风骑驴看IC 2021-07-08 11:48

题记:7月15 号,浦东嘉里城,跟大神面对面,如果你还未注册可以dian点击链接注册:【上海线下】报名中!2021 CadenceCONNECT:异构计算设计——GPGPU完整解决方案                                                                                            


近年来,随着 GPU 在通用计算领域的高速发展,逐渐将应用范围扩展到图形之外,例如人工智能、深度学习和自动驾驶。这些领域的特点要求 GPU 在并行处理海量数据的同时提供更高的访存速度和浮点运算能力。


在这种计算密集度越来越高的情况下,我们也面临越来越严峻的挑战,比如在后端摆放和绕线阶段的拥塞问题,如何比较精确地在较早阶段考虑物理信息,提前预测 RTL 的质量,还有提前预测布局变得尤其重要在并行同步的信号会增多,大量的矩阵运算引入的情况下,Glitch Power 占比会显著提高,如何在较前阶段去分析和避免 Glitch 功耗是我们避不开的难题;同时由于 GPU 重运算和流水线的设计加上众多旁路分支结构,OCV 影响会更加显著,如何评估和解决时钟上 OCV 是解决时序收敛的关键因素。


针对以上 GPGPU 面临的挑战和痛点,Cadence 提供了一整套从 RTL 到 Signoff 的全流程解决方案。


关键字:GPGPU 预测布局 Glitch Power OCV


概要


1

Overview of GPU

在谈论 GPGPU 之前,我们先聊下 GPU。GPU 即图形处理器,又称显示芯片,主要负责在 PC、服务器、游戏机和移动设备上做图像和图像相关运算工作的处理器。


GPU 内部组成一般包括图形显存控制器、压缩单元、BIOS、图像和计算阵列、总线接口、电源管理单元、视频管理单元、显示接口,从图 1-1 可以直观观察到:GPU 的控制单元比较简单,但是图像和计算阵列占据了 GPU 的大部分面积,其中计算阵列采用设计简单的逻辑运算单元,通过大量复用的方式来并行执行高强度的运算。


每个 ALU 单元都配有独立的缓存单元,同时还有统一的内存来实现多线程并行任务。因此 GPU 有着较大的吞吐量和并行处理数据的能力。


图 1-1 GPU 内部组成


1.1 从 GPU 的应用领域来看


图像处理器 GPU 作为芯片的重要组成部分被广泛地应用于 PC、高性能服务器、自动驾驶汽车和以智能手机为主的移动设备等。无论是在工作生活还是娱乐方面,GPU 都发挥着不可替代的作用,极大地方便了我们的生活。


图 1-2 GPU 类型


在不同的应用领域中,根据其工作特点,衍生出不同类型的 GPU,如图 1-2 所示,主要分为独立 GPU 和集成 GPU,独立 GPU 拥有独立显存,一般作为一个独立的组件封装在显卡电路板上,它的特点是性能高,具有较强的专业图片处理能力,提供较高的计算速度,所以独立 GPU 一般较多地应用于重计算的服务器、高性能游戏电脑、人工智能等;而集成 GPU 常和 CPU 共用一个 Die,共享系统内存。它的特点是注重能效比,即可以牺牲一定计算速度的条件下,尽可能地节省空间和功耗,这也是由便携式的移动设备一直追求的更轻更强续航能力。图 1-3 是关于集成 GPU 和独立 GPU 的对比:


图 1-3 独立/集成 GPU 比较


1.2 GPGPU 发展及未来趋势


近年来,在摩尔定律严谨的放缓和 GPU 在通用计算领域高速发展的此消彼长之下,通用图形处理器(GPGPU)逐渐反客为主,将应用范围扩展到图形之外,无论是科研教育、财务计算,还是在工业领域,GPGPU 都得到广泛的使用,关于它的科研成果和新应用模式也层出不穷,其主要应用和发展趋势主要分为以下两个方面:


高能效:

GPGPU 擅长处理计算密集型任务,但大部分应用场景都需要在满足计算或者图形处理的条件下尽量降低功耗。尤其是在核心数和工作频率,接口带宽不断提升的情况下,追求高能效是 GPGPU 未来发展的趋势。

人工智能和深度学习:

人工智能时代需要大量的多媒体与 3D 图形,所以更高的浮点计算能力意味着对图形与媒体的快速处理。深度学习算法需要处理海量数据,需要进行大量的简单运算。GPGPU 拥有较强的优势,第一,GPGPU 提供了多个并行计算的基础结构,可以执行海量数据的并行计算;第二,GPGPU 拥有更高的访存速度;第三,GPGPU 拥有更高的浮点运算能力。


2

GPGPU 所面临的挑战

就从 GPU 本身的特性而言,如图 2-1 所示,GPU 设计的高带宽、计算密集、管道/旁路等复杂结构往往导致后端放置和路由阶段出现拥塞问题。尤其是在前面介绍的 GPGPU 的未来发展趋势的情况下,设计的布局会越来越复杂,这会大大增加前端和后端之间的沟通迭代周期,所以在综合阶段提供一套高效的预测布局解决方案是目前 GPU 所面临的一大挑战。


图 2-1 GPU 高带宽特点


同时深度学习和自动驾驶对海量的数据进行并行处理的需求,使得 GPU 同时并行同步的信号会增多,加以大量的矩阵运算,Glitch Power 占比会显著提高,这类功耗常常和周围的环境有关,比如 Cell type、绕线等,如何能在较前阶段准确地预测和避免 Glitch 功耗是我们面临的又一挑战。


由于 GPU 重运算和流水线的设计加上众多旁路分支结构,时序路径上,数据通路长短差异非常明显,时钟树结构的要求会比较高,OCV 影响会更加显著,如何评估和解决时钟上 OCV 是解决时序收敛的关键因素。


3

Cadence GPGPU 解决方案

从 GPGPU 未来趋势和眼下所面临的挑战出发,Cadence 提供了从 RTL 到 Signoff 的一系列完整的解决方案,每套解决方案,都从全局出发,在解决每项挑战的情况下,综合考虑对其他指标的影响,实现性能、功耗和面积全面提升。


3.1 RTL 质量预测


对于 RTL 工程师来说,在 GPGPU 芯片结构越来越复杂的情况下,如何提前预测 RTL 最终实现的 PPA 是我们面临的最大挑战。


传统 Flow 中我们一般需要后端提供一个 Floorplan 给前端去做综合,基于 Floorplan 做完综合之后再传给后端,这就需要前端和后端进行不断的的沟通修改的迭代,大大增加了设计周期和人力资源。


基于此,Predict_Floorplan 应运而生,即在 Genus 中调用 Innovus 的 Floorplan 引擎,在前端给出一个合理的 Floorplan。这不仅可以较早去判断 RTL 的可行性,及时对 RTL 进行修改,并且简化了前后端的交互,大大缩短了迭代周期。与传统流程相比,这种解决方案在实现相同的最终平面布局情况下,可以减少约 80% 的设计周期。并且让前端工程师不用熟悉后端的相关知识,就可以提前预测 RTL 的 Timing-Power-Area 具体信息。


3.2 Power driven full flow


GPU 擅长处理计算密集型的任务,特别是随着核数、工作频率和接口带宽的不断增加,追求高能效是 GPGPU 未来的发展趋势。Cadence 提供了从 RTL 到 Signoff 的 Power Aware 全设计流程。其中需要重点指出是对 Glitch power 的分析和修复,Glitch 功耗在 GPGPU 总功耗中占据越来越大的比例,而这类功耗常常受周围环境的影响较大,Cadence 在综合阶段通过调用拥有强大的波形处理能力的 Joules,可在 RTL 阶段实现功耗分析和预估,并对早期网表进行 Glitch 功耗分析,实现早期芯片功耗评估。


3.3 时钟树 OCV


由于 GPU 重运算和流水线的设计加上众多旁路分支结构,时序路径上,数据通路长短差异非常明,如何减小时钟树 OCV 是实现时序收敛的关键。


Innovus Flexible H Tree 的优势是 H 型树在电对称和平衡线长前提下同时放宽了几何对称的要求,因此即使在布局受限的平面图中也可以实现自动合成。多抽头时钟树综合与灵活的H树功能完全集成,扩展了常规时钟综合,并在树的结构化顶部和时钟接收器之间保持平衡。它可以很好的减少时钟上的 OCV,更容易时实现时序收敛。


3.4 Signoff Fixing Solutions


Signoff 作为整个设计流程的最后一步,同时也是关乎芯片是否能够成功流片的关键,Cadence 提供了一套高效的 Signoff Fixing/Check Solutions,在Timing Signoff 方面,通过先进的技术可以对较多 Analysis View 的设计做智能处理,提供快速的精确的 Timing 分析和优化;在 IR-Drop 方面,实现了 Timing Aware 的 IR-Drop Fix;同时可以在在 PR 阶段进行 DRC/LVS Check,提高了整个 Flow 的一致性;对于越来越复杂的设计,Netlist 中常常会出现较长的 Data Path,Conformal 提供了一套完整的成熟的解决方案。


4

小结

本文主要在基于对 GPU 发展和未来趋势的分析,指出了 GPGPU 设计所面临的一系列挑战和难题。面对这些挑战,Cadence 提供了一套完善的从前端到后端的解决方案,解决了布局、功耗、时钟树 OCV 和 Signoff 所面临的难题。


如想了解更多,敬请关注在 7 月 15 日在上海举办的 Cadence GPGPU 解决方案研讨会。


 关于 Cadence

Cadence 在计算软件领域拥有超过 30 年的专业经验,是电子设计产业的关键领导者。基于公司的智能系统设计战略,Cadence 致力于提供软件、硬件和 IP 产品,助力电子设计概念成为现实。Cadence 的客户遍布全球,皆为最具创新能力的企业,他们向消费电子、超大规模计算、5G 通讯、汽车、移动、航空、工业和医疗等最具活力的应用市场交付从芯片、电路板到系统的卓越电子产品。Cadence 已连续七年名列美国财富杂志评选的 100 家最适合工作的公司。如需了解更多信息,请访问公司网站 cadence.com。



© 2021 Cadence Design Systems, Inc. 版权所有。在全球范围保留所有权利。Cadence、Cadence 徽标和 www.cadence.com/go/trademarks 中列出的其他 Cadence 标志均为 Cadence Design Systems, Inc. 的商标或注册商标。所有其他标识均为其各自所有者的资产。


推荐阅读

Cadence与Elliptic Labs联手,致力于将更先进的虚拟传感器搭载在更多的嵌入式系统中

07-02

Cadence发布最新报告:超级互联将对生活产生积极影响

06-29

Cadence对话Intel,讨论异构封装,如何赋能?

06-25


               

陌上风骑驴看IC 闲情偶寄,谈天说地,拔草锄地
评论 (0)
  • 一、gao效冷却与控温机制‌1、‌冷媒流动设计‌采用低压液氮(或液氦)通过毛细管路导入蒸发器,蒸汽喷射至样品腔实现快速冷却,冷却效率高(室温至80K约20分钟,至4.2K约30分钟)。通过控温仪动态调节蒸发器加热功率,结合温度传感器(如PT100铂电阻或Cernox磁场不敏感传感器),实现±0.01K的高精度温度稳定性。2、‌宽温区覆盖与扩展性‌标准温区为80K-325K,通过降压选件可将下限延伸至65K(液氮模式)或4K(液氦模式)。可选配475K高温模块,满足材料在ji端温度下的性能测试需求
    锦正茂科技 2025-04-30 13:08 175浏览
  • 随着电子元器件的快速发展,导致各种常见的贴片电阻元器件也越来越小,给我们分辨也就变得越来越难,下面就由smt贴片加工厂_安徽英特丽就来告诉大家如何分辨的SMT贴片元器件。先来看看贴片电感和贴片电容的区分:(1)看颜色(黑色)——一般黑色都是贴片电感。贴片电容只有勇于精密设备中的贴片钽电容才是黑色的,其他普通贴片电容基本都不是黑色的。(2)看型号标码——贴片电感以L开头,贴片电容以C开头。从外形是圆形初步判断应为电感,测量两端电阻为零点几欧,则为电感。(3)检测——贴片电感一般阻值小,更没有“充放
    贴片加工小安 2025-04-29 14:59 195浏览
  • 你是不是也有在公共场合被偷看手机或笔电的经验呢?科技时代下,不少现代人的各式机密数据都在手机、平板或是笔电等可携式的3C产品上处理,若是经常性地需要在公共场合使用,不管是工作上的机密文件,或是重要的个人信息等,民众都有防窃防盗意识,为了避免他人窥探内容,都会选择使用「防窥保护贴片」,以防止数据外泄。现今市面上「防窥保护贴」、「防窥片」、「屏幕防窥膜」等产品就是这种目的下产物 (以下简称防窥片)!防窥片功能与常见问题解析首先,防窥片最主要的功能就是用来防止他人窥视屏幕上的隐私信息,它是利用百叶窗的
    百佳泰测试实验室 2025-04-30 13:28 238浏览
  • 网约车,真的“饱和”了?近日,网约车市场的 “饱和” 话题再度引发热议。多地陆续发布网约车风险预警,提醒从业者谨慎入局,这背后究竟隐藏着怎样的市场现状呢?从数据来看,网约车市场的“过剩”现象已愈发明显。以东莞为例,截至2024年12月底,全市网约车数量超过5.77万辆,考取网约车驾驶员证的人数更是超过13.48万人。随着司机数量的不断攀升,订单量却未能同步增长,导致单车日均接单量和营收双双下降。2024年下半年,东莞网约出租车单车日均订单量约10.5单,而单车日均营收也不容乐
    用户1742991715177 2025-04-29 18:28 201浏览
  • 文/Leon编辑/cc孙聪颖‍2023年,厨电行业在相对平稳的市场环境中迎来温和复苏,看似为行业增长积蓄势能。带着对市场向好的预期,2024 年初,老板电器副董事长兼总经理任富佳为企业定下双位数增长目标。然而现实与预期相悖,过去一年,这家老牌厨电企业不仅未能达成业绩目标,曾提出的“三年再造一个老板电器”愿景,也因市场下行压力面临落空风险。作为“企二代”管理者,任富佳在掌舵企业穿越市场周期的过程中,正面临着前所未有的挑战。4月29日,老板电器(002508.SZ)发布了2024年年度报告及2025
    华尔街科技眼 2025-04-30 12:40 184浏览
  • 文/郭楚妤编辑/cc孙聪颖‍越来越多的企业开始蚕食动力电池市场,行业“去宁王化”态势逐渐明显。随着这种趋势的加强,打开新的市场对于宁德时代而言至关重要。“我们不希望被定义为电池的制造者,而是希望把自己称作新能源产业的开拓者。”4月21日,在宁德时代举行的“超级科技日”发布会上,宁德时代掌门人曾毓群如是说。随着宁德时代核心新品骁遥双核电池的发布,其搭载的“电电增程”技术也走进业界视野。除此之外,经过近3年试水,宁德时代在换电业务上重资加码。曾毓群认为换电是一个重资产、高投入、长周期的产业,涉及的利
    华尔街科技眼 2025-04-28 21:55 147浏览
  • 贞光科技代理品牌紫光国芯的车规级LPDDR4内存正成为智能驾驶舱的核心选择。在汽车电子国产化浪潮中,其产品以宽温域稳定工作能力、优异电磁兼容性和超长使用寿命赢得市场认可。紫光国芯不仅确保供应链安全可控,还提供专业本地技术支持。面向未来,紫光国芯正研发LPDDR5车规级产品,将以更高带宽、更低功耗支持汽车智能化发展。随着智能网联汽车的迅猛发展,智能驾驶舱作为人机交互的核心载体,对处理器和存储器的性能与可靠性提出了更高要求。在汽车电子国产化浪潮中,贞光科技代理品牌紫光国芯的车规级LPDDR4内存凭借
    贞光科技 2025-04-28 16:52 233浏览
  • 在CAN总线分析软件领域,当CANoe不再是唯一选择时,虹科PCAN-Explorer 6软件成为了一个有竞争力的解决方案。在现代工业控制和汽车领域,CAN总线分析软件的重要性不言而喻。随着技术的进步和市场需求的多样化,单一的解决方案已无法满足所有用户的需求。正是在这样的背景下,虹科PCAN-Explorer 6软件以其独特的模块化设计和灵活的功能扩展,为CAN总线分析领域带来了新的选择和可能性。本文将深入探讨虹科PCAN-Explorer 6软件如何以其创新的模块化插件策略,提供定制化的功能选
    虹科汽车智能互联 2025-04-28 16:00 171浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 169浏览
  • 在智能硬件设备趋向微型化的背景下,语音芯片方案厂商针对小体积设备开发了多款超小型语音芯片方案,其中WTV系列和WT2003H系列凭借其QFN封装设计、高性能与高集成度,成为微型设备语音方案的理想选择。以下从封装特性、功能优势及典型应用场景三个方面进行详细介绍。一、超小体积封装:QFN技术的核心优势WTV系列与WT2003H系列均提供QFN封装(如QFN32,尺寸为4×4mm),这种封装形式具有以下特点:体积紧凑:QFN封装通过减少引脚间距和优化内部结构,显著缩小芯片体积,适用于智能门铃、穿戴设备
    广州唯创电子 2025-04-30 09:02 205浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦