Fusion Compiler介绍 | 业内唯一RTL2GDS工具

新思科技 2020-07-24 00:00

感谢对新思科技的关注!

小陈啊
这个项目最重要的模块就交给你了!
新工艺嘛,指标要比上一代要稍微提高点,
不然项目组那里不好交代,是吧?
面积小点,小30%吧,
功耗,也要少30%,
频率嘛,再提高300MHz
搞出来给你放一周TO假,
搞不出来的话,

你就要被搞了!



随着摩尔定律持续演进,更高性能、低成本的电子产品利益了全人类。
大家都知道手机上可以吃鸡了,AI芯片可以下围棋了……
却不知道,芯片物理设计师的头发越来越少,
腰也越来越不好……
脖子也一样……

早在六年前,S就意识到这个挑战,即刻决定投资一个持续数年的项目,目标是要建立一个全新的数字设计平台。 在2018年底推出了成品,也就是今天的Fusion Compiler。作为史上第一且唯一RTL-to-GDSII全流程工具,迅速在业内被大规模采用,它基于单一数据库模型的设计平台,共享数据库让平台上所有的综合引擎,物理引擎,优化引擎,还有机器学习延伸出来的方法,在整个平台上任何一个环节上都可以自由启用,达到更高层次的PPA……(此处略去1000字)

说了这么多,但是,本公众号却迟迟没有写点Fusion Compiler相关的文章。为啥哩?

首先是因为我心里发虚。最近一年我都在做Machine Learning相关的东西,没有啥机会跑FC。看到同事们天天跑FC,跑一个,成功一个,恨的我牙痒痒的。然并卵,老板还是没有给我机会做FC。所以,以我有限的FC经验来写FC的文章,真的有些发虚,怕把一个好好的技术给讲错了。


其次是同事们太忙了,跟好几个FC专家约过稿,但未果。跟我说现在FC的engagement太多,忙不过来呀。耽误了他的engagement就是耽误他promotion的机会。我靠,都这么说了,我就不好意思再催稿了。只能祝你们早日升principle,scientist,fellow,CEO……

然而时不我待,等大家都会用FC之后,再写FC的文章就意义不大了。所以,得硬着头皮,来写点FC的东西,希望对大家有用。水平有限,错误难免,请多多包涵!


FC是做什么的?


FC 是Fusion Compiler的简称,是 单个工具,能完成综合和布局布线 即输入RTL,输出GDS,故称RTL2GDS的工具。

个人理解,FC是芯片逻辑综合历史上的第三次工业革命。第一次是Synopsys发明的DC,用工具来做综合;第二次是十多年前的DCT/DCG的出现,即带物理信息的综合,大大的提高了综合的质量,让普通的公司做高频设计不再是梦想。第三次就是FC的出现,不仅把综合和布局布线融合在一起,还引入了大量新的技术,再一次大大的提升了芯片的QoR和设计周期!



FC有啥优点?


优点很多,比如:
● 单个工具里完成综合、布局和布线, 统一的UI和数据库
● Runtime飞快
● PPA巨好
● 和ICC2完全兼容的command,app option和database
● 可以一个人/team快速完成综合和布局布线
● 其他各种先进feature。比如无缝整合StarRC跟PrimeTime的引擎;CCD everywhere;DPS for better IR Drop
● ……



FC具体的流程是什么样的?


FC的流程可简单分为三步:

● compile_fusion
● CTS
● route
重点在第一步compile_fusion,第二步和第三步与ICC2的流程基本一样。
第一步compile_fusion是做综合和布局。其包含了若干子步骤,包括逻辑映射,逻辑初步综合,place,带物理信息的综合,pre-route 优化,legalization等等。compile_fusion结束后,是一个已经做好place和legalize的database,可以直接做CTS了。

要注意的是:

●  DFT的插入也是在compile_fusion里完成的。
●  我们也可以简单理解,FC的compile_fusion是把DCG的综合和ICC2 的place两者融合在一起了。注意,这么表达是为了好理解,实际上FC绝不是把两者合在一起这么简单!
●  FC里的综合和布局不再是独立的两个步骤了,而是融合在一起,你中有我,我中有你。双剑合璧,玉女心经……



FC采用什么database?


FC采用和ICC2一模一样的ndm的database,和ICC2完全兼容。



为什么FC的runtime会飞快?


我们看看过去,以前的流程是DCG+ICC2,或者更先进点的DC-NXT + ICC2。这套经典流程是物理综合和P&R分开来做,一般也是两个team来做的。在过去10年中,被产业界广泛使用。然而再好的东西,也有被超越的一天。因为它在先进工艺、高PPA需求、大规模的设计面前,渐渐力不从心。比如runtime:

FC的综合引擎代码是全部重新写过的,构架和算法是全新的。相比较以前的综合工具,就像是高铁和汽车的区别,这速度嗷嗷的。

● 在传统的流程中,很多步骤会重复多次,像placement,global route,pre-route optimizaiton等。比如DCG一般做两次compile_ultra,然后在ICC2里,即使走SPG flow,也会再跑两次place和两次optimization。如果不走SPG flow,则重复步骤更多了。而FC就非常简洁,每一个步骤都不浪费,所以相对于传统flow,FC的runtime节省非常多。

● 从correlation角度考虑,以前由于物理综合和P&R的引擎不会100%一样,加上如果脚本不一样,物理信息不一样等等,导致综合和P&R的correlation会变化,可能会导致来回多次迭代。而FC没有任何correlation的问题,省却了很多迭代的时间。

● ……



为什么PPA会好很多?


导致PPA提升的因素有很多:
●  综合的代码重写,多数布局和优化的核心代码也重写。新构架和新算法带来很多PPA的收益。
●  步骤融合在一起带来很多好处。比如compile_fusion不等于简单的“综合+布局”,所谓fusion,“融合”,就是综合、布局、优化等放在一起做,而不再是分开的步骤。举个例子,initial_opto这个步骤,不仅仅做优化,而还会做物理综合、布局、CCD,CTS,ICG优化,layer promotion等等。
●  有些后端优化技术提前做,有些前端综合技术往后做,对PPA收敛都会有很大帮助。
● 其实这不是一个新的概念,但是以前一直没有很大的突破。因为在传统的流程里面,前端跟后端工具不是在一个基础架构上,所以把前端引擎移植到后端的工具里面,或是把后端的引擎移植到前端工具里面都不是很容易做到。最后就是做了两套工具各自想办法去解决关联的问题。
● 而在Fusion Compiler这个新的平台上面,所有的引擎都在同一个数据模型上面,所以说所有的这些方法跟引擎可以自由的在任何环节都可以启用。比如说在逻辑综合的过程中要去启用一些布局绕线或是时钟优化的引擎确保收敛,或是绕线的过程中去启用一些局部综合的手法解决congestion等等,都能够轻松做到,而且同时确保设计收敛。因为不论在哪里启用,都是同一个引擎,设计意图,方法或者是这些优化模型都是一致的,确保不会造成不必要的来回,免去掉任何设计收敛的风险。
● 没有correlation问题,所有步骤的引擎都是一样的。complie_fusion阶段不用再加那么多margin,所以能带来非常巨大的power和area收益。
● ……




什么是FC的DPS?


FC的dynamic power shaping, 简称DPS, 能够识别寄存器组,从而制造时钟时序的偏差,错开翻转的时机,把电流分布开,降低电流高峰。 DPS的独特功能,使用FC的CCD everywhere功能,能够在设计的早期,甚至综合的过程中就能启用的压降优化,达到一个从基础架构上就能经得起压降的设计。‘’


什么是FC的CCD everywhere?


CCD是Concurrent Clock Data Optimization的缩写,也就是类似useful skew的意思啦,工具会同时去调整时钟树和优化data path,达到最好的性能。


那everywhere呢,就是哪里都有ccd。比如综合里会调用ccd,布局会调用ccd,CTS会调用ccd,pre-route optimization会,post-route optimization也会。每个阶段都去调整始终树,就会得到更好的功耗/面积和频率。特别是在综合阶段就看ccd,对功耗和面积的好处非常的明显。



FC包含哪些DFT相关功能?


DC里有的,比如 Core wrapper,串链等,在FC里面都有。

DC里没有的,比如MBIST,CODEC,OCC这些,FC里面也可以做。
可以简单认为,FC里面可以完成所有DFT的功能。
由于FC的DFT功能太强大,下次可以开个专题详谈。

FC适合什么设计?


任何设计都可以用FC。

先进工艺,大规模的设计,会有更多的收益。能减少关键模块的TAT,提高关键模块的PPA。




前后端人员怎么分工?


小公司的前后端可能都是一个人做。但大公司分工较细,前后端是不同的team做。传统流程,前后端各用一个工具,前端人员给netlist和DEF给后端。然而如果用FC,前后端如何分工呢?这个智者见智,仁者见仁,根据自己公司的情况来安排。一般来说有以下几种情况:

● 后端人员来做综合和P&R,一个人全部搞定。

● 前端人员做综合,看initial_opto的结果,并以此来判断综合的质量。交付又分为二种,一种是把RTL交付给后端人员,后端人员用自己的环境重新做综合;第二种是把initial_opto的database或者netlist交付给后端人员,后端工程师接着往下做final_place和final_opto。

● 前端人员做综合,直接做到final_opto,并把final_opto的database交付给后端,后端人员只需要接着跑CTS即可。



FC容易上手吗?


如果你是ICC2的user,上手会非常快,因为命令和app option都是和ICC2一样的风格,database也是一样的。

如果你只是熟悉DC,那也不难,S提供了DC到FC的自动转换脚本!



结 语


个人认为FC这个平台是数字设计的未来。推出不到两年,在FC这个全新的平台上已经看到非常显著的好处,而且这个只是这个平台的第一步,未来会继续去探索还有哪一些机会利用这个平台,在不同的环节上启用在传统流程里受局限的一些优化方法。在不久的将来一定可以利用这个平台解锁更多更多的设计优化潜力。



/////////


新思科技 新思科技(Synopsys, Inc.)以芯片产业的“根技术”推动AI、5G、高性能计算、智能汽车等前沿应用的核心技术发展。
评论
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 87浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 136浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 74浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 68浏览
  • 概述 通过前面的研究学习,已经可以在CycloneVGX器件中成功实现完整的TDC(或者说完整的TDL,即延时线),测试结果也比较满足,解决了超大BIN尺寸以及大量0尺寸BIN的问题,但是还是存在一些之前系列器件还未遇到的问题,这些问题将在本文中进行详细描述介绍。 在五代Cyclone器件内部系统时钟受限的情况下,意味着大量逻辑资源将被浪费在于实现较大长度的TDL上面。是否可以找到方法可以对此前TDL的长度进行优化呢?本文还将探讨这个问题。TDC前段BIN颗粒堵塞问题分析 将延时链在逻辑中实现后
    coyoo 2024-12-10 13:28 101浏览
  • 本文介绍Linux系统(Ubuntu/Debian通用)挂载exfat格式U盘的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。修改对应的内核配置文件# 进入sdk目录cdrk3562_linux# 编辑内核配置文件vi./kernel-5.10/arch/arm64/configs/rockchip_linux_defconfig注:不清楚内核使用哪个defc
    Industio_触觉智能 2024-12-10 09:44 92浏览
  • 【萤火工场CEM5826-M11测评】OLED显示雷达数据本文结合之前关于串口打印雷达监测数据的研究,进一步扩展至 OLED 屏幕显示。该项目整体分为两部分: 一、框架显示; 二、数据采集与填充显示。为了减小 MCU 负担,采用 局部刷新 的方案。1. 显示框架所需库函数 Wire.h 、Adafruit_GFX.h 、Adafruit_SSD1306.h . 代码#include #include #include #include "logo_128x64.h"#include "logo_
    无垠的广袤 2024-12-10 14:03 69浏览
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 47浏览
  •         在有电流流过的导线周围会感生出磁场,再用霍尔器件检测由电流感生的磁场,即可测出产生这个磁场的电流的量值。由此就可以构成霍尔电流、电压传感器。因为霍尔器件的输出电压与加在它上面的磁感应强度以及流过其中的工作电流的乘积成比例,是一个具有乘法器功能的器件,并且可与各种逻辑电路直接接口,还可以直接驱动各种性质的负载。因为霍尔器件的应用原理简单,信号处理方便,器件本身又具有一系列的du特优点,所以在变频器中也发挥了非常重要的作用。  &nb
    锦正茂科技 2024-12-10 12:57 76浏览
  • 智能汽车可替换LED前照灯控制运行的原理涉及多个方面,包括自适应前照灯系统(AFS)的工作原理、传感器的应用、步进电机的控制以及模糊控制策略等。当下时代的智能汽车灯光控制系统通过车载网关控制单元集中控制,表现特殊点的有特斯拉,仅通过前车身控制器,整个系统就包括了灯光旋转开关、车灯变光开关、左LED前照灯总成、右LED前照灯总成、转向柱电子控制单元、CAN数据总线接口、组合仪表控制单元、车载网关控制单元等器件。变光开关、转向开关和辅助操作系统一般连为一体,开关之间通过内部线束和转向柱装置连接为多,
    lauguo2013 2024-12-10 15:53 81浏览
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 49浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-10 16:13 105浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 77浏览
  •         霍尔传感器是根据霍尔效应制作的一种磁场传感器。霍尔效应是磁电效应的一种,这一现象是霍尔(A.H.Hall,1855—1938)于1879年在研究金属的导电机构时发现的。后来发现半导体、导电流体等也有这种效应,而半导体的霍尔效应比金属强得多,利用这现象制成的各种霍尔元件,广泛地应用于工业自动化技术、检测技术及信息处理等方面。霍尔效应是研究半导体材料性能的基本方法。通过霍尔效应实验测定的霍尔系数,能够判断半导体材料的导电类型、载流子浓度及载流子
    锦正茂科技 2024-12-10 11:07 64浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦