应对摩尔定律挑战的一个典型方案是异构集成和3D-IC。这也是现在比较流行的所谓more than Moore ( 超越摩尔定律),在封装层面的革新,是许多人认定延伸摩尔定律的一种可行方案。

奉行摩尔定律的历史,本质上已经不复存在了。现在业界很流行的讲法是Jim Keller提的“domain-specific (领域专用)”,即虽然晶体管数量很难按照定律攀升,但具体应用场景,对性能的渴求依然不变。为了保持芯片的性能提升,唯有针对特定场景或“特定领域”制造芯片,甚至发展成专用芯片,性能和能效比自然又能完成新一轮的飞跃。

比如谷歌在发展人工智能的过程中,脱离GPU自己开发了AI专用芯片TPU——这是个ASIC。“谷歌开始做了,Facbook,亚马逊,百度、阿里巴巴就都有可能跟进。你会发现,这些做数据中心的大型企业都会想办法做自己的芯片。这些芯片本身不一定赚钱,因为它量有限,又不对外出售,但芯片会驱动这些数据中心企业自身业务的优化,在系统层面产生经济效益。”在上海举行的CISES(中国国际半导体高层峰会)上,赛灵思中央工程部芯片技术副总裁吴欣先生和我们聊道。

赛灵思中央工程部芯片技术副总裁 吴欣

我们在《深度学习的兴起,是通用计算的挽歌?》一文中曾经探讨过这个问题。除了台积电、Intel这类从事制造工艺一线生产的企业,通用计算在摩尔定律上的难以为继几乎是行业共识,不过针对“domain-specific”真正的发展方向,不同层级的半导体行业参与者,在看法上却可能有着很大差别。

甚至仅是针对某一个门类的应用场景,比如AI芯片,市场参与者的态度都差别甚大。在今年的WAIC世界人工智能大会上,有学者提到AI芯片就分成两个派系,其一是谷歌TPU、地平线征途、Intel Nervana,赛灵思DPU IP为代表的专为卷积神经网络(CNN)提供加速的芯片,其二是Graphcore、Wave Computing、华为为代表,所推出的具有弱编程特性的AI芯片。这种某个特定领域相对通用,以及绝对专用的思路,都在摩尔定律发展停滞的时代,显得格外有趣。

更有趣的是,天生具有可重配置灵活应变能力的FPGA,在这样一个时代交替的过程里,异军突起,两大领头企业一个被Intel战略收购,一个股票与收入连连创纪录, 应用领域全面扩展,似乎迎来了其发展历程中的新黄金时代。

那么, FPGA 究竟将在这个时代扮演何种角色?这是我们和吴欣,这个在FPGA的发明者赛灵思公司就职26年,经历过从0.6um 到 7纳米共14 代以上芯片技术开发工作的业界资深人士所探讨的话题。

最适用的才是最好的

应对摩尔定律挑战的一个典型方案是异构集成和3D-IC。这也是现在比较流行的所谓more than Moore ( 超越摩尔定律),在封装层面的革新,是许多人认定延伸摩尔定律的一种可行方案。“赛灵思的异构集成已经做了很多年了。这张图我们也用了好几年了。”

下面这张图就是典型的一些芯片堆叠方案。这些方案的核心思路,是一块芯片上包含不同die模块,每个die可以用不同的工艺来制造,这些die再通过各类封装技术集成到同一颗成品芯片内。不同芯片互联时,会有个中介层(interposer),位于封装基板(package substrate)以及die之间。Die与die的通讯通过interposer内的互联进行。所谓的“2.5D”封装也属于此类,典型如台积电的CoWoS、Intel的EMIB(EMIB有时也被认为是单独的一个类别,因为它是在substrate中加入了一层silicon bridge)。
20190919-201.png
图片来源:赛灵思

在所谓的3D封装(active interposer)中,interposer内部除了电路之外,也可以存在其他器件,典型的比如Intel的Foveros技术。3D-IC有时又指die堆叠,通过TSV一类技术在多层间实现互联,典型如索尼应用于图像传感器和ISP堆叠互联的Cu-Cu dielectric hybrid bonding,相比micro bump的密度增加将近百倍——我们在之前的文章中也提过。这类方案能够实现芯片制造和设计的效率最大化,这某种程度上是降低成本的一种方案;高速互联的3D封装,还能提升传输性能。这是它被称作摩尔定律延续的原因。

上面这张图的纵轴是连接密度,即单位面积内有多少个连接;横轴是布线密度。不同的异构封装方案,集成度是有差异的,这张图上,“越往右上角,功能就越强。左下角功能会弱一些,但成本低。”
20190919-202.jpg
上图红色部分,是当赛灵思的FPGA按照横轴工艺节点发展,原有的照摩尔定律可实现最大逻辑单元数量;而橙色部分,则是采用异构集成之后的数量

那么是否3D封装一定更好,或者上面这张图右上角就比左下角更好呢?用吴欣的话来说:“异构集成没有好与不好之分,只有适用和不适用。”“你的产品最适合哪个,就去选哪个。”

“我们2011做的第一颗异构集成芯片是V2000T。当时,如果我们不用异构集成的话,要做这么大的芯片,很大。”吴欣用手稍稍比划了一下,“这么大的芯片,一片12寸的晶圆(wafer)在比较早期这样的芯片的良率只是两个。因为良率与面积的关系不呈线性而是呈指数关系。如果这颗芯片切分成四块,每片wafer就能有100个good dies,每四个组成一颗芯片,就有25颗芯片,考虑到额外的一些损失:哪怕损失一半,那也有12个半。相比不做异构集成,有6倍的益处。对客户来说,也就不需要花6倍的价钱去买。”

但从经济方面考虑,这种收益也并不是绝对的。“再举个例子,2014年我们知道5G是个方向,针对5G我们当时第一次把数模转换和可编程模块放在一起。我们做了一个65nm的ADC/DAC (数模转换),加上我们自己的可编程模块是28nm,两个异构集成在一起。客户说产品的确不错,但无法满足价格考量。所以一直到3年以后,工艺进步至16nm,我们最后还是把它集成在了一个单独的芯片上,monolithic (单芯片),造价也终于可接受了。”吴欣所说的这个例子,应该是指现如今赛灵思正火的融数字与模拟为一体的RFSoC 产品系列。

“所以没有好和不好之分,只有最适合你的。”

Domain-specific的艺术

“在做这种异构集成的时候,不像过去那样——不是先想好要做异构集成,然后再去做;而是,要从架构的角度出发,我要做一个什么样的架构。这个架构要做单片也好、两个或三个die也好,架构上它们要能够可扩展。再进一步软件做什么,硬件做什么制程做什么。而不是为了做异构集成而去做异构集成。”

这两年提“架构创新”的行业参与者实际上很多,因为摩尔定律迟滞,所以才更需要架构革新。我们今年就听过各层级参与者在架构方面的革新理念,比如Cadence、Mentor这些EDA层级的参与者,除了宣传自家机器学习IP以外,就是在EDA工具流程中融入机器学习。

不过更重要的是,“系统设计(system design)”成为一个新的争夺高地。Cadence在今年的CDNLive China 2019大会上曾经提到,更偏向整个系统设计的下游企业,很多都更喜欢自己造芯片,比如iPhone的A系列SoC,以实现更佳系统性能和能耗比,与此同时还兼顾安全性。谷歌TPU亦属此类。这其实也是芯片越来越从通用偏向“domain-specific”的一种表现方式。

或许不同层级的参与者对“系统(system)”的范围界定有差异,但个中思路却是一致的。吴欣告诉我们:“以前system architecture都由system厂商去做,比如思科、谷歌就做自己的system architecture,这里面Intel只提供芯片,中间软件则由微软提供。但这种相对通用的方式,效率没那么高:这个时候通用芯片提供商不会在意客户怎么用芯片,,微软会告诉客户要怎么算,就把它算出来就好。”

“但现在你会发现,数据中心最大的成本是什么?是能源(功耗)。他们花了那么多钱去运营数据中心,然后又要花那么多钱去提供能源和冷却系统。通用芯片的效率就没有那么高,或者并不是那么好用。为了优化,谷歌于是就做了自己的TPU。”这实则也是吴欣所说,从架构的角度出发,围绕应用场景做芯片的一个具体例证。

从这个角度来看,或许现如今芯片制造商的一个很大竞争对手,已经是自己下游客户了——他们越发考虑自己做针对特定应用场景,domain-specific,同时能够和整个系统扣合更紧密的芯片。像赛灵思这样的上游玩家,为客户提供系统设计的支持实际上才显得更加迫切。

20190919-203.png

在去年的Hot Chips大会上,我们就看到赛灵思题为Adaptable Intelligence: the Next Computing Era(灵活应变的智能:下一个计算时代)的主题演讲,其中提到赛灵思做出的系统级架构支持,如上图所示。吴欣特别为我们解释说:“我们原本是做最下面这层芯片。而现在为了最上层客户不同的客户需求不同,比如汽车、5G或者医疗的客户,我们及业界就把中间层级都准备好,这样每个客户就可以把自己的需求、算法很容易地融入进来。”

“大家都希望用相对domain-specific的架构,不同的客户需要不同的东西。赛灵思就提供这样一个平台,需要5G就放5G的平台,即便是5G本身,不同的参与者,比如中兴、诺基亚、爱立信,每家都有自己的算法。并非一颗芯片给所有人就都好用,但有些东西又是可以共用的,我们提供这样一个开放的平台。”

“不同的人有特别的需求,比如车载,Nissan和Mercedes想做的应用可能就不一样。应用场景不同、算法不同,我们是要让每个人都能适用。”所以,赛灵思对于domain-specific的理解,实际上更偏向于在保有FPGA灵活基础上的“专用”,针对客户仍然提供多样化的选择。

自己造芯片是趋势吗?

实际上,这里赛灵思为客户提供相对灵活的domain-specific选择,与下游客户自己选择做domain-specific的ASIC芯片,是两套方案。在吴欣看来,像谷歌这样有足够业务规模,自己做芯片设计能够促成应用层面足够经济效益的,毕竟还是少数。“而且谷歌的AI技术,也不是只需要一个TPU,它也需要我们的芯片,也需要x86。”所以并不是都会由自己去做。

半导体行业协会(SIA)2017年估算,针对新一代技术节点建工厂,配套制造设备,大约需要70亿美元。在过去25年间,构建最新制程节点工厂的投入每年平均提升11%,如果加上工艺开发,则可将成本每年推升13%(2001-2014)。实际上,现如今参与最先进制程工艺制造的市场参与者已经只剩三家了。按照历年数据,理想情况下如果这几名参与者的市场份额均分,则企业复合年增长率约14%。这样一来,和13%的成本提升两相抵消,才产生了盈余。未来5nm、3nm的成本攀升还要持续。

“从 28/20nm开始,制造成本就开始上升得比较多。主要原因是多次曝光(multi-patterning)。以前还是用193nm的lithography技术。到了20nm,只能通过多次曝光去曝出这些比193nm自身小了很多的线条。这样一来lithography的成本就增加了。简单来说,本来是一次曝光,现在两次:原来一个机台一天可以做2000片wafer,若两次曝光就只能做1000片了。一片wafer从头到尾大概需要几十步的lithography步骤,如果里面有一半需要两次曝光,成本就增加了25%。”吴欣说。

除了人尽皆知的在3nm节点时期,FinFET转向GAA,在结构上带来的成本推升,“就lithography技术来说,整个业界花了二三十年的时间把EUV(极紫外光)做出来,今后几代lithography都会使用EUV。在3nm以后,大概EUV本身就需要multi-patterning,或者加上High-NA(高数值孔径)。EUV设备,一台机台就需要2亿美金。台积电、Intel的新工艺生产线都需要十几台这样的设备。这些都是制造成本攀升的组成部分。”
20190919-204.jpg
来源:BEOL Interconnect Innovations for Improving Performance, Paul Besser, NCCAVS

“后端(BEOL)的金属工艺,还需要有更新的技术来支持,金属电阻挑战性加强。”上面这张图来自2017年Paul Besser在NCCAVS的讲义,主要说的是铜线线宽与电阻(Rs)之间的关系。在其中的相应很窄线宽区域内,产生了较高的电阻。“这一层我们叫MD/VD,这一层的电阻大概会吃掉3%的性能。下一代缩一半,影响就扩大到6%,再下一代则增加到12%。所以技术进步的好处都会被它吃掉,我们就需要有新的技术工艺,或者新的架构来解决问题。”

上面这些说的还只是制造成本,在设计成本上。“以前工艺迭代,我们设计芯片,只需要了解65nm比90nm小多少,我们直接把90nm上的设计,拿到65nm工艺上,重新设计一下马上就能做,整个过程半年、一年就完成了。但现在,7nm和16nm有很多不一样的地方,不能把16nm的设计直接放到7nm里面去用,从架构到设计,到后面每部分工作都不一样——唯有重新优化才能做到最好的优化。”

“我们16nm最大的FPGA芯片VU19P,有350亿个晶体管。
20190919-205.jpg
”设计越来越复杂,设计周期变长,需要的人员变多。做设计,过去可能只需要1年,现在就需要2年;参与芯片设计的人员过去可能是1000人,现在变成2000人(或4000人/年),成本提升到4倍。这对芯片设计而言就成了很大的负担。必须要有足够多的钱和人才,才能把芯片做出来。”

“现在和过去相比,每一代增加至少30-50%的设计成本。要自己做芯片,要准备好4000人/年,做出来之后4000人还要再做下一代。有多少业务能够承受这样的设计成本?”“有多少企业能够自己做芯片?即便谷歌,TPU部门也并不是很大,远不到自己设计、维持、运营的程度,其它的芯片供应商在这方面在为谷歌提供服务,这也是因为谷歌有钱,并不是人人都能做。”“甚至不光是设计团队的问题,现在做一套7nm mask就将近上千万美元一套。”

“以前一年超过几十万颗的量,你就可以自己做ASIC,但现在不是,没有几百几千万,没有那么大的芯片需求量,最终是不划算的。采用FPGA,或自己做芯片,这个成本收益的对接点正越来越靠后。”

5G、自动驾驶,没有想象中发展那么快

新工艺成本激增的速度,在行业平均的复合年增长率几近持平的情况下,那些市场规模足够大的参与者才有机会持续获利。”能够承受4000人/年设计成本的行业其实不多:手机是一个,因为更换频繁;电脑CPU也是,毕竟电脑也是要更新的;存储器是一个,它很特殊,数据中心等领域都需要存储,而且不嫌多;另外,游戏需求加上AI机器学习、深度学习的需要,所以GPU也是可持续的业务。”

FPGA在这个过程中,实际上是比较特殊的存在。“我们的客户各行各业的都有,每个客户拿FPGA去做不同的东西,成本会被大家分担掉,而且每个客户也就不需要花很多钱。总的市场让我们也能够走下去。”

如今出现了一些新的推动力,比如5G、自动驾驶、AI,它们都被认为是半导体行业的重要驱动力和新的机遇。不过这些行业是否如很多人所想的那样会那么快。

“其实每一代移动通讯技术基本都做了10年,而5G恐怕连10年都不止。现在大家都在做sub-6GHz的部分,而且现在主要是NSA(non-standalone),借用4G的架构和基础设施。将来4G基础设施都换成5G,才能达到5G预期的延迟(laterncy),之后才会考虑毫米波部分的发展。”

“5G最大的挑战是大量的投资资金,钱需要从更新的应用中来;所以要解决钱的问题,最终还是要靠时间。5G大概需要很长时间才会慢慢成熟起来。”

“AI、自动驾驶也是很热门的话题,但汽车的可靠性、质量要求远高于其他领域。PPM每高出一点,就是关乎许多人生命安全的问题。而且自动驾驶的成本,未来还要求做到比传统技术更低,一般人才会愿意去购买自动驾驶汽车。但要求高可靠性,成本就会很高。这之间形成矛盾,整个转换过程会很漫长。”
“应用场景也好,架构也好,其实一直都在变。”

“赛灵思是希望,当你没有4000人/年的设计成本,没有上千万、上亿的市场时,你也可以做自己需要的domain-specific的芯片,我们可以让你做到。你可能只需要400人,甚至40人就可以做出来。”“而当每次场景、架构发生变化的时候,你也不需要再用4000人/年去重新做一颗芯片,而只需要花20分钟,重新编程,重新修改。”

“等到自动驾驶汽车、5G这些市场真正成熟以后,市场规模足够大了,10-20年以后,部分行业参与者那个时候要开始做自己的专用芯片,那是可以的。不过即便到那时,即便达到Nissan、Mercedes的市场容量,做专用芯片是否划算,是否可持续成长,都将一直是挑战。”
20190919-206.jpg
ACAP新一代计算平台,是赛灵思对上述理念的践行,是期望以AI和部分模块的固定化实现更高的效率,同时又有FPGA的灵活性。“FPGA比较方便,编程比较快,但以前效率没那么高。编程本身需要很多资源。数据在里面走的时候远没有ASIC来的快,或者也没有GPU快。我们也考虑这个问题,所以我们在里面放了很多硬化模块。数据要走这些模块时,我们就已经准备好了,所以不会比用ASIC来得慢。

显然在赛灵思的眼中,摩尔定律的放缓甚至失效,以及3D-IC异构集成为摩尔定律的“续命”,都是FPGA发展的重要机遇。基于两个原因:一是domain-specific成为推动特定行业、领域发展的关键词;二是半导体从设计到制造成本越来越高,一般的行业和企业都难以承受。以及在5G、自动驾驶等新兴行业尚需发展时间的情况下,这些都让FPGA成了优选。

责编:Yvonne Geng

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 赛灵思不卖中国,怎么个好法?!
阅读全文,请先
您可能感兴趣
Altera正式宣布从英特尔分拆,并升起了象征独立的公司旗帜。Altera的独立对于整个FPGA行业来说是一个重要的里程碑事件,这将使Altera能够更加专注于技术创新和产品开发,从而推出更多符合市场需求的新产品,独立后的Altera也将有机会与其他FPGA厂商展开更激烈的市场竞争......
据台湾工商时报报道,英伟达(Nvidia)已正式成立ASIC(应用特定集成电路)部门,并计划在中国台湾招募上千名芯片设计、软件开发及AI研发人员。
莱迪思在最近的开发者大会上发布了最新的Nexus 2平台和对应的小型FPGA产品。这次我们有机会看看相比竞品,Nexus 2是怎么做到低功耗和高性能的...
莱迪思(Lattice)正在考虑对英特尔旗下的FPGA业务Altera发起收购要约,对于国产FPGA行业而言,这一消息无疑带来了新的挑战和机遇。尽管在技术实力、产品性能及市场份额等方面与国际巨头尚有一定差距,但近年来国产FPGA的发展势头不容小觑……
继今年4月AMD宣布推出第二代Versal AI Edge系列和Versal Prime系列之后,日前,该公司又宣布推出第二代Versal Premium系列,使得第二代Versal系列的版图更趋完整。
在金融行业的高频交易中,每一纳秒都至关重要,会导致从盈利几百万美元到巨额亏损之间的差别。正是在这样的背景下,AMD推出了其最新的金融科技加速卡——Alveo™ UL3422。这款加速卡不仅满足了金融机构对高性能和低时延的迫切需求,还以其独特的优势引领着金融交易的新时代。
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
Arteris 是领先的系统 IP 提供商,致力于加速当今电子系统中的系统级芯片(SoC)开发。Arteris 的片上网络(NoC)互连 IP 和 SoC 集成自动化技术可实现更高的产品性能、更低的功
电影《金陵十三钗》剧照上周,一向低调的轻舟智航举办了一场媒体交流会,联合创始人、总裁侯聪和 CTO 李栋等轻舟智航核心成员亲临现场,讲述轻舟智航过去一年的成绩及未来展望。轻舟智航的 2024,成绩斐然
1月24日消息,虽然美国在半导体芯片领域对中国厂商各种打压,但现实结果是他们并没有成功。海关总署数据显示,2024年我国集成电路出口1594.99亿美元(约11350亿人民币),一举超过手机的1343
等效电阻ESR是晶体在等效电路中的总电阻。谐振电阻RR是晶振本身的电阻值。大小取决于晶体的内部摩擦、电极、支架等机械振动时的损失,以及周围环境条件等的影响损失。谐振电阻较大或者较小对电路有不同的影响。
计算存储的通用概念已走入死胡同,但利用固态硬盘(SSD)上巨大的板载带宽的针对性加速器可能有益于高性能计算。几年前,计算存储的概念在业内人士之间引起了讨论。它被吹捧为如何解决如何最大化CPU处理能力的
高端自动驾驶与物流需求带动激光雷达市场,预估2029年产值达53.52亿美元根据TrendForce集邦咨询最新《2025红外线感测应用市场与品牌策略》报告,目前激光雷达(LiDAR)在车用市场主要用
去年有望创下历来最佳业绩的SK海力士,已决定向员工发放每月本薪1,500%的绩效奖金,相当于15个月的年终,创下自家有史以来最高的奖金水准,显示其高频宽存储器(HBM)业务正得益于人工智能(AI)热潮
当前,人工智能(Artificial Intelligence,AI)发展势头愈发强劲,呈现出一种不可阻挡的迅猛态势。从广为人知的大型语言模型(Large Language Models,LLMs)如
本视频演示,如何将仿真器连接到使用安全ID锁定的RL78设备。  00:00:介绍 00:25:调试  00:40:设定安全ID  相关资源: • Visual Studio Code - 如何在安装
昨天的时钟音箱的拆解文章:拆解时钟蓝牙插卡音箱-用单个LED直接代替数码管是个非常不错的降本设计思路我给电路板提了个建议,就是说上面2个2P排座,一个插电池,一个插喇叭的排座没必要区分红白色,就一种颜