应对摩尔定律挑战的一个典型方案是异构集成和3D-IC。这也是现在比较流行的所谓more than Moore ( 超越摩尔定律),在封装层面的革新,是许多人认定延伸摩尔定律的一种可行方案。

奉行摩尔定律的历史,本质上已经不复存在了。现在业界很流行的讲法是Jim Keller提的“domain-specific (领域专用)”,即虽然晶体管数量很难按照定律攀升,但具体应用场景,对性能的渴求依然不变。为了保持芯片的性能提升,唯有针对特定场景或“特定领域”制造芯片,甚至发展成专用芯片,性能和能效比自然又能完成新一轮的飞跃。

比如谷歌在发展人工智能的过程中,脱离GPU自己开发了AI专用芯片TPU——这是个ASIC。“谷歌开始做了,Facbook,亚马逊,百度、阿里巴巴就都有可能跟进。你会发现,这些做数据中心的大型企业都会想办法做自己的芯片。这些芯片本身不一定赚钱,因为它量有限,又不对外出售,但芯片会驱动这些数据中心企业自身业务的优化,在系统层面产生经济效益。”在上海举行的CISES(中国国际半导体高层峰会)上,赛灵思中央工程部芯片技术副总裁吴欣先生和我们聊道。

赛灵思中央工程部芯片技术副总裁 吴欣

我们在《深度学习的兴起,是通用计算的挽歌?》一文中曾经探讨过这个问题。除了台积电、Intel这类从事制造工艺一线生产的企业,通用计算在摩尔定律上的难以为继几乎是行业共识,不过针对“domain-specific”真正的发展方向,不同层级的半导体行业参与者,在看法上却可能有着很大差别。

甚至仅是针对某一个门类的应用场景,比如AI芯片,市场参与者的态度都差别甚大。在今年的WAIC世界人工智能大会上,有学者提到AI芯片就分成两个派系,其一是谷歌TPU、地平线征途、Intel Nervana,赛灵思DPU IP为代表的专为卷积神经网络(CNN)提供加速的芯片,其二是Graphcore、Wave Computing、华为为代表,所推出的具有弱编程特性的AI芯片。这种某个特定领域相对通用,以及绝对专用的思路,都在摩尔定律发展停滞的时代,显得格外有趣。

更有趣的是,天生具有可重配置灵活应变能力的FPGA,在这样一个时代交替的过程里,异军突起,两大领头企业一个被Intel战略收购,一个股票与收入连连创纪录, 应用领域全面扩展,似乎迎来了其发展历程中的新黄金时代。

那么, FPGA 究竟将在这个时代扮演何种角色?这是我们和吴欣,这个在FPGA的发明者赛灵思公司就职26年,经历过从0.6um 到 7纳米共14 代以上芯片技术开发工作的业界资深人士所探讨的话题。

最适用的才是最好的

应对摩尔定律挑战的一个典型方案是异构集成和3D-IC。这也是现在比较流行的所谓more than Moore ( 超越摩尔定律),在封装层面的革新,是许多人认定延伸摩尔定律的一种可行方案。“赛灵思的异构集成已经做了很多年了。这张图我们也用了好几年了。”

下面这张图就是典型的一些芯片堆叠方案。这些方案的核心思路,是一块芯片上包含不同die模块,每个die可以用不同的工艺来制造,这些die再通过各类封装技术集成到同一颗成品芯片内。不同芯片互联时,会有个中介层(interposer),位于封装基板(package substrate)以及die之间。Die与die的通讯通过interposer内的互联进行。所谓的“2.5D”封装也属于此类,典型如台积电的CoWoS、Intel的EMIB(EMIB有时也被认为是单独的一个类别,因为它是在substrate中加入了一层silicon bridge)。
20190919-201.png
图片来源:赛灵思

在所谓的3D封装(active interposer)中,interposer内部除了电路之外,也可以存在其他器件,典型的比如Intel的Foveros技术。3D-IC有时又指die堆叠,通过TSV一类技术在多层间实现互联,典型如索尼应用于图像传感器和ISP堆叠互联的Cu-Cu dielectric hybrid bonding,相比micro bump的密度增加将近百倍——我们在之前的文章中也提过。这类方案能够实现芯片制造和设计的效率最大化,这某种程度上是降低成本的一种方案;高速互联的3D封装,还能提升传输性能。这是它被称作摩尔定律延续的原因。

上面这张图的纵轴是连接密度,即单位面积内有多少个连接;横轴是布线密度。不同的异构封装方案,集成度是有差异的,这张图上,“越往右上角,功能就越强。左下角功能会弱一些,但成本低。”
20190919-202.jpg
上图红色部分,是当赛灵思的FPGA按照横轴工艺节点发展,原有的照摩尔定律可实现最大逻辑单元数量;而橙色部分,则是采用异构集成之后的数量

那么是否3D封装一定更好,或者上面这张图右上角就比左下角更好呢?用吴欣的话来说:“异构集成没有好与不好之分,只有适用和不适用。”“你的产品最适合哪个,就去选哪个。”

“我们2011做的第一颗异构集成芯片是V2000T。当时,如果我们不用异构集成的话,要做这么大的芯片,很大。”吴欣用手稍稍比划了一下,“这么大的芯片,一片12寸的晶圆(wafer)在比较早期这样的芯片的良率只是两个。因为良率与面积的关系不呈线性而是呈指数关系。如果这颗芯片切分成四块,每片wafer就能有100个good dies,每四个组成一颗芯片,就有25颗芯片,考虑到额外的一些损失:哪怕损失一半,那也有12个半。相比不做异构集成,有6倍的益处。对客户来说,也就不需要花6倍的价钱去买。”

但从经济方面考虑,这种收益也并不是绝对的。“再举个例子,2014年我们知道5G是个方向,针对5G我们当时第一次把数模转换和可编程模块放在一起。我们做了一个65nm的ADC/DAC (数模转换),加上我们自己的可编程模块是28nm,两个异构集成在一起。客户说产品的确不错,但无法满足价格考量。所以一直到3年以后,工艺进步至16nm,我们最后还是把它集成在了一个单独的芯片上,monolithic (单芯片),造价也终于可接受了。”吴欣所说的这个例子,应该是指现如今赛灵思正火的融数字与模拟为一体的RFSoC 产品系列。

“所以没有好和不好之分,只有最适合你的。”

Domain-specific的艺术

“在做这种异构集成的时候,不像过去那样——不是先想好要做异构集成,然后再去做;而是,要从架构的角度出发,我要做一个什么样的架构。这个架构要做单片也好、两个或三个die也好,架构上它们要能够可扩展。再进一步软件做什么,硬件做什么制程做什么。而不是为了做异构集成而去做异构集成。”

这两年提“架构创新”的行业参与者实际上很多,因为摩尔定律迟滞,所以才更需要架构革新。我们今年就听过各层级参与者在架构方面的革新理念,比如Cadence、Mentor这些EDA层级的参与者,除了宣传自家机器学习IP以外,就是在EDA工具流程中融入机器学习。

不过更重要的是,“系统设计(system design)”成为一个新的争夺高地。Cadence在今年的CDNLive China 2019大会上曾经提到,更偏向整个系统设计的下游企业,很多都更喜欢自己造芯片,比如iPhone的A系列SoC,以实现更佳系统性能和能耗比,与此同时还兼顾安全性。谷歌TPU亦属此类。这其实也是芯片越来越从通用偏向“domain-specific”的一种表现方式。

或许不同层级的参与者对“系统(system)”的范围界定有差异,但个中思路却是一致的。吴欣告诉我们:“以前system architecture都由system厂商去做,比如思科、谷歌就做自己的system architecture,这里面Intel只提供芯片,中间软件则由微软提供。但这种相对通用的方式,效率没那么高:这个时候通用芯片提供商不会在意客户怎么用芯片,,微软会告诉客户要怎么算,就把它算出来就好。”

“但现在你会发现,数据中心最大的成本是什么?是能源(功耗)。他们花了那么多钱去运营数据中心,然后又要花那么多钱去提供能源和冷却系统。通用芯片的效率就没有那么高,或者并不是那么好用。为了优化,谷歌于是就做了自己的TPU。”这实则也是吴欣所说,从架构的角度出发,围绕应用场景做芯片的一个具体例证。

从这个角度来看,或许现如今芯片制造商的一个很大竞争对手,已经是自己下游客户了——他们越发考虑自己做针对特定应用场景,domain-specific,同时能够和整个系统扣合更紧密的芯片。像赛灵思这样的上游玩家,为客户提供系统设计的支持实际上才显得更加迫切。

20190919-203.png

在去年的Hot Chips大会上,我们就看到赛灵思题为Adaptable Intelligence: the Next Computing Era(灵活应变的智能:下一个计算时代)的主题演讲,其中提到赛灵思做出的系统级架构支持,如上图所示。吴欣特别为我们解释说:“我们原本是做最下面这层芯片。而现在为了最上层客户不同的客户需求不同,比如汽车、5G或者医疗的客户,我们及业界就把中间层级都准备好,这样每个客户就可以把自己的需求、算法很容易地融入进来。”

“大家都希望用相对domain-specific的架构,不同的客户需要不同的东西。赛灵思就提供这样一个平台,需要5G就放5G的平台,即便是5G本身,不同的参与者,比如中兴、诺基亚、爱立信,每家都有自己的算法。并非一颗芯片给所有人就都好用,但有些东西又是可以共用的,我们提供这样一个开放的平台。”

“不同的人有特别的需求,比如车载,Nissan和Mercedes想做的应用可能就不一样。应用场景不同、算法不同,我们是要让每个人都能适用。”所以,赛灵思对于domain-specific的理解,实际上更偏向于在保有FPGA灵活基础上的“专用”,针对客户仍然提供多样化的选择。

自己造芯片是趋势吗?

实际上,这里赛灵思为客户提供相对灵活的domain-specific选择,与下游客户自己选择做domain-specific的ASIC芯片,是两套方案。在吴欣看来,像谷歌这样有足够业务规模,自己做芯片设计能够促成应用层面足够经济效益的,毕竟还是少数。“而且谷歌的AI技术,也不是只需要一个TPU,它也需要我们的芯片,也需要x86。”所以并不是都会由自己去做。

半导体行业协会(SIA)2017年估算,针对新一代技术节点建工厂,配套制造设备,大约需要70亿美元。在过去25年间,构建最新制程节点工厂的投入每年平均提升11%,如果加上工艺开发,则可将成本每年推升13%(2001-2014)。实际上,现如今参与最先进制程工艺制造的市场参与者已经只剩三家了。按照历年数据,理想情况下如果这几名参与者的市场份额均分,则企业复合年增长率约14%。这样一来,和13%的成本提升两相抵消,才产生了盈余。未来5nm、3nm的成本攀升还要持续。

“从 28/20nm开始,制造成本就开始上升得比较多。主要原因是多次曝光(multi-patterning)。以前还是用193nm的lithography技术。到了20nm,只能通过多次曝光去曝出这些比193nm自身小了很多的线条。这样一来lithography的成本就增加了。简单来说,本来是一次曝光,现在两次:原来一个机台一天可以做2000片wafer,若两次曝光就只能做1000片了。一片wafer从头到尾大概需要几十步的lithography步骤,如果里面有一半需要两次曝光,成本就增加了25%。”吴欣说。

除了人尽皆知的在3nm节点时期,FinFET转向GAA,在结构上带来的成本推升,“就lithography技术来说,整个业界花了二三十年的时间把EUV(极紫外光)做出来,今后几代lithography都会使用EUV。在3nm以后,大概EUV本身就需要multi-patterning,或者加上High-NA(高数值孔径)。EUV设备,一台机台就需要2亿美金。台积电、Intel的新工艺生产线都需要十几台这样的设备。这些都是制造成本攀升的组成部分。”
20190919-204.jpg
来源:BEOL Interconnect Innovations for Improving Performance, Paul Besser, NCCAVS

“后端(BEOL)的金属工艺,还需要有更新的技术来支持,金属电阻挑战性加强。”上面这张图来自2017年Paul Besser在NCCAVS的讲义,主要说的是铜线线宽与电阻(Rs)之间的关系。在其中的相应很窄线宽区域内,产生了较高的电阻。“这一层我们叫MD/VD,这一层的电阻大概会吃掉3%的性能。下一代缩一半,影响就扩大到6%,再下一代则增加到12%。所以技术进步的好处都会被它吃掉,我们就需要有新的技术工艺,或者新的架构来解决问题。”

上面这些说的还只是制造成本,在设计成本上。“以前工艺迭代,我们设计芯片,只需要了解65nm比90nm小多少,我们直接把90nm上的设计,拿到65nm工艺上,重新设计一下马上就能做,整个过程半年、一年就完成了。但现在,7nm和16nm有很多不一样的地方,不能把16nm的设计直接放到7nm里面去用,从架构到设计,到后面每部分工作都不一样——唯有重新优化才能做到最好的优化。”

“我们16nm最大的FPGA芯片VU19P,有350亿个晶体管。
20190919-205.jpg
”设计越来越复杂,设计周期变长,需要的人员变多。做设计,过去可能只需要1年,现在就需要2年;参与芯片设计的人员过去可能是1000人,现在变成2000人(或4000人/年),成本提升到4倍。这对芯片设计而言就成了很大的负担。必须要有足够多的钱和人才,才能把芯片做出来。”

“现在和过去相比,每一代增加至少30-50%的设计成本。要自己做芯片,要准备好4000人/年,做出来之后4000人还要再做下一代。有多少业务能够承受这样的设计成本?”“有多少企业能够自己做芯片?即便谷歌,TPU部门也并不是很大,远不到自己设计、维持、运营的程度,其它的芯片供应商在这方面在为谷歌提供服务,这也是因为谷歌有钱,并不是人人都能做。”“甚至不光是设计团队的问题,现在做一套7nm mask就将近上千万美元一套。”

“以前一年超过几十万颗的量,你就可以自己做ASIC,但现在不是,没有几百几千万,没有那么大的芯片需求量,最终是不划算的。采用FPGA,或自己做芯片,这个成本收益的对接点正越来越靠后。”

5G、自动驾驶,没有想象中发展那么快

新工艺成本激增的速度,在行业平均的复合年增长率几近持平的情况下,那些市场规模足够大的参与者才有机会持续获利。”能够承受4000人/年设计成本的行业其实不多:手机是一个,因为更换频繁;电脑CPU也是,毕竟电脑也是要更新的;存储器是一个,它很特殊,数据中心等领域都需要存储,而且不嫌多;另外,游戏需求加上AI机器学习、深度学习的需要,所以GPU也是可持续的业务。”

FPGA在这个过程中,实际上是比较特殊的存在。“我们的客户各行各业的都有,每个客户拿FPGA去做不同的东西,成本会被大家分担掉,而且每个客户也就不需要花很多钱。总的市场让我们也能够走下去。”

如今出现了一些新的推动力,比如5G、自动驾驶、AI,它们都被认为是半导体行业的重要驱动力和新的机遇。不过这些行业是否如很多人所想的那样会那么快。

“其实每一代移动通讯技术基本都做了10年,而5G恐怕连10年都不止。现在大家都在做sub-6GHz的部分,而且现在主要是NSA(non-standalone),借用4G的架构和基础设施。将来4G基础设施都换成5G,才能达到5G预期的延迟(laterncy),之后才会考虑毫米波部分的发展。”

“5G最大的挑战是大量的投资资金,钱需要从更新的应用中来;所以要解决钱的问题,最终还是要靠时间。5G大概需要很长时间才会慢慢成熟起来。”

“AI、自动驾驶也是很热门的话题,但汽车的可靠性、质量要求远高于其他领域。PPM每高出一点,就是关乎许多人生命安全的问题。而且自动驾驶的成本,未来还要求做到比传统技术更低,一般人才会愿意去购买自动驾驶汽车。但要求高可靠性,成本就会很高。这之间形成矛盾,整个转换过程会很漫长。”
“应用场景也好,架构也好,其实一直都在变。”

“赛灵思是希望,当你没有4000人/年的设计成本,没有上千万、上亿的市场时,你也可以做自己需要的domain-specific的芯片,我们可以让你做到。你可能只需要400人,甚至40人就可以做出来。”“而当每次场景、架构发生变化的时候,你也不需要再用4000人/年去重新做一颗芯片,而只需要花20分钟,重新编程,重新修改。”

“等到自动驾驶汽车、5G这些市场真正成熟以后,市场规模足够大了,10-20年以后,部分行业参与者那个时候要开始做自己的专用芯片,那是可以的。不过即便到那时,即便达到Nissan、Mercedes的市场容量,做专用芯片是否划算,是否可持续成长,都将一直是挑战。”
20190919-206.jpg
ACAP新一代计算平台,是赛灵思对上述理念的践行,是期望以AI和部分模块的固定化实现更高的效率,同时又有FPGA的灵活性。“FPGA比较方便,编程比较快,但以前效率没那么高。编程本身需要很多资源。数据在里面走的时候远没有ASIC来的快,或者也没有GPU快。我们也考虑这个问题,所以我们在里面放了很多硬化模块。数据要走这些模块时,我们就已经准备好了,所以不会比用ASIC来得慢。

显然在赛灵思的眼中,摩尔定律的放缓甚至失效,以及3D-IC异构集成为摩尔定律的“续命”,都是FPGA发展的重要机遇。基于两个原因:一是domain-specific成为推动特定行业、领域发展的关键词;二是半导体从设计到制造成本越来越高,一般的行业和企业都难以承受。以及在5G、自动驾驶等新兴行业尚需发展时间的情况下,这些都让FPGA成了优选。

责编:Yvonne Geng

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 赛灵思不卖中国,怎么个好法?!
阅读全文,请先
您可能感兴趣
据台湾工商时报报道,英伟达(Nvidia)已正式成立ASIC(应用特定集成电路)部门,并计划在中国台湾招募上千名芯片设计、软件开发及AI研发人员。
莱迪思在最近的开发者大会上发布了最新的Nexus 2平台和对应的小型FPGA产品。这次我们有机会看看相比竞品,Nexus 2是怎么做到低功耗和高性能的...
莱迪思(Lattice)正在考虑对英特尔旗下的FPGA业务Altera发起收购要约,对于国产FPGA行业而言,这一消息无疑带来了新的挑战和机遇。尽管在技术实力、产品性能及市场份额等方面与国际巨头尚有一定差距,但近年来国产FPGA的发展势头不容小觑……
继今年4月AMD宣布推出第二代Versal AI Edge系列和Versal Prime系列之后,日前,该公司又宣布推出第二代Versal Premium系列,使得第二代Versal系列的版图更趋完整。
在金融行业的高频交易中,每一纳秒都至关重要,会导致从盈利几百万美元到巨额亏损之间的差别。正是在这样的背景下,AMD推出了其最新的金融科技加速卡——Alveo™ UL3422。这款加速卡不仅满足了金融机构对高性能和低时延的迫切需求,还以其独特的优势引领着金融交易的新时代。
中国市场对于Lattice而言不仅是至关重要的战略市场,更是其全球业务不可或缺的一部分。他提到,Lattice在中国的业务历史已超过30年,作为首批进入中国市场的半导体企业之一,Lattice已经建立了专门的本地团队,这些团队不仅深入理解并服务中国市场,还致力于为中国客户量身打造解决方案。
• 目前,iPhone在翻新市场中是最热门的商品,并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展,其平均销售价格(ASP)现已超过新手机。 • 新兴市场是增长的最大驱动力,消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年,这些翻新机平均销售价格将首次超过新手机。
从全球厂商竞争来看,三季度凭借多个新品发布,石头科技市场份额提升至16.4%,连续两季度排名全球第一……
最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准,配套USB网关,可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成
其中包含Wi-Fi 7和蓝牙5.4 模组FME170Q-865、Wi-Fi 6和蓝牙5.4 模组FCS962N-LP、Wi-Fi 6和蓝牙5.3模组FCU865R 、独立Wi-Fi和蓝牙模组FGM840R、高功率Wi-Fi HaLow模组FGH100M-H……
来源:《中国半导体大硅片年度报告2024》2016 年至 2023 年间,全球半导体硅片(不含 SOI)销售额从 72.09 亿美元上升至121.29 亿美元,年均复合增长率达 7.72%。2016
1月8日消息,奥康国际发布公告称,终止发行股份购买资产,公司股票将于1月8日开市起复牌。至此,奥康国际谋划的跨界收购芯片公司事项告一段落。奥康国际在公告中介绍,公司于2024年12月24日披露了《关于
01周价格表02周价格观察硅料环节本周硅料价格:N型复投料主流成交价格为40元/KG,N型致密料的主流成交价格为38元/KG;N型颗粒硅主流成交价格为35元/KG。供给动态头部料企继续推进减产策略,月
当地时间2025年1月7日,全球备受期待的技术盛宴——国际消费电子展(CES 2025)在美国拉斯维加斯盛大开幕。作为显示领域的领军企业,天马携一系列前沿创新技术和最新智能座舱解决方案惊艳登场,带来手
日前,国家发展改革委等部门介绍了加力扩围实施“两新”政策有关情况,今年第一批消费品以旧换新资金810亿已经预下达。很多网友没有看懂具体政策,下面快科技给大家简单梳理一下,其实一句话来说就是:国四车、家
 △广告 与正文无关 日前,苏州西典新能源电气股份有限公司(股票代码:603312,以下简称“西典新能”)发布公告称,公司经过3年多的产品和工艺研发及设备攻关,信号采集组件FCC技术取得重大进展,公司
    大联大控股宣布,其旗下世平推出基于安森美(onsemi)NCP5156x芯片的双通道隔离驱动IC评估板方案。    图
  在千级电子净化车间中设置通风系统时,需要综合考虑多个因素,包括洁净度要求、换气次数、气流组织、空气处理、温湿度控制以及节能与环保等。以下是合洁科技电子洁净工程公司的一些具体的设
近日,由工业和信息化部、国家广播电视总局、国家知识产权局联合评选的“2024年度视听系统典型案例”公示名单正式发布。聚飞光电自主研发的大尺寸 Micro LED 超高清显示屏系统经专家评审及公示程序,
这届CES,几乎成了半个车展。尤其是今年多个中国电动车品牌参展,凭借各种华丽的车载科技大放异彩,直接让美国记者看傻了。在体验完极氪001 FR之后,美国知名电动车媒体InsideEVs记者Patric