奉行摩尔定律的历史,本质上已经不复存在了。现在业界很流行的讲法是Jim Keller提的“domain-specific (领域专用)”,即虽然晶体管数量很难按照定律攀升,但具体应用场景,对性能的渴求依然不变。为了保持芯片的性能提升,唯有针对特定场景或“特定领域”制造芯片,甚至发展成专用芯片,性能和能效比自然又能完成新一轮的飞跃。
比如谷歌在发展人工智能的过程中,脱离GPU自己开发了AI专用芯片TPU——这是个ASIC。“谷歌开始做了,Facbook,亚马逊,百度、阿里巴巴就都有可能跟进。你会发现,这些做数据中心的大型企业都会想办法做自己的芯片。这些芯片本身不一定赚钱,因为它量有限,又不对外出售,但芯片会驱动这些数据中心企业自身业务的优化,在系统层面产生经济效益。”在上海举行的CISES(中国国际半导体高层峰会)上,赛灵思中央工程部芯片技术副总裁吴欣先生和我们聊道。
赛灵思中央工程部芯片技术副总裁 吴欣
我们在《深度学习的兴起,是通用计算的挽歌?》一文中曾经探讨过这个问题。除了台积电、Intel这类从事制造工艺一线生产的企业,通用计算在摩尔定律上的难以为继几乎是行业共识,不过针对“domain-specific”真正的发展方向,不同层级的半导体行业参与者,在看法上却可能有着很大差别。
甚至仅是针对某一个门类的应用场景,比如AI芯片,市场参与者的态度都差别甚大。在今年的WAIC世界人工智能大会上,有学者提到AI芯片就分成两个派系,其一是谷歌TPU、地平线征途、Intel Nervana,赛灵思DPU IP为代表的专为卷积神经网络(CNN)提供加速的芯片,其二是Graphcore、Wave Computing、华为为代表,所推出的具有弱编程特性的AI芯片。这种某个特定领域相对通用,以及绝对专用的思路,都在摩尔定律发展停滞的时代,显得格外有趣。
更有趣的是,天生具有可重配置灵活应变能力的FPGA,在这样一个时代交替的过程里,异军突起,两大领头企业一个被Intel战略收购,一个股票与收入连连创纪录, 应用领域全面扩展,似乎迎来了其发展历程中的新黄金时代。
那么, FPGA 究竟将在这个时代扮演何种角色?这是我们和吴欣,这个在FPGA的发明者赛灵思公司就职26年,经历过从0.6um 到 7纳米共14 代以上芯片技术开发工作的业界资深人士所探讨的话题。
最适用的才是最好的
应对摩尔定律挑战的一个典型方案是异构集成和3D-IC。这也是现在比较流行的所谓more than Moore ( 超越摩尔定律),在封装层面的革新,是许多人认定延伸摩尔定律的一种可行方案。“赛灵思的异构集成已经做了很多年了。这张图我们也用了好几年了。”
下面这张图就是典型的一些芯片堆叠方案。这些方案的核心思路,是一块芯片上包含不同die模块,每个die可以用不同的工艺来制造,这些die再通过各类封装技术集成到同一颗成品芯片内。不同芯片互联时,会有个中介层(interposer),位于封装基板(package substrate)以及die之间。Die与die的通讯通过interposer内的互联进行。所谓的“2.5D”封装也属于此类,典型如台积电的CoWoS、Intel的EMIB(EMIB有时也被认为是单独的一个类别,因为它是在substrate中加入了一层silicon bridge)。
图片来源:赛灵思
在所谓的3D封装(active interposer)中,interposer内部除了电路之外,也可以存在其他器件,典型的比如Intel的Foveros技术。3D-IC有时又指die堆叠,通过TSV一类技术在多层间实现互联,典型如索尼应用于图像传感器和ISP堆叠互联的Cu-Cu dielectric hybrid bonding,相比micro bump的密度增加将近百倍——我们在之前的文章中也提过。这类方案能够实现芯片制造和设计的效率最大化,这某种程度上是降低成本的一种方案;高速互联的3D封装,还能提升传输性能。这是它被称作摩尔定律延续的原因。
上面这张图的纵轴是连接密度,即单位面积内有多少个连接;横轴是布线密度。不同的异构封装方案,集成度是有差异的,这张图上,“越往右上角,功能就越强。左下角功能会弱一些,但成本低。”
上图红色部分,是当赛灵思的FPGA按照横轴工艺节点发展,原有的照摩尔定律可实现最大逻辑单元数量;而橙色部分,则是采用异构集成之后的数量
那么是否3D封装一定更好,或者上面这张图右上角就比左下角更好呢?用吴欣的话来说:“异构集成没有好与不好之分,只有适用和不适用。”“你的产品最适合哪个,就去选哪个。”
“我们2011做的第一颗异构集成芯片是V2000T。当时,如果我们不用异构集成的话,要做这么大的芯片,很大。”吴欣用手稍稍比划了一下,“这么大的芯片,一片12寸的晶圆(wafer)在比较早期这样的芯片的良率只是两个。因为良率与面积的关系不呈线性而是呈指数关系。如果这颗芯片切分成四块,每片wafer就能有100个good dies,每四个组成一颗芯片,就有25颗芯片,考虑到额外的一些损失:哪怕损失一半,那也有12个半。相比不做异构集成,有6倍的益处。对客户来说,也就不需要花6倍的价钱去买。”
但从经济方面考虑,这种收益也并不是绝对的。“再举个例子,2014年我们知道5G是个方向,针对5G我们当时第一次把数模转换和可编程模块放在一起。我们做了一个65nm的ADC/DAC (数模转换),加上我们自己的可编程模块是28nm,两个异构集成在一起。客户说产品的确不错,但无法满足价格考量。所以一直到3年以后,工艺进步至16nm,我们最后还是把它集成在了一个单独的芯片上,monolithic (单芯片),造价也终于可接受了。”吴欣所说的这个例子,应该是指现如今赛灵思正火的融数字与模拟为一体的RFSoC 产品系列。
“所以没有好和不好之分,只有最适合你的。”
Domain-specific的艺术
“在做这种异构集成的时候,不像过去那样——不是先想好要做异构集成,然后再去做;而是,要从架构的角度出发,我要做一个什么样的架构。这个架构要做单片也好、两个或三个die也好,架构上它们要能够可扩展。再进一步软件做什么,硬件做什么制程做什么。而不是为了做异构集成而去做异构集成。”
这两年提“架构创新”的行业参与者实际上很多,因为摩尔定律迟滞,所以才更需要架构革新。我们今年就听过各层级参与者在架构方面的革新理念,比如Cadence、Mentor这些EDA层级的参与者,除了宣传自家机器学习IP以外,就是在EDA工具流程中融入机器学习。
不过更重要的是,“系统设计(system design)”成为一个新的争夺高地。Cadence在今年的CDNLive China 2019大会上曾经提到,更偏向整个系统设计的下游企业,很多都更喜欢自己造芯片,比如iPhone的A系列SoC,以实现更佳系统性能和能耗比,与此同时还兼顾安全性。谷歌TPU亦属此类。这其实也是芯片越来越从通用偏向“domain-specific”的一种表现方式。
或许不同层级的参与者对“系统(system)”的范围界定有差异,但个中思路却是一致的。吴欣告诉我们:“以前system architecture都由system厂商去做,比如思科、谷歌就做自己的system architecture,这里面Intel只提供芯片,中间软件则由微软提供。但这种相对通用的方式,效率没那么高:这个时候通用芯片提供商不会在意客户怎么用芯片,,微软会告诉客户要怎么算,就把它算出来就好。”
“但现在你会发现,数据中心最大的成本是什么?是能源(功耗)。他们花了那么多钱去运营数据中心,然后又要花那么多钱去提供能源和冷却系统。通用芯片的效率就没有那么高,或者并不是那么好用。为了优化,谷歌于是就做了自己的TPU。”这实则也是吴欣所说,从架构的角度出发,围绕应用场景做芯片的一个具体例证。
从这个角度来看,或许现如今芯片制造商的一个很大竞争对手,已经是自己下游客户了——他们越发考虑自己做针对特定应用场景,domain-specific,同时能够和整个系统扣合更紧密的芯片。像赛灵思这样的上游玩家,为客户提供系统设计的支持实际上才显得更加迫切。
在去年的Hot Chips大会上,我们就看到赛灵思题为Adaptable Intelligence: the Next Computing Era(灵活应变的智能:下一个计算时代)的主题演讲,其中提到赛灵思做出的系统级架构支持,如上图所示。吴欣特别为我们解释说:“我们原本是做最下面这层芯片。而现在为了最上层客户不同的客户需求不同,比如汽车、5G或者医疗的客户,我们及业界就把中间层级都准备好,这样每个客户就可以把自己的需求、算法很容易地融入进来。”
“大家都希望用相对domain-specific的架构,不同的客户需要不同的东西。赛灵思就提供这样一个平台,需要5G就放5G的平台,即便是5G本身,不同的参与者,比如中兴、诺基亚、爱立信,每家都有自己的算法。并非一颗芯片给所有人就都好用,但有些东西又是可以共用的,我们提供这样一个开放的平台。”
“不同的人有特别的需求,比如车载,Nissan和Mercedes想做的应用可能就不一样。应用场景不同、算法不同,我们是要让每个人都能适用。”所以,赛灵思对于domain-specific的理解,实际上更偏向于在保有FPGA灵活基础上的“专用”,针对客户仍然提供多样化的选择。
自己造芯片是趋势吗?
实际上,这里赛灵思为客户提供相对灵活的domain-specific选择,与下游客户自己选择做domain-specific的ASIC芯片,是两套方案。在吴欣看来,像谷歌这样有足够业务规模,自己做芯片设计能够促成应用层面足够经济效益的,毕竟还是少数。“而且谷歌的AI技术,也不是只需要一个TPU,它也需要我们的芯片,也需要x86。”所以并不是都会由自己去做。
半导体行业协会(SIA)2017年估算,针对新一代技术节点建工厂,配套制造设备,大约需要70亿美元。在过去25年间,构建最新制程节点工厂的投入每年平均提升11%,如果加上工艺开发,则可将成本每年推升13%(2001-2014)。实际上,现如今参与最先进制程工艺制造的市场参与者已经只剩三家了。按照历年数据,理想情况下如果这几名参与者的市场份额均分,则企业复合年增长率约14%。这样一来,和13%的成本提升两相抵消,才产生了盈余。未来5nm、3nm的成本攀升还要持续。
“从 28/20nm开始,制造成本就开始上升得比较多。主要原因是多次曝光(multi-patterning)。以前还是用193nm的lithography技术。到了20nm,只能通过多次曝光去曝出这些比193nm自身小了很多的线条。这样一来lithography的成本就增加了。简单来说,本来是一次曝光,现在两次:原来一个机台一天可以做2000片wafer,若两次曝光就只能做1000片了。一片wafer从头到尾大概需要几十步的lithography步骤,如果里面有一半需要两次曝光,成本就增加了25%。”吴欣说。
除了人尽皆知的在3nm节点时期,FinFET转向GAA,在结构上带来的成本推升,“就lithography技术来说,整个业界花了二三十年的时间把EUV(极紫外光)做出来,今后几代lithography都会使用EUV。在3nm以后,大概EUV本身就需要multi-patterning,或者加上High-NA(高数值孔径)。EUV设备,一台机台就需要2亿美金。台积电、Intel的新工艺生产线都需要十几台这样的设备。这些都是制造成本攀升的组成部分。”
来源:BEOL Interconnect Innovations for Improving Performance, Paul Besser, NCCAVS
“后端(BEOL)的金属工艺,还需要有更新的技术来支持,金属电阻挑战性加强。”上面这张图来自2017年Paul Besser在NCCAVS的讲义,主要说的是铜线线宽与电阻(Rs)之间的关系。在其中的相应很窄线宽区域内,产生了较高的电阻。“这一层我们叫MD/VD,这一层的电阻大概会吃掉3%的性能。下一代缩一半,影响就扩大到6%,再下一代则增加到12%。所以技术进步的好处都会被它吃掉,我们就需要有新的技术工艺,或者新的架构来解决问题。”
上面这些说的还只是制造成本,在设计成本上。“以前工艺迭代,我们设计芯片,只需要了解65nm比90nm小多少,我们直接把90nm上的设计,拿到65nm工艺上,重新设计一下马上就能做,整个过程半年、一年就完成了。但现在,7nm和16nm有很多不一样的地方,不能把16nm的设计直接放到7nm里面去用,从架构到设计,到后面每部分工作都不一样——唯有重新优化才能做到最好的优化。”
“我们16nm最大的FPGA芯片VU19P,有350亿个晶体管。
”设计越来越复杂,设计周期变长,需要的人员变多。做设计,过去可能只需要1年,现在就需要2年;参与芯片设计的人员过去可能是1000人,现在变成2000人(或4000人/年),成本提升到4倍。这对芯片设计而言就成了很大的负担。必须要有足够多的钱和人才,才能把芯片做出来。”
“现在和过去相比,每一代增加至少30-50%的设计成本。要自己做芯片,要准备好4000人/年,做出来之后4000人还要再做下一代。有多少业务能够承受这样的设计成本?”“有多少企业能够自己做芯片?即便谷歌,TPU部门也并不是很大,远不到自己设计、维持、运营的程度,其它的芯片供应商在这方面在为谷歌提供服务,这也是因为谷歌有钱,并不是人人都能做。”“甚至不光是设计团队的问题,现在做一套7nm mask就将近上千万美元一套。”
“以前一年超过几十万颗的量,你就可以自己做ASIC,但现在不是,没有几百几千万,没有那么大的芯片需求量,最终是不划算的。采用FPGA,或自己做芯片,这个成本收益的对接点正越来越靠后。”
5G、自动驾驶,没有想象中发展那么快
新工艺成本激增的速度,在行业平均的复合年增长率几近持平的情况下,那些市场规模足够大的参与者才有机会持续获利。”能够承受4000人/年设计成本的行业其实不多:手机是一个,因为更换频繁;电脑CPU也是,毕竟电脑也是要更新的;存储器是一个,它很特殊,数据中心等领域都需要存储,而且不嫌多;另外,游戏需求加上AI机器学习、深度学习的需要,所以GPU也是可持续的业务。”
FPGA在这个过程中,实际上是比较特殊的存在。“我们的客户各行各业的都有,每个客户拿FPGA去做不同的东西,成本会被大家分担掉,而且每个客户也就不需要花很多钱。总的市场让我们也能够走下去。”
如今出现了一些新的推动力,比如5G、自动驾驶、AI,它们都被认为是半导体行业的重要驱动力和新的机遇。不过这些行业是否如很多人所想的那样会那么快。
“其实每一代移动通讯技术基本都做了10年,而5G恐怕连10年都不止。现在大家都在做sub-6GHz的部分,而且现在主要是NSA(non-standalone),借用4G的架构和基础设施。将来4G基础设施都换成5G,才能达到5G预期的延迟(laterncy),之后才会考虑毫米波部分的发展。”
“5G最大的挑战是大量的投资资金,钱需要从更新的应用中来;所以要解决钱的问题,最终还是要靠时间。5G大概需要很长时间才会慢慢成熟起来。”
“AI、自动驾驶也是很热门的话题,但汽车的可靠性、质量要求远高于其他领域。PPM每高出一点,就是关乎许多人生命安全的问题。而且自动驾驶的成本,未来还要求做到比传统技术更低,一般人才会愿意去购买自动驾驶汽车。但要求高可靠性,成本就会很高。这之间形成矛盾,整个转换过程会很漫长。”
“应用场景也好,架构也好,其实一直都在变。”
“赛灵思是希望,当你没有4000人/年的设计成本,没有上千万、上亿的市场时,你也可以做自己需要的domain-specific的芯片,我们可以让你做到。你可能只需要400人,甚至40人就可以做出来。”“而当每次场景、架构发生变化的时候,你也不需要再用4000人/年去重新做一颗芯片,而只需要花20分钟,重新编程,重新修改。”
“等到自动驾驶汽车、5G这些市场真正成熟以后,市场规模足够大了,10-20年以后,部分行业参与者那个时候要开始做自己的专用芯片,那是可以的。不过即便到那时,即便达到Nissan、Mercedes的市场容量,做专用芯片是否划算,是否可持续成长,都将一直是挑战。”
ACAP新一代计算平台,是赛灵思对上述理念的践行,是期望以AI和部分模块的固定化实现更高的效率,同时又有FPGA的灵活性。“FPGA比较方便,编程比较快,但以前效率没那么高。编程本身需要很多资源。数据在里面走的时候远没有ASIC来的快,或者也没有GPU快。我们也考虑这个问题,所以我们在里面放了很多硬化模块。数据要走这些模块时,我们就已经准备好了,所以不会比用ASIC来得慢。
显然在赛灵思的眼中,摩尔定律的放缓甚至失效,以及3D-IC异构集成为摩尔定律的“续命”,都是FPGA发展的重要机遇。基于两个原因:一是domain-specific成为推动特定行业、领域发展的关键词;二是半导体从设计到制造成本越来越高,一般的行业和企业都难以承受。以及在5G、自动驾驶等新兴行业尚需发展时间的情况下,这些都让FPGA成了优选。
责编:Yvonne Geng
- 赛灵思不卖中国,怎么个好法?!