这两年我们探讨有关摩尔定律的话题也不少,包括算力需求依然强劲,但半导体器件尺寸微缩速度却实实在在放缓了,该怎么办的各类文章。本文再从相对实际的角度来谈谈,摩尔定律放缓的各种外在表现;也算是从更全面的角度来理解摩尔定律的放缓。

“摩尔定律”估计是行业内被提及频率最高的词之一了,又是这两年的热门话题。从不同市场参与者的角度,大家对于摩尔定律是否放缓或停滞是各有说辞的。比如尖端工艺foundry厂,普遍会说摩尔定律还能延续很久,不信看我们的roadmap;比如AI芯片厂商倾向于说,摩尔定律放缓是事实,我们需要架构革新;学界则说,材料革命必将来临......

这两年我们探讨有关摩尔定律的话题也不少,包括算力需求依然强劲,但半导体器件尺寸微缩速度却实实在在放缓了,该怎么办的各类文章。本文再从相对实际的角度来谈谈,摩尔定律放缓的各种外在表现;也算是从更全面的角度来理解摩尔定律的放缓。

系统地谈摩尔定律停滞的paper非常多,包括前年我们写的《深度学习的兴起,是通用计算的挽歌?》较多参考了MIT的那篇paper(The Decline of Computers as a General Purpose Technology: Why Deep Learning and the End of Moore’s Law are Fragmenting Computing)。

美国CSET(Center for Security and Emerging Technology)去年4月写过一篇paper,题为AI Chips: What They Are and Why They Matter*,阐述摩尔定律放缓的思路和MIT那篇大同小异。不过在细节上作了更大程度的完善。本文我们参考其中提供的一些数据,有兴趣的读者可参考文末的reference做进一步的深入理解。

AI芯片成本,来看摩尔定律的放缓

这些paper有个非常大的共同点,即本身是探讨AI芯片,前面却会花很大篇幅去谈摩尔定律放缓的事实。在大规模数据并行计算方面,AI芯片效率和算力上,甚至能够达到CPU这种通用芯片的1000倍。要是换算成摩尔定律,则CPU需要26年时间才能达成这种程度的提升。

虽然总感觉这种说法相当的流氓,通用芯片和专用芯片无论如何都不该这么比,但这表达的是行业的整体转向。因为AI芯片实实在在的部分抢占了原属于CPU的市场份额,无论AI芯片形态是GPU、FPGA还是ASIC。CPU在未来甚至有被各类专用芯片边缘化的可能性——这一点在《深度学习的兴起,是通用计算的挽歌?》一文中已经有比较详细的阐述。

本文不会着重去谈AI芯片,但即便是AI芯片,其效率也和制造工艺关系甚大。传统认知中,ASIC类别的芯片由于市场更窄,所以考虑到成本摊薄的问题,ASIC芯片总是更倾向于采用更旧的工艺,而不是尖端工艺。但AI芯片如今市场非常大,有相当规模的ASIC AI加速芯片也都开始用7nm这样的尖端工艺,或次尖端工艺;而相对通用的数据中心GPU采用尖端工艺则是必然。

抛开AI技术本身的高速发展,包括各种模型、算法和库优化方案造成的性能和效率提升,AI芯片在制造工艺层面也受制于器件尺寸微缩,或其他先进制造封装技术。所以我们首先来谈谈,摩尔定律是如何影响AI芯片的——这也是个很有意思的话题。

AI芯片选择何种工艺还是颇有讲究的。AI芯片的总“成本”需要考虑到后续的运营成本,比如说用旧工艺,则大规模AI计算(如数据中心training)的电力开销和效率会显著更低,甚至这种运营成本会远高于芯片制造成本。这些也需要考虑到AI芯片的成本中去。这就涉及到成本效益计算了。

具体应该计量的“生产成本”包括了制造成本——fab工厂、设备架构消耗、材料、人力、R&D投入、利润;设计成本——fabless企业需要投入的;此外还有ATP(封装测试,assemble, test, package)成本。所以这里定义生产成本包括foundry厂制造成本、芯片设计成本以及ATP成本。另外还需要考虑到芯片的运营成本,主要是能耗成本。

该对比基于相同晶体管数量,以Nvidia P100 GPU服务器级别芯片为参考;对于一些更老的工艺,也需要考虑到reticle limit,所以老工艺实现同等晶体管数量,会换算成多颗chip构成一个系统;注意这个对比可能并未考虑其他层面的AI优化技术和系统互联折损

从CSET这份paper构建的模型来看,在不到2年的时间里,尖端工艺AI芯片(7nm/5nm)的运营成本,就会超过其生产成本。而旧工艺AI芯片(90nm/65nm)的运营成本在此期间可能达到生产成本的3-4倍之多。上面这张图是将一颗芯片的运营时常拉长到3年(也就是芯片用上3年),则在不同工艺之下的AI芯片,所需支出的能耗成本逐年增加。

这张图表达的一个重要信息在于,同时计算生产和运营成本,尖端工艺AI芯片的成本效益会比旧工艺AI芯片,高出至多33倍。

这里随即得出更有趣的一些结论,也就是在运营时间达到多久以后,新旧工艺之间谁才更划算的问题。上面这张图作了这方面的表达。比如说90nm工艺和65nm工艺相比,运营时间以3年为界限,低于3年的情况下90nm造AI芯片更划算;如果芯片要用3年以上,则65nm更划算。

这其中可表现出摩尔定律放缓的一点在于,在7nm vs 5nm这一代,运营时间临界值显著增加。对于一颗5nm工艺的AI芯片而言,运营该芯片8.8年所需的成本,加上生产成本,可达成与7nm芯片相同的生产+运营成本。也就是说,在运营不足8.8年的情况下,以7nm工艺来造芯片更划算;而达到8.8年以上,5nm工艺更划算。

事实上,企业更新服务器芯片的常规周期是3年或以上,和如今工艺新节点迭代周期差不多——理论上,每次有新工艺出现,服务器芯片就可以做一次同步更新。但在5nm这一代,企业对这代工艺的采用,恐怕需要更久时间才能达到成本效益。

这是摩尔定律对AI芯片达成直观影响的重要体现。当然还是需要强调,该模型构建是CSET做的——它可能没有考虑到器件微缩之外的其他技术因素。不过我们认为,大方向的确如此;或者这个结论至少可表达摩尔定律的显著放缓。这个思路还是挺有意思。

摩尔定律放缓的一些实际数字

摩尔定律从上世纪60年代提出,假设到如今是满速运转没停过、没放缓的,那么现在芯片上单位面积内应有的晶体管数量,应该比现在实际的量多出15倍。这个结论来自Communications of the ACM杂志2019年2月的一篇paper (A New Golden Age for Computer Architecture)。

从可追溯的数字来看,1978-1986年CPU每年速度提升22%,主要是基于时钟频率提升(frequency scaling);1986-2003年,CPU速度每年提升52%,主要是得益于频率提升,以及设计优化——尤其是并行计算;2003-2011年,每年速度提升23%,这一阶段频率提升是放缓的,但多核设计依然实现了更高的并行度。而2011-2015,CPU并行计算再次发力,也才促成了12%的每年速度提升。

从能效的角度来看,2000年之前CPU最高达成每1.57年整体效率的翻倍提升;但自从摩尔定律放缓,以及晶体管功耗红利的持续下降,这个速度放慢到了2.6年。这些数字基本也算是共识了。一个更直观的状况在于,Intel的32nm与22nm工艺都是在前代工艺的2年后更新的,与摩尔定律基本保持一致;但22nm与14nm,中间隔了3年;14nm和10nm迭代之间,中间隔了4年。

而且在器件尺寸微缩的同时,功耗表现和性能的提升未能保持同步。2004年前后,65nm节点实现晶体管密度提升之际,功耗降低和速度提升是相对更加迟缓的。上面这两张图展示的是从90nm到5nm发展期间,台积电、三星与Intel各代工艺节点之间的晶体管开关速度(frequency scaling)和功耗变化(相比上一代的变化百分比)。

台积电可能是颇具代表性的,即从拟合的趋势线来看,符合我们对摩尔定律放缓的认知,一路在速度提升、功耗降低方面变慢或趋于平坦;Intel的情况是性能提升亦在放缓,但与此同时确保更好的功耗表现。(这些数字主要是基于台积电、三星和Intel在发布会上公开的信息)

其实将这些数据与处理器这些年的性能提升与功耗降低作比较,就会发现晶体管层面的创新,对于处理器过去15年的效率和性能提升,还是扮演了最重要的角色的。此前AMD在HotChips上也明确过,即过去10年间,造成处理器性能提升的主要因素中,占比最大的就是工艺技术的进步。它比编译器、微架构、电源管理等方面的贡献都要大得多。

不过有个通用处理器性能与效率提升放缓的事实值得一提:抛开一些增加专用固定电路的方案不谈(比如说给CPU加入AI指令支持等),为通用处理器增加更多的晶体管能够带来的性能提升变得越来越有限。这主要是因为能够从并行计算获得的速度提升,这些年受到边际递减效应的影响。

并行度本身是受限于串行计算的时间占比的(比如线程间的计算结果有关联性,则无法实现并行计算)。某个算法中即便仅有1%的部分需要串行计算,那么处理器能耗也将有45%的浪费(因为此时处理器运算单元的闲置率很高)。

而实际上大部分应用所需的串行计算占比还不止这些,则浪费也就更大。处理器架构拓宽、核心数增加、晶体管增加,很大程度都是增加并行度。其中的边际递减效应是存在的。这也是通用处理器在摩尔定律持续之际的尴尬所在。

工艺迭代的技术难度与成本飙升

有关制造工艺技术提升越来越难,无论是材料、制造还是各不同角度,这已是共识。也是因为技术挑战的存在,导致尖端工艺更新越来越难。Intel 10nm以及Intel 7工艺的难产都与此有莫大关联,更不用提GlobalFoundries很早就退出了7nm工艺技术的竞争。

早前《深度学习的兴起,是通用计算的挽歌?》一文已经相对详细地探讨了,工艺迭代在成本方面的飙升。即当前的普遍认知在于,单纯就尖端工艺的建厂成本之高,及每次迭代带来成本的急剧攀升,可能已经超过了半导体行业本身的年复合增长率。

在这样的大背景之下,唯有通过减缓工艺迭代的节奏,以及提升foundry销售服务的价格,并且还要侵吞更多属于竞争对手的市场,才有生机可言。AI Chips: What They Are and Why They Matter这篇paper给出的数字是,如今半导体生产设备年增长率11%,平均每颗芯片设计成本增长24%,比半导体市场7%的增长率还要高。

这个数字比MIT给的还要悲观。无论谁家数字更准确,尖端工艺投入成本的增加是不争的事实。在半导体制造设备中最为昂贵和复杂的组成部分,尖端工艺lithography工具,1979年每台45万美金;2019年是1.23亿美金。

所以其实这么多年来,参与尖端工艺研发生产的芯片制造商,和lithography设备企业数量都是在逐年下降的。(90nm以后,除了ASML之外,尼康成为唯二的参与者;到5nm也就只剩ASML)

上面这张图是不同工艺节点,带来芯片设计成本的提升,分别来自IBS(International Business Strategies)和Gartner,数据量级和趋势都是一致的。设计成本提升,除了复杂度提升和时间成本增加,半导体行业用人成本也在显著增加。据说2015年和1971年相比,人力研究投入增加18倍,每年提升7%。

以每一个晶体管的设计与制造成本为指标,来衡量工艺节点迭代是否保持经济效益,听起来是比较靠谱的。2018年有篇题为Measuring Moore’s Law: Evidence from Price, Cost, and Quality Indexes的内容做过这方面的考量,即历史上曾有一段时间,这个指标每年下降20-30%——也就是工艺迭代带来了更高的经济效益。但部分分析师认为,自28nm以后,该趋势便不复存在。

期望这些数据能够给读者更多的思考。最后我们给出一些摩尔定律停滞和放缓的“解决方案”文章,虽然这不是本文要谈的重点,来自不同层级的市场角色或技术。比如晶体管结构革命;比如如今谈得很多的more than Moore,先进封装技术;还有EDA厂商在提从系统层面来实现性能与能效整体提升的;

以及AI芯片及更多专用架构芯片的问世,大幅提升不同应用场景处理效率的方案;还有对冯诺依曼体系革命的存内计算等等新技术……都可能成为半导体行业续命的存在,附在本文的最后。通过微信阅读本文的同学可在电子工程专辑主站查看以下内容:

异构集成、器件结构、先进封装等综合解决方案;还有存内计算、神经拟态计算

EDA厂商提出系统层面解决方案

Intel的3D封装技术台积电的3D封装技术

快于摩尔定律的AI芯片的专用于通用之争

FPGA在摩尔定律失效时迎来的机会

架构革命:软件定义芯片

Reference:

Saif M. Khan and Alexander Mann, "AI Chips: What They Are and Why They Matter" (Center for Security and Emerging Technology, April 2020), cset.georgetown.edu/research/ai-chips-what-they-are-and-why-they-matter/. https://doi.org/10.51593/20190014

责编:Luffy Liu

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 讲得有点意思
阅读全文,请先
您可能感兴趣
美国试图通过技术封锁维持其全球主导地位,而中国则希望通过自主创新实现产业升级和经济转型。未来很长一段时间,中美之间合作与竞争并存的局面可能会成为一种常态。
Beyond Gravity是一家总部位于瑞士苏黎世的高科技公司,主要业务包括为运载火箭提供结构件,并在卫星产品和星座领域处于领先地位。其光刻部门位于瑞士苏黎世和德国德累斯顿附近的Coswig,拥有约210名员工。蔡司(ZEISS)成功收购了Beyond Gravity的光刻部门,并将其整合到其半导体制造技术部门(ZEISS SMT)......
芯片是方的,晶圆却是圆的;如果把封装的载片晶圆换成方形面板,情况会是怎样?
在接受笔者采访时,Nexperia公司SiC产品组高级总监Katrin Feurle和该公司副总裁兼GaN FET业务部总经理Carlos Castro就这一相关投资计划发表了见解。
SK海力士在HBM4上将对基础裸片的称呼已经从DRAM Base Die调整为Logic Base Die,强调了基础裸片愈发重要的逻辑功能。这意味着HBM4时代的基础裸片将全面转向逻辑半导体工艺。
根据IFR报告,中国在短短四年内将机器人密度翻倍,从2019年的每万名员工配有235台机器人增长到2023年的470台。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
12月18日,珠海京东方晶芯科技举行设备搬入仪式。插播:加入LED显示行业群,请加VX:hangjia188在10月31日,珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
“ 洞悉AI,未来触手可及。”整理 | 美股研究社在这个快速变化的时代,人工智能技术正以前所未有的速度发展,带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
LG Display  12月18日表示,为加强OLED制造竞争力,自主开发并引进了“AI(人工智能)生产体系”。“AI生产体系”是AI实时收集并分析OLED工艺制造数据的系统。LG Display表
今天上午,联发科宣布新一代天玑芯片即将震撼登场,新品会在12月23日15点正式发布。据悉,这场发布会联发科将推出全新的天玑8400处理器,这颗芯片基于台积电4nm制程打造,采用Arm Cortex A
点击蓝字 关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日 上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播