摩尔定律死了，AI芯片算力提升靠谁？-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

我们说电子科技革命的即将终结，一般认为即是指摩尔定律的终结——摩尔定律一旦无法延续，也就意味着信息技术的整栋大楼建造都将出现停滞，那么第三次科技革命也就正式结束了。这种声音似乎是从十多年前就有的，但这波革命始终也没有结束。AI技术本质上仍然是第三次科技革命的延续……

人工智能的技术发展，被很多人形容为第四次科技革命。前三次科技革命，分别是蒸汽、电气、信息技术（电子科技）革命。仿佛这“第四次”有很多种说辞，比如有人说第四次科技革命是生物技术革命，还有人说是量子技术革命。但既然AI也是第四次科技革命之一的候选技术，而且作为信息技术的组成部分，却又独立于信息技术，即表明它有独到之处。

我们说电子科技革命的即将终结，一般认为即是指摩尔定律的终结——摩尔定律一旦无法延续，也就意味着信息技术的整栋大楼建造都将出现停滞，那么第三次科技革命也就正式结束了。这种声音似乎是从十多年前就有的，但这波革命始终也没有结束。

AI技术本质上仍然是第三次科技革命的延续，它的发展也依托于几十年来半导体科技的进步。这些年出现了不少专门的AI芯片——而且市场参与者相众多。当某一个门类的技术发展到，出现一种专门的处理器为之服务的程度，那么这个领域自然就不可小觑了。就像当年GPU出现专门为图形计算服务一样。

所以AI芯片被形容为CPU、GPU之后的第三大类计算机处理器。AI专用处理器的出现，很大程度上也是因为摩尔定律的发展进入缓慢期：晶体管的尺寸缩减速度，已经无法满足需求，所以就必须有某种专用架构（DSA）出现，来快速提升芯片效率，也才有了专门的AI芯片。这一点，我们在此前《深度学习的兴起，是通用计算的挽歌？》一文中就提到过。

而另一方面，摩尔定律的延缓也成为AI芯片发展的桎梏。在摩尔定律和登纳德缩放定律发展的前期，晶体管制造的工艺进步给芯片带来了相当大的助益，那是“happy scaling down”的时代——CPU、GPU都是这个时代受益。不过登纳德缩放定律早在45nm时期就失效了。

AI芯片作为第三大类处理器，在这波发展中没有赶上happy scaling down的好时候。与此同时，AI应用对算力的需求越来越贪婪。今年WAIC（世界人工智能大会）的芯片论坛圆桌讨论环节，燧原科技创始人兼CEO赵立东说：“现在训练的GPT-3模型有1750亿参数，接近人脑神经元数量，我以为这是最大的模型了，要千张英伟达的GPU卡才能做。昨天的发布会上，我们聊到AI算力需求、模型大小的问题，说最大模型超过万亿参数，又是10倍。”

Intel研究院副总裁、Intel中国研究院院长宋继强说：“前两年用GPU训练一个大规模的深度学习模型，其碳排放量相当于5台美式车整个生命周期产生的碳排量。”这也表明了AI算力需求的贪婪，以及提供算力的AI芯片不够高效。

不过作为行业的底层驱动力，半导体制造技术还是在源源不断地为AI发展提供推力的。本文谈谈，我们从WAIC芯片论坛上听到的，针对这个问题的一些前瞻性解决方案——有些已经实现，有些则可能有待时代验证。

本文篇幅较长，读者可根据文中的小标题，来选择性阅读。略过任意小标题皆不影响文章连贯性阅读体验。

XPU、摩尔定律和异构集成

“计算机行业有个贝尔定律，是说能效每提高1000倍，就会衍生出一种新的计算形态。”中科院院士刘明在论坛上说，“若每瓦功耗只能支撑1KOPS的运算，当时的这种计算形态是超算；到了智能手机时代，能效就提高到每瓦1TOPS；未来的智能终端我们要达到每瓦1POPS。”“这对集成电路提出了非常高的要求。”“如果我们依然沿着CMOS这条路去走，当然是可以的，但会比较艰辛。”

我们知道，针对性能和效率提升，除了尺寸微缩，半导体行业比较常见的思路是晶体管结构、芯片结构、材料等方面的优化，以及处理架构的革新。

（1）AI芯片本身其实就是对处理器架构的革新。从计算架构的层面来看，针对不同的应用方向造不同架构的处理器是常规，更专用的处理器能促成效率和性能的成倍增长，而不需要依赖于晶体管尺寸的微缩。比如GPU（图形处理器）、NPU（神经网络处理器，即AI处理器），乃至更专用的ASIC出现，都是这类思路。

CPU、GPU、NPU、FPGA等不同类型的芯片各司其职，Intel这两年一直在推行所谓的“XPU”策略就是用不同类型的处理器去做不同的事情，“整合起来各取所需，用组合拳会好过用一种武器去解决所有问题。”宋继强说。Intel的芯片产品就覆盖了几个大类，酷睿CPU、Xe GPU，以及收购获得的AI芯片Habana等。

另外针对不同类型的芯片，可能还有更具体的优化方案。比如当代CPU普遍加入AVX512指令，本质上是特别针对深度学习做加强。“专用”的不一定是处理器，也可以是处理器内的某些特定单元，甚至固定功能单元。就好像GPU中加入专用的光线追踪单元一样。这是当代处理器普遍都在做的一件事。

（2）从晶体管、芯片结构层面来看，晶体管的尺寸现在仍然在缩减过程中，只不过缩减幅度相比过去变小了——而且为缓解晶体管性能的下降，需要有各种不同的技术来辅助尺寸变小。比如说在22nm节点之后，晶体管变为FinFET结构，在3nm之后，晶体管即将演变为Gate All Around FET结构。“最终会演化为互补FET（CFET）。”其本质都是晶体管本身充分利用Z轴，来实现微缩性能的提升。

“除了基础器件的变革，集成电路现在的发展还是比较多元化的，包括新材料的引进、器件结构革新。我们长期赖以微缩的基本手段，现在也在发生巨大的变化，特别是未来三维的异构集成。这些多元技术的协同发展，都为芯片整体性能提升带来了很好的增益。”

“从晶体管级、到晶圆级，再到芯片堆叠、引线键合（lead bonding），精度从毫米向纳米演进，互联密度大大提升。”从wafer/die的层面来看，则是众所周知的朝more than moore's law这样的路线发展，比如把两片die叠起来。现在很热门的chiplet技术就是比较典型的并不依赖于传统晶体管尺寸微缩，来弹性扩展性能的方案。

台积电和Intel这两年都在热推将不同类型的die，异构集成到一起的技术。2.5D封装方案典型如台积电的CoWoS，Intel的EMIB。而在3D堆叠上，Intel的酷睿LakeField芯片就是用3D Foveros方案，将不同的die叠在一起，甚至可以实现两片计算die的堆叠、互联。

前不久我们撰文谈到了AMD刚刚发布的3D V-Cache，将CPU的L3 cache die叠在计算die上方，将处理器的L3 cache大小增大至192MB，对存储敏感延迟应用的性能提升。相比Intel，台积电这项技术的独特之处在于die之间是以hybrid bonding（混合键合）的方式做互联，而不是micro-bump，做到更小的bonding间距，以及芯片之间数十倍通讯性能和效率提升。

这些方案也不直接依赖于传统的晶体管微缩方案。这里实际上还有一个方面，即新材料的引入是专家们没有在论坛上多说的，不过可能这是更庞大的话题了，本文也略过不谈。

1000倍的性能提升

刘明院士谈到，当晶体管微缩的空间没有那么大的时候，产业界倾向于采用新的策略来评价技术——“PPACt”，即Power（功耗）、Performance（性能）、Cost/Area-Time（成本/面积-时间）。t指的具体是time-to-market，理论上应该也属于Cost的一部分。

上面这些应该都不是很新的资讯了，关注半导体行业的读者对这些发展方向都不会陌生。上面这张图对在行业现有基础上的发展方向的总结，其中的绝大部分都已经发生，或者还在发展中。比如前两年我们一直在提的2.5D/3D封装、chiplet方案，现在已经深入到了民用市场。

晶体管微缩方案失效以后，“多元化的技术变革，依然会让IC性能得到进一步的提升。”刘明院士说，“根据预测，这些技术即使不再做尺寸微缩，也会让集成电路的芯片性能做到500-1000倍的提升，到2035年实现Zetta Flops的系统性能水平。”

“超算的发展还可以一如既往地前进；单die存储容量变得越来越大，集成电路依然会为行业发展提供基础。”

500-1000倍的预测来自DARPA，虽然我们感觉有些过于乐观。因为其中的不少技术存在比较大的边际递减效应，而且有更实际的工程问题待解决，比如计算die叠层的散热问题——即便业界对于这类工程问题的探讨也始终在持续。

不过1000倍的性能提升，的确表明摩尔定律的终结并不能代表第三次科技革命的终结，而且还有相当大的发展空间。尤其这里我们谈的主要是AI芯片，而不是更具通用性的CPU。

硅光、存内计算和神经拟态计算

在非传统路线上（以上内容都属于半导体制造的常规思路），WAIC芯片论坛上宋继强和刘明都提到了一些颇具代表性的技术方向（虽然这可能与他们自己的业务方向或研究方向有很大的关系）。这些技术可能尚未大规模推广，或者仍在商业化的极早期。

（1）近存计算和存内计算。处理器性能和效率如今面临的瓶颈，很大程度并不在单纯的计算阶段，而在数据传输和存储方面——这也是共识了。所以提升数据的传输和存取效率，可能是提升整体系统性能时，一个非常靠谱的思路。

这两年市场上的处理器产品用“近存”（near-memory computing）思路的，应该不在少数。所谓的近存计算，就是让存储（如cache、memory）单元更靠近计算单元。CPU的多层cache结构（L1、L2、L3），以及计算机处理器cache、内存、硬盘这种多层存储结构是常规。而“近存计算”主要在于究竟有多“近”。高速缓存是有利于隐藏当代计算机架构中延迟和带宽的局限性的。

这两年我们报道的在近存计算方面比较有代表性的，一是AMD——比如前文提到3D V-cache增大处理器的cache容量，还有其GPU不仅在die内引入了Infinity Cache这种类似L3 cache的结构，也更早应用了HBM2内存方案。这些实践都表明，存储方面的革新的确能带来性能的提升。

另外一个例子则是G raphcore的 I PU处理器：IPU的特点之一是在die内堆了相当多的cache资源，cache容量远大于一般的GPU和AI芯片——也就避免了频繁的访问外部存储资源的操作，极大提升带宽、降低延迟和功耗。

近存计算的本质仍然是冯诺依曼架构的延续。“在做处理的过程中，多层级的存储结构，数据的搬运不仅仅在处理和存储之间，还在不同的存储层级之间。这样频繁的数据搬运带来了带宽延迟、功耗的问题。也就有了我们经常说的计算体系内的存储墙的问题。”刘明院士说。

“构建非冯（non-von Neumann）架构，我们把传统的、以计算为中心的冯氏架构，变换一种新的计算范式。把部分算力下推到存储。”这便是“存内计算（in-memory computing）”的概念。

存内计算的就现在看来都还是比较新的，也有称其为“存算一体”的。通常理解为在存储器中嵌入算法，存储单元本身就有计算能力，理论上消除数据存取的延迟和功耗。存内计算这个概念似乎这在数据爆炸时代格外醒目，毕竟可极大减少海量数据的移动操作。

其实存内计算的概念都还没有非常明确的定义。现阶段它可能的内涵至少涉及到在存储内部，部分执行数据处理工作；主要应用于神经网络（因为非常契合神经网络的工作方式）；以及这类芯片具体的工作方法上，可能更倾向于神经拟态计算（neuromorphic computing）。

国内外做存内计算研究的企业和学院还不少，复旦大学应该也是其中之一，这可能是刘明院士作为复旦大学芯片与系统前沿技术研究院院长和教授，提起这项技术的原因。对于AI芯片而言，存内计算的确是很好的思路。一般的GPU和AI芯片执行AI负载时，有比较频繁的数据存取操作，这对性能和功耗都有影响。

不过存内计算的具体实施方案，在市场上也是五花八门的，早期比较具有代表性的Mythic公司引入了一种矩阵乘的存储架构，用40nm嵌入式NOR，在存储内部执行计算：NOR比特单元，不过替换掉了数字外围电路，改用模拟的方式。在阵列内部进行模拟计算。这家公司此前得到过美国国防部的资金支持。

刘明院士列举了近存计算和存内计算两种方案的例子，如上图所示。近存计算的这个方案应该和此前我们介绍的AMD的3D V-cache比较类似，把存储die和计算die叠起来。

“这是我们最近的一个工作，我们采用hybrid bonding的技术，与TSV（硅通孔）做比较，hybrid bonding功耗是0.8pJ/bit，而TSV是4pJ/bit。延迟方面，hybrid bonding只有0.5ns，而TSV方案是3ns。”台积电在3D堆叠方面的领先优势其实也体现在hybrid bonding混合键合上，前文也提到了它具备更高的互联密度和效率。

另外这套方案还将DRAM刷新频率提高了一倍，从64ms提高至128ms，以降低功耗。“应对刷新率变慢出现拖尾bit，我们引入RRAM TCAM索引这些tail bits。”

存内计算方面，“传统计算是用布尔逻辑，一个4位的乘法需要用到几百个晶体管，这个过程中需要进行数据来回的移动。存内计算是利用单一器件的欧姆定律来完成一次乘法，然后利用基尔霍夫定律完成列的累加。”刘明表示，“这对于今天深度学习的矩阵乘非常有利。它是原位的计算和存储，没有数据搬运。”这是存内计算的常规思路。

“无论是基于SRAM，还是基于新型存储器，相比近存计算都有明显优势。”下面这张图是存内计算和近存计算，精度、能效等方面的对比。存内计算架构对于低精度计算有价值。

上面这张图则总结了业内主要的一些存内计算研究，在精度和能效方面的对应关系。 “需要高精度、高算力的情况下，近存计算目前还是有优势。”“不过存内计算是更新的技术，这几年的进步也非常快。”

去年阿里达摩院发布2020年十大科技趋势中，有一个就是存算一体突破AI算力瓶颈。未来我们可以对这项技术做更深入的探讨。不过存内计算面临的商用挑战也一点都不小。存内计算的通常思路都是模拟电路的计算方式，这对存储器、计算单元设计都需要做工程上的考量。与此同时这样的芯片究竟由谁来造也是个问题：是存储器厂商，还是数字处理器厂商？（三星推过存内计算芯片，三星、Intel垂直整合型企业似乎很适合做存内计算…）

（2）神经拟态计算。神经拟态计算和存内计算一样，也是新兴技术的热门话题，这项技术有时也叫作compute in memory。它可以认为是存内计算的某种发展方向。神经拟态和一般神经网络AI芯片的差异是，这种结构更偏“类人脑”，其原理此处不再赘述。

做神经拟态研究的企业现在也逐渐变得多起来，刘明院士也提到了AI芯片“最终的理想是在结构层次模仿脑，器件层次逼近脑，功能层次超越脑”的“类脑计算”。Intel是比较早关注神经拟态计算研究的企业之一。

传说中的Intel Loihi就是比较典型存算一体的架构，“这片die里面包含128个小核，每个核用于模拟1024个神经元的计算结构。” 宋继强说，“这样一块芯片大概可以模拟13万个神经元。”“我们做到的是把768个芯片再连起来，构成接近1亿神经元的系统，让学术界的伙伴去试用。”

“它和深度学习加速器相比，没有任何浮点运算——就像人脑里面是没有乘加器的。所以其学习和训练方法是采用一种名为spike neutral network的路线，功耗很低，也可以训练出做视觉识别、语言识别和其他种类的模型。”不采用同步时钟，“刺激的时候就是一个异步电动势，只有工作部分耗电，功耗是现在深度学习加速芯片的千分之一。”

“而且未来我们可以对不同区域做划分，比如这儿是视觉区、那儿是语言区、那儿是触觉区，同时进行多模态训练，互相之间产生关联。这是现在的深度学习模型无法比拟的。”宋继强说。这种神经拟态计算芯片，似乎也是Intel在XPU方向上探索不同架构计算的方向之一。

（2）微型化硅光。这个技术方向可能在层级上更偏高了一些，不再芯片架构层级，不过仍然值得一提。去年Intel在Labs Day上特别谈到了自己在硅光（Silicon Photonics）的一些技术进展。其实硅光技术在连接数据中心的交换机方面，已经有应用了。发出数据时，端口处会有个transceiver把电信号转为光信号，通过光纤来传输数据，另一端光信号再转为电信号。不过传统的光transceiver成本都比较高，内部组件数量大，尺寸也就比较大。

Intel在集成化的硅光（IIIV族monolithic的光学集成化方案）方面应该是商业化走在比较前列的，就是把光和电子相关的组成部分高度集成到芯片上，用IC制造技术。未来的光通讯不只是数据中心机架到机架之间，也可以下沉到板级——就跟现在传统的电I/O一样。电互联的主要问题是功耗太大，也就是所谓的I/O功耗墙，这是这类微型化硅光器件存在的重要价值。

这其中存在的技术挑战还是比较多的，比如做数据的光信号调制的modulator，据说Intel的技术令其实现了1000倍的缩小；还有在接收端需要有个detector把光信号做转换，用所谓的全硅微环（micro-ring）结构，实现硅对光的检测能力；波分复用技术实现带宽倍增；以及把硅光和CMOS芯片做集成等等。这里不再详述。

Intel认为，把硅光模块与计算资源做集成，就能打破必须带更多I/O pin做更大尺寸处理器的这种趋势。硅光能够实现的是更低的功耗、更大的带宽、更小的pin数量和尺寸。在跨处理器、跨服务器节点之间的数据交互上，这类技术还是颇具前景的，Intel此前说目标是实现每根光纤1Tb/s的速率，并且能效在1pJ/bit，最远距离1km，这在非本地传输上是很理想的数字。

还有软件…

除了AI芯片本身，从整个生态的角度，包括AI感知到计算的整个链条上的其他组成部分，都有促成性能和效率提升的余地。比如这两年英伟达从软件层面，针对AI计算的中间层、库做了大量优化。相同的底层硬件，通过软件优化就能实现几倍的性能提升；对AI专用芯片甚至可以构成降维打击。

宋继强说，“我们发现软件优化与否，在同一个硬件上可以达到百倍的性能差距。”这其中的余量还是比较大的。

在AI开发生态上，虽然英伟达是最具发言权的；但从战略角度来看，像Intel这种做CPU、GPU、FPGA、ASIC，甚至还有神经拟态计算处理器的企业而言，不同处理器统一开发生态可能更具前瞻性。Intel有个叫oneAPI的软件平台，用一套API实现不同硬件性能埠的对接。这类策略对厂商的软件框架构建能力是非常大的考验——也极大程度关乎底层芯片的执行效率。

总结一下本文谈的内容：在摩尔定律放缓、晶体管尺寸微缩变慢甚至不缩小的前提下，处理器架构革新、异构集成与2.5D/3D封装技术依然可以达成1000倍的性能提升；而一些新的技术方向，包括近存计算、存内计算和微型硅光，能够在数据访存、传输方面产生新的价值；神经拟态计算这种类脑计算方式，是实现AI计算的目标；软件层面的优化，也能够带动AI性能的成倍增长。

所以即便摩尔定律严重放缓，AI芯片的性能、效率提升在上面提到的这么多方案加持下，终将在未来很长一段时间内持续飞越。这第三（四）次科技革命恐怕还很难停歇。

责编：Luffy Liu

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

人工智能 EDA/IP/IC设计处理器/DSP 制造/封装 DIY/黑科技软件中国IC设计业界新闻

摩尔定律死了，AI芯片算力提升靠谁？

XPU、摩尔定律和异构集成

1000倍的性能提升

硅光、存内计算和神经拟态计算

还有软件…

杂志声明