台积电董事长撰文：我们如何实现1万亿个晶体管GPU？-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

IEEE的头版刊登了一篇题为《How We’ll Reach a 1 Trillion Transistor GPU？》（我们如何实现1万亿个晶体管GPU？）的文章。值得一提的是，本文署名作者MARK LIU（刘德音）和H.-S. PHILIP WONG……

GTC 2024大会上，英伟达（Nvidia）首席执行官黄仁勋祭出世界最强GPU——Blackwell B200 ，整整封装了超2080亿个晶体管。比起上一代H100（800亿），B200晶体管数是其2倍多，而且训AI性能直接飙升5倍，运行速度提升30倍。

若是，将千亿级别晶体管数扩展到1万亿，对整个半导体行业意味着什么？

此前，台积电曾多次谈到了万亿晶体管的路线图。3月29日，IEEE的头版刊登了一篇题为《How We’ll Reach a 1 Trillion Transistor GPU？》（我们如何实现1万亿个晶体管GPU？）的文章。值得一提的是，本文署名作者MARK LIU（刘德音）和H.-S. PHILIP WONG，其中刘德音是台积电董事长，H.-S Philip Wong则是斯坦福大学工程学院教授、台积电首席科学家。

这篇千字长文，主打就是为了让AI界人们意识到，半导体技术的突破给AI技术带来的贡献。台积电在文中预测，未来10年，GPU集成的晶体管数将达到1万亿！与此同时，未来15年，每瓦GPU性能将提高1000倍。

在这里，我们将此文翻译出来，以飨读者。以下为文章正文：

1997 年，IBM 深蓝超级计算机击败了国际象棋世界冠军Garry Kasparov。这是超级计算机技术的突破性演示，也是对高性能计算有一天可能超越人类智能水平的首次展示。在接下来的10年里，我们开始将人工智能用于许多实际任务，例如面部识别、语言翻译以及推荐电影和商品。

再过十五年，人工智能已经发展到可以“合成知识”（synthesize knowledge）的地步。生成式人工智能，如ChatGPT和Stable Diffusion，可以创作诗歌、创作艺术品、诊断疾病、编写总结报告和计算机代码，甚至可以设计与人类制造的集成电路相媲美的集成电路。

人工智能成为所有人类事业的数字助手，面临着巨大的机遇。ChatGPT是人工智能如何使高性能计算的使用民主化、为社会中的每个人带来好处的一个很好的例子。

所有这些奇妙的人工智能应用都归功于三个因素：高效机器学习算法的创新、训练神经网络的大量数据的可用性，以及通过半导体技术的进步实现节能计算的进步。尽管它无处不在，但对生成式人工智能革命的最后贡献却没有得到应有的认可。

在过去的三十年里，人工智能的重大里程碑都是由当时领先的半导体技术实现的，没有它就不可能实现。Deep Blue 采用 0.6 微米和 0.35 微米节点芯片制造技术的混合实现；赢得 ImageNet 竞赛的深度神经网络并开启了当前机器学习时代的设备使了用 40 纳米技术打造的芯片；AlphaGo 使用 28 纳米技术征服了围棋游戏；ChatGPT 的初始版本是在采用 5 纳米技术构建的计算机上进行训练的。；ChatGPT 的最新版本由使用更先进的4 纳米技术的服务器提供支持。所涉及的计算机系统的每一层，从软件和算法到架构、电路设计和设备技术，都充当人工智能性能的乘数。但可以公平地说，基础晶体管器件技术推动了上面各层的进步。

如果人工智能革命要以目前的速度继续下去，它将需要半导体行业做出更多贡献。十年内，它将需要一个 1 万亿晶体管的 GPU，也就是说，GPU 的设备数量是当今典型设备数量的 10 倍。

AI 模型大小的不断增长，让人工智能训练所需的计算和内存访问在过去五年中增加了几个数量级。例如，训练GPT-3需要相当于一整天每秒超过 50 亿次的计算操作（即 5,000 petaflops /天），以及 3 万亿字节 (3 TB) 的内存容量。

新的生成式人工智能应用程序所需的计算能力和内存访问都在持续快速增长。我们现在需要回答一个紧迫的问题：半导体技术如何跟上步伐？

从集成器件到集成小芯片

自集成电路发明以来，半导体技术一直致力于缩小特征尺寸，以便我们可以将更多晶体管塞进缩略图大小的芯片中。如今，集成度已经上升了一个层次；我们正在超越 2D 缩放进入3D 系统集成。我们现在正在将许多芯片组合成一个紧密集成、大规模互连的系统。这是半导体技术集成的范式转变。

在人工智能时代，系统的能力与系统中集成的晶体管数量成正比。主要限制之一是光刻芯片制造工具被设计用于制造不超过约 800 平方毫米的 IC，即所谓的光罩限制（reticle limit）。但我们现在可以将集成系统的尺寸扩展到光刻掩模版极限之外。通过将多个芯片连接到更大的中介层（一块内置互连的硅片）上，我们可以集成一个系统，该系统包含的设备数量比单个芯片上可能包含的设备数量要多得多。例如，台积电的CoWoS（chip-on-wafer-on-substrate ）技术就可以容纳多达六个掩模版区域的计算芯片，以及十几个高带宽内存（HBM）芯片。

CoWoS是台积电的硅晶圆上芯片先进封装技术，目前已在产品中得到应用。示例包括 Nvidia Ampere 和 Hopper GPU。当中每一个都由一个 GPU 芯片和六个高带宽内存立方体组成，全部位于硅中介层上。计算 GPU 芯片的尺寸大约是芯片制造工具当前允许的尺寸。Ampere有540亿个晶体管，Hopper有800亿个。从 7 纳米技术到更密集的 4 纳米技术的转变使得在基本相同的面积上封装的晶体管数量增加了 50%。Ampere 和 Hopper 是当今大型语言模型 ( LLM ) 训练的主力。训练 ChatGPT 需要数万个这样的处理器。

HBM 是对 AI 日益重要的另一项关键半导体技术的一个例子：通过将芯片堆叠在一起来集成系统的能力，我们在台积电称之为SoIC (system-on-integrated-chips) 。HBM 由控制逻辑 IC顶部的一堆垂直互连的 DRAM 芯片组成。它使用称为硅通孔 (TSV) 的垂直互连来让信号通过每个芯片和焊料凸点以形成存储芯片之间的连接。如今，高性能 GPU广泛使用 HBM 。

展望未来，3D SoIC 技术可以为当今的传统 HBM 技术提供“无凸块替代方案”（bumpless alternative），在堆叠芯片之间提供更密集的垂直互连。最近的进展表明，HBM 测试结构采用混合键合技术堆叠了 12 层芯片，这种铜对铜连接的密度高于焊料凸块所能提供的密度。该存储系统在低温下粘合在较大的基础逻辑芯片之上，总厚度仅为 600 µm。

对于由大量运行大型人工智能模型的芯片组成的高性能计算系统，高速有线通信可能会很快限制计算速度。如今，光学互连已被用于连接数据中心的服务器机架。我们很快就会需要基于硅光子学的光学接口，并与 GPU 和 CPU 封装在一起。这将允许扩大能源效率和面积效率的带宽，以实现直接的光学 GPU 到 GPU 通信，这样数百台服务器就可以充当具有统一内存的单个巨型 GPU。

由于人工智能应用的需求，硅光子将成为半导体行业最重要的使能技术之一。

迈向万亿晶体管 GPU

如前所述，用于 AI 训练的典型 GPU 芯片已经达到了标线区域极限（reticle field limit）。他们的晶体管数量约为1000亿个。晶体管数量增加趋势的持续将需要多个芯片通过 2.5D 或 3D 集成互连来执行计算。通过 CoWoS 或 SoIC 以及相关的先进封装技术集成多个芯片，可以使每个系统的晶体管总数比压缩到单个芯片中的晶体管总数大得多。如AMD MI 300A 就是采用这样的技术制造的。

AMD MI300A 加速处理器单元不仅利用了CoWoS，还利用了台积电的 3D 技术SoIC。MI300A结合了 GPU 和 CPU内核，旨在处理最大的人工智能工作负载。GPU为AI执行密集的矩阵乘法运算，而CPU控制整个系统的运算，高带宽存储器（HBM）统一为两者服务。采用 5 纳米技术构建的 9 个计算芯片堆叠在 4 个 6 纳米技术基础芯片之上，这些芯片专用于缓存和 I/O 流量。基础芯片和 HBM 位于硅中介层之上。处理器的计算部分由 1500 亿个晶体管组成。

我们预测，十年内，多芯片 GPU 将拥有超过 1 万亿个晶体管。

我们需要在 3D 堆栈中将所有这些小芯片连接在一起，但幸运的是，业界已经能够快速缩小垂直互连的间距，从而增加连接密度。而且还有足够的空间容纳更多。我们认为互连密度没有理由不能增长一个数量级，甚至更高。

GPU 的节能性能趋势

那么，所有这些创新的硬件技术如何提高系统的性能呢？

如果我们观察一个称为节能性能的指标的稳步改进，我们就可以看到服务器 GPU 中已经存在的趋势。EEP 是系统能源效率和速度（the energy efficiency and speed of a system）的综合衡量标准。过去 15 年来，半导体行业的能效性能每两年就提高了三倍左右。我们相信这一趋势将以历史速度持续下去。它将受到多方面创新的推动，包括新材料、器件和集成技术、极紫外（EUV）光刻、电路设计、系统架构设计以及所有这些技术元素的共同优化等。

特别是，EEP 的增加将通过我们在此讨论的先进封装技术来实现。此外，系统技术协同优化 (STCO：system-technology co-optimization)等概念将变得越来越重要，其中 GPU 的不同功能部分被分离到各自的小芯片上，并使用性能最佳和最经济的技术来构建每个部分。

3D 集成电路的Mead-Conway时刻

1978年，加州理工学院教授Carver Mead和施乐帕洛阿尔托研究中心的Lynn Conway发明了集成电路的计算机辅助设计方法。他们使用一组设计规则来描述芯片缩放，以便工程师可以轻松设计超大规模集成（VLSI）电路，而无需了解太多工艺技术。

3D 芯片设计也需要同样的功能。如今，设计人员需要了解芯片设计、系统架构设计以及硬件和软件优化。制造商需要了解芯片技术、3D IC技术和先进封装技术。正如我们在 1978 年所做的那样，我们再次需要一种通用语言，以电子设计工具可以理解的方式描述这些技术。这种硬件描述语言使设计人员可以自由地进行 3D IC 系统设计，而无需考虑底层技术。它正在路上：一种名为3Dblox 的开源标准已被当今大多数技术公司和电子设计自动化 (EDA) 公司所接受。

隧道之外的未来

在人工智能时代，半导体技术是人工智能新能力和应用的关键推动者。新的 GPU 不再受过去的标准尺寸和外形尺寸的限制。新的半导体技术不再局限于在二维平面上缩小下一代晶体管。集成人工智能系统可以由尽可能多的节能晶体管、用于专门计算工作负载的高效系统架构以及软件和硬件之间的优化关系组成。

过去 50 年来，半导体技术的发展就像走在隧道里一样。前面的路很清晰，因为有一条明确的道路。每个人都知道需要做什么：缩小晶体管。

现在，我们已经到达隧道的尽头。从这里开始，半导体技术将变得更加难以发展。然而，在隧道之外，还有更多的可能性。我们不再受过去的束缚。

责编：Luffy

阅读全文，请先

制造/封装 EDA/IP/IC设计人工智能业界新闻

您可能感兴趣

美国“瞄准”中国成熟芯片，援引301条款启动贸易调查

美国试图通过技术封锁维持其全球主导地位，而中国则希望通过自主创新实现产业升级和经济转型。未来很长一段时间，中美之间合作与竞争并存的局面可能会成为一种常态。

蔡司成功收购了Beyond Gravity光刻部门

Beyond Gravity是一家总部位于瑞士苏黎世的高科技公司，主要业务包括为运载火箭提供结构件，并在卫星产品和星座领域处于领先地位。其光刻部门位于瑞士苏黎世和德国德累斯顿附近的Coswig，拥有约210名员工。蔡司（ZEISS）成功收购了Beyond Gravity的光刻部门，并将其整合到其半导体制造技术部门（ZEISS SMT）......

从CoWoS走向CoPoS，2.5D封装的一场技术变革即将到来

芯片是方的，晶圆却是圆的；如果把封装的载片晶圆换成方形面板，情况会是怎样？

宽禁带材料推动未来技术的半导体研究与制造

在接受笔者采访时，Nexperia公司SiC产品组高级总监Katrin Feurle和该公司副总裁兼GaN FET业务部总经理Carlos Castro就这一相关投资计划发表了见解。

韩媒称：SK海力士定制HBM4基础裸片将从5nm升级至3nm

SK海力士在HBM4上将对基础裸片的称呼已经从DRAM Base Die调整为Logic Base Die，强调了基础裸片愈发重要的逻辑功能。这意味着HBM4时代的基础裸片将全面转向逻辑半导体工艺。

台积电1.6纳米芯片采用超级电源轨背面供电网络，2026年底量产

台积电的1.6纳米芯片“A16”技术具有多项创新点，其中最显著的是其超级电源轨（SPR）背面供电网络。这一技术是台积电首创，专为高性能计算产品设计，旨在提高芯片的性能和降低功耗。

“一碰交互，共触未来”ITMA峰会盛大开启近场交互新生态

目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。

中科院微电子所在忆阻神经-模糊硬件及应用探索方面取得新进展

中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……

直角照明轻触开关为复杂电子应用提供定制性和多功能性

C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。

投身国产浪潮向上而行，英韧科技再获“中国芯”认可

被神秘的FS7“附体”，解读两大最新功率模块系列的“超能力”

点击蓝字关注我们安森美（onsemi）在2024年先后推出两款超强功率半导体模块新贵，IGBT模块系列——SPM31 IPM，QDual 3。值得注意的是，背后都提到采用了最新的FS7技术，主要性能

投资20亿！路芯半导体掩膜版生产项目首批工艺设备机台入厂

来源：苏州工业园区12月17日，江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来，专注于半导体掩膜版的研发与生产，掌握130nm至28n

18亿元！2大储能项目新动态

近期，多个储能电站项目上新。■ 乐山电力：募资2亿建200MWh储能电站12月17日晚，乐山电力（600644.SH）公告，以简易程序向特定对象发行A股股票申请已获上交所受理，募集资金总额为2亿元。发

雷曼光电与辰显光电签约，推进MicroLED商业化

‍‍12月18日，深圳雷曼光电科技股份有限公司（下称“雷曼光电”）与成都辰显光电有限公司（下称“辰显光电”）在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势，共同推进Mi

华为Pura80细节曝光：麒麟9020跑分能上130万分

对于华为来说，今年的重磅机型都已经发完了，而明年的机型已经在研发中，Pura 80就是期待很高的一款。有博主爆料称，华为Pura 80将会用上了豪威OV50K传感器，同时电池容量达到5600毫安时。至

撒贝宁走进维信诺，探寻“非凡中国屏”诞生背后的科技传奇之旅

万物互联的时代浪潮中，以OLED为代表的新型显示技术，已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者，凭借自主创新，实现了我国OLED技术的自立自强，成为中国新型显示产

自动驾驶业务增长6倍，Uber被市场明显错杀，即将迎来50%上涨空间！

“ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务，Uber ( NYSE: UBER ) 的股价在短短几周内从 202

注意些问题，嵌入式软件代码可大幅度减少bug

扫描关注一起学嵌入式，一起学习，一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃，死机或其他计划外的运行时行为追溯到根本原因。在最坏的情

扎克伯格39岁华裔爱妻罕见炫舞，丰韵身姿尽显“女王”气场，宠溺深情令人动容

在科技浪潮翻涌的硅谷，马克·扎克伯格不仅是“脸书”帝国的掌舵人，更是以其谦逊低调的形象，在公众心中树立了独特的领袖风范。然而，在镁光灯难以触及的私人领域，扎克伯格与39岁华裔妻子普莉希拉·陈的爱情故事

【倒计时3天】2024RT-Thread开发者大会，本周六见！

亲爱的企业用户和开发者朋友们距离2024 RT-Thread开发者大会正式开幕仅剩最后3天！还没报名的小伙伴，抓紧报名噢，12月21日不见不散！大会时间与地点时间：2024年12月21日 9:30-1

文章评论

最新
热门

换一换

EE直播

更多>

台积电董事长撰文：我们如何实现1万亿个晶体管GPU？

从集成器件到集成小芯片

迈向万亿晶体管 GPU

GPU 的节能性能趋势

3D 集成电路的Mead-Conway时刻

隧道之外的未来

杂志声明