随着大模型的发展,对算力的需求急剧增加。人工智能大模型的Scaling Law与半导体的Scaling概念相似,模型尺寸的增加必然要求更高的算力。然而,当前的算力与模型需求之间存在巨大的鸿沟。

回顾人工智能(AI)的发展历程,从2012年开始总共经历了三个主要阶段。最初只是关注于一个具体、受限人工智能任务的小模型,比如图像识别、语音识别,泛化能力较差;到2016年至2020年间的过渡期,这个时间段里模型不断向上发展,规模不断增加,但还没有达到今天的程度;再到2019年之后基于Transformer架构的大模型的快速发展,人工智能模型的规模和复杂性不断增加,能够支持多任务学习,有更好的性能和泛化能力,走向通用的模型能够支持多种人工智能的任务,如对话、问答、创作,也包括图像检索、分类,多种形态的任务可以在同一个模型上实现。 

2024年9月26日,2024中国集成电路设计创新大会暨第四届IC应用展(ICDIA 2024)在无锡举行。在大会的高峰论坛上,清华大学集成电路学院副院长尹首一教授发表了题为《晶圆级计算:进展与挑战》的主题演讲。尹教授深入剖析了当前人工智能大模型对算力的巨大需求,以及晶圆级计算作为解决这一问题的新方向的潜力和挑战。

清华大学集成电路学院副院长尹首一教授

算力需求和芯片工艺均面临挑战

随着大模型的发展,对算力的需求急剧增加。尹教授指出,人工智能大模型的Scaling Law与半导体的Scaling概念相似,模型尺寸的增加必然要求更高的算力。然而,当前的算力与模型需求之间存在巨大的鸿沟。具体来说,算力中心的算力需求需要从芯片算力和系统算力两个方面考虑。系统算力可以分为三个参数层级:芯片算力密度、芯片面积和系统集群的Scaling-out。

  • 芯片算力密度:依赖于制造能力,单位面积内的晶体管数量决定了算力密度。
  • 芯片面积:受制于制造过程中的光刻技术,当前芯片面积的工业极限是光刻机曝光区域的最大858平方毫米。
  • 系统集群的Scaling-out:当前万卡集群已经不够用,OpenAI正在探讨1000万卡集群的构建。

尹教授指出,当前面临的最大挑战是制造工艺进入后摩尔时代,器件的Scaling-down面临瓶颈。传统的制造工艺提升单芯片算力的路径变得难以持续。

此外,系统层面也面临“规模墙”的挑战,主要体现在以下几个方面:

1、互联能力限制:单芯片算力很高,但芯片间的高带宽互联范围有限,以英伟达NVLink通信距离为例,高带宽互联域半径仅为50米。在这之外,互联带宽急剧下降,限制了整个系统的规模持续提升。

2、系统功耗:算力中心是电老虎,OpenAI CEO奥特曼甚至投资了一家核聚变创业企业以解决能源问题。可想而知能源问题有多严峻,以至要在核聚变这样的技术突破还没有完全达成的路线上下注。

3、集成方式限制:传统智算中心的集成方式是芯片到板卡、板卡到整机、整机到机柜,机柜代把它互联起来。今天典型的算力中心,一个机柜里有27台服务器,9个是交换机,导致算力密度仅为67%,集群的算力密度仅为44%。

圆级计算的解决方案

从智算中心来看,算力集群面临Scaling-out“规模墙”的问题急需行业从系统架构角度突破,不仅在单芯片算力上能提升,在系统规模上也要能够提升,才能满足未来大模型再进一步发展对算力的迫切的需求。

“这个问题是今天从学术界到工业界普遍公认的难题,英伟达作为算力发展上的先行者,他们也面临同样的挑战。” 尹教授表示,2024年OFC光纤通信大会上,英伟达CEO黄仁勋讲曾说,未来的数据中心不再是今天理解的数据中心,而是一个基本计算单元,如果能够把所有计算中心里的组件都集成到一个GPU里,才能解决今天面临的问题。“这促使我们去思考,今天芯片发展遵循的是摩尔定律,不断地把芯片做小、密度做高,未来可能需要从计算系统角度考虑,也许会有一个系统集的摩尔定律帮助我们摆脱规模墙制约。”

面对这些挑战,尹教授提出了晶圆级计算作为新的解决方案。“可以把它看作是系统级摩尔定律的探索,这也是算力先行者提出的想法,把一个数据中心做成一颗芯片。”

晶圆级计算的目标是将一个数据中心集成到一个晶圆上,即“一颗晶圆一颗芯片”(One Wafer One Chip)。这需要在芯片面积和单芯片算力上达到极致,同时解决系统层面的互联问题。

目前业界有两个最出名的晶圆级计算项目,产品技术路线稍有不同,分别是:

  • 特斯拉的Dojo系统:发布于2021年,采用数据流计算架构和台积电的InFo-SoW基板集成技术,实现了高密度的计算芯粒互联。特斯拉设计了专门的TTPOEP通信协议,简化了传统TCP/IP协议,提高了芯粒间的通信效率。

  • Cerebras的WSE技术:发布于2019年,采用整晶圆光罩拼接技术,实现了一体成型。通过专门的容错架构设计,大幅降低了晶圆缺陷带来的损失,使得95%以上的晶圆面积可以用于有效计算。

通过对比特斯拉Dojo和传统英伟达集群的例子,可以看到晶圆级计算在算力密度上的数量级提升,以及在成本、功耗和训练时间上的显著优势。

以构建Z级算力中心数据作为目标基准,采用A100 GPU成本是800亿美元,而走晶圆集计算路线的特斯拉Dojo成本是14亿美元。从功耗角度来看,GPU路线是4000兆瓦,晶圆级路线约1100兆瓦。最后看使用效果,以训练一个GPT4尺度的模型为基准,传统GPU路线差不多17.8小时,晶圆级芯片路线是4.4小时。这些数据来自于特斯拉实际的Dojo系统测试和统计,从成本、占地、功耗、训练时间来看,这条技术路线有机会全面颠覆过去传统GPU的路线。

实际应用与前景

尹首一教授提到,晶圆级计算已经不再是概念,而是已经落地并构建了亿级算力中心的实践。目前,特斯拉和Cerebras的晶圆级计算系统已经在实际的智算中心中大规模应用。例如,Cerebras在阿联酋建设的Galaxy-3超算中心提供了8EFlops的算力,而特斯拉在纽约州建立的算力中心也达到了4Eflops的算力。

晶圆级系统可以分解成三部分,一是核心的计算芯粒,通过互联技术被基板承载;中间的互联基板可以是硅,也可以是玻璃等其它材质;下方是垂直供电,或IO、存储组合的系统级模组,上中下三层构成晶圆级计算系统结构。

但它们在设计和制造上都面临挑战。例如,晶圆级计算需要解决多芯片之间的互连问题,以及实现对高算力计算单元的供电和散热。为此,特斯拉等公司采用了先进的基板技术和高密度存储、供电合成模块,实现了对晶圆级计算系统的有效支撑。

尹教授总结道,晶圆级计算是解决当前算力需求的重要方向。从2019年Cerebras发布第一代产品到2024年台积电开放InFo-SoW工艺,这条技术路线已经得到了产业界的广泛认可。尽管面临诸多挑战,但晶圆级计算的前景仍然非常光明。

责编:Luffy
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
随着先进芯片设计格局的迅速演变,新的验证和确认方法变得至关重要。众多前沿设计由系统公司在先进的工艺节点下完成,具有大量的逻辑门,并依赖于复杂的片上网络、SRAM池以及精密的电源、时钟和测试架构。
业界正从“引线框架”设计转向在具有复杂布线图案的多层电路衬底上安装IC,这一转变推动了对先进IC衬底的需求,并催生了对新型绝缘材料的迫切需求。
近年来,电源管理芯片(PMIC)的集成化和小型化程度不断提高。从电子设计自动化(EDA)供应商的角度来看,加快PMIC设计需要在三个主要领域进行创新:效率、可靠性和上市时间(TTM)。
人工智能的兴起和数据中心日益增长的需求极大地吸引了人们对光子集成电路和硅光子技术的关注。
芯片设计作为一种独立的、与外界隔绝的活动已不再可行。随着复杂性不断提高,几何尺寸越来越小,性能越来越高,功耗越来越低,竞争也越来越激烈,“扔到墙外”的传统心态必须改变。
2.5D和3D集成研究旨在突破内存与处理单元间的数据传输瓶颈。为解决这一瓶颈,研究人员将内存堆栈放置得更靠近芯片,并在硅中介层上实现不同裸片和内存单元的异构集成。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
点击上方蓝字谈思实验室获取更多汽车网络安全资讯3 月 5 日,据中国经济网报道,近日有传言毛京波即将卸任莲花中国总裁,调整至海外市场。莲花汽车内部人士证实了此事:“毛总(毛京波)已经有几天没有出现在办
‍‍据“龙岩发布”3月5日消息,蓝天LED显示屏产业链生产项目一期装修已完成50%,预计3月底可完工,4月初试投产。加入LED显示行业群,请加VX:hangjia188图源:龙岩发布据介绍,蓝天LED
在 AI 时代,高校正逐渐成为 AI 创新的重要策源地。AI 的强大潜力不仅能够推动科学研究,提升研究效率和加速进程,还能在教育领域实现个性化学习,模拟复杂实验场景,拓宽学习方式。聆听全球专家的分享,
点击文末“阅读原文”链接即可报名参会!往期精选《2024年度中国移动机器人产业发展研究报告》即将发布!2024年,36家移动机器人企业融了超60亿元2024移动机器人市场:新玩家批量入场,搅局还是破局
插播:历时数月深度调研,9大系统性章节、超百组核心数据,行家说储能联合天合光能参编,发布工商业储能产业首份调研级报告,为行业提供从战略决策到产品方向、项目资源的全维参考!点击下方“阅读原文”订阅刚开年
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来---- 来源:时光沉淀申明:感
2025年3月11-13日,亚洲激光、光学、光电行业年度盛会的慕尼黑上海光博会将在上海新国际博览中心-3号入口厅N1-N5,E7-E4馆盛大召开。本次瑞淀光学展示方案有:■ MicroOLED/Min
如果说华为代表了国产手机芯片的最高水平,那么紫光展锐无疑就是国产中低端芯片最大的依持了。3月3日,巴塞罗那MWC世界移动通信大会上,紫光展锐正式发布手机芯片T8300。据了解,T8300采用的是6nm
在3月4日北京市政府新闻办公室举行的发布会上,北京经济技术开发区(北京亦庄)发布消息称,将于4月13日举行北京亦庄半程马拉松赛,全球首个人形机器人半程马拉松赛将同期举行。会上表示,人形机器人将与运动员
 点击上方蓝字➞右上「· · ·」设为星标➞更新不错过★2025 年 3 月 12 日至 14 日  连续 3 晚 19:00 - 20:30德州仪器电力全开 为您带来 “高效 DC-DC 转换器的设