随着大模型的发展,对算力的需求急剧增加。人工智能大模型的Scaling Law与半导体的Scaling概念相似,模型尺寸的增加必然要求更高的算力。然而,当前的算力与模型需求之间存在巨大的鸿沟。

回顾人工智能(AI)的发展历程,从2012年开始总共经历了三个主要阶段。最初只是关注于一个具体、受限人工智能任务的小模型,比如图像识别、语音识别,泛化能力较差;到2016年至2020年间的过渡期,这个时间段里模型不断向上发展,规模不断增加,但还没有达到今天的程度;再到2019年之后基于Transformer架构的大模型的快速发展,人工智能模型的规模和复杂性不断增加,能够支持多任务学习,有更好的性能和泛化能力,走向通用的模型能够支持多种人工智能的任务,如对话、问答、创作,也包括图像检索、分类,多种形态的任务可以在同一个模型上实现。 

2024年9月26日,2024中国集成电路设计创新大会暨第四届IC应用展(ICDIA 2024)在无锡举行。在大会的高峰论坛上,清华大学集成电路学院副院长尹首一教授发表了题为《晶圆级计算:进展与挑战》的主题演讲。尹教授深入剖析了当前人工智能大模型对算力的巨大需求,以及晶圆级计算作为解决这一问题的新方向的潜力和挑战。

清华大学集成电路学院副院长尹首一教授

算力需求和芯片工艺均面临挑战

随着大模型的发展,对算力的需求急剧增加。尹教授指出,人工智能大模型的Scaling Law与半导体的Scaling概念相似,模型尺寸的增加必然要求更高的算力。然而,当前的算力与模型需求之间存在巨大的鸿沟。具体来说,算力中心的算力需求需要从芯片算力和系统算力两个方面考虑。系统算力可以分为三个参数层级:芯片算力密度、芯片面积和系统集群的Scaling-out。

  • 芯片算力密度:依赖于制造能力,单位面积内的晶体管数量决定了算力密度。
  • 芯片面积:受制于制造过程中的光刻技术,当前芯片面积的工业极限是光刻机曝光区域的最大858平方毫米。
  • 系统集群的Scaling-out:当前万卡集群已经不够用,OpenAI正在探讨1000万卡集群的构建。

尹教授指出,当前面临的最大挑战是制造工艺进入后摩尔时代,器件的Scaling-down面临瓶颈。传统的制造工艺提升单芯片算力的路径变得难以持续。

此外,系统层面也面临“规模墙”的挑战,主要体现在以下几个方面:

1、互联能力限制:单芯片算力很高,但芯片间的高带宽互联范围有限,以英伟达NVLink通信距离为例,高带宽互联域半径仅为50米。在这之外,互联带宽急剧下降,限制了整个系统的规模持续提升。

2、系统功耗:算力中心是电老虎,OpenAI CEO奥特曼甚至投资了一家核聚变创业企业以解决能源问题。可想而知能源问题有多严峻,以至要在核聚变这样的技术突破还没有完全达成的路线上下注。

3、集成方式限制:传统智算中心的集成方式是芯片到板卡、板卡到整机、整机到机柜,机柜代把它互联起来。今天典型的算力中心,一个机柜里有27台服务器,9个是交换机,导致算力密度仅为67%,集群的算力密度仅为44%。

圆级计算的解决方案

从智算中心来看,算力集群面临Scaling-out“规模墙”的问题急需行业从系统架构角度突破,不仅在单芯片算力上能提升,在系统规模上也要能够提升,才能满足未来大模型再进一步发展对算力的迫切的需求。

“这个问题是今天从学术界到工业界普遍公认的难题,英伟达作为算力发展上的先行者,他们也面临同样的挑战。” 尹教授表示,2024年OFC光纤通信大会上,英伟达CEO黄仁勋讲曾说,未来的数据中心不再是今天理解的数据中心,而是一个基本计算单元,如果能够把所有计算中心里的组件都集成到一个GPU里,才能解决今天面临的问题。“这促使我们去思考,今天芯片发展遵循的是摩尔定律,不断地把芯片做小、密度做高,未来可能需要从计算系统角度考虑,也许会有一个系统集的摩尔定律帮助我们摆脱规模墙制约。”

面对这些挑战,尹教授提出了晶圆级计算作为新的解决方案。“可以把它看作是系统级摩尔定律的探索,这也是算力先行者提出的想法,把一个数据中心做成一颗芯片。”

晶圆级计算的目标是将一个数据中心集成到一个晶圆上,即“一颗晶圆一颗芯片”(One Wafer One Chip)。这需要在芯片面积和单芯片算力上达到极致,同时解决系统层面的互联问题。

目前业界有两个最出名的晶圆级计算项目,产品技术路线稍有不同,分别是:

  • 特斯拉的Dojo系统:发布于2021年,采用数据流计算架构和台积电的InFo-SoW基板集成技术,实现了高密度的计算芯粒互联。特斯拉设计了专门的TTPOEP通信协议,简化了传统TCP/IP协议,提高了芯粒间的通信效率。

  • Cerebras的WSE技术:发布于2019年,采用整晶圆光罩拼接技术,实现了一体成型。通过专门的容错架构设计,大幅降低了晶圆缺陷带来的损失,使得95%以上的晶圆面积可以用于有效计算。

通过对比特斯拉Dojo和传统英伟达集群的例子,可以看到晶圆级计算在算力密度上的数量级提升,以及在成本、功耗和训练时间上的显著优势。

以构建Z级算力中心数据作为目标基准,采用A100 GPU成本是800亿美元,而走晶圆集计算路线的特斯拉Dojo成本是14亿美元。从功耗角度来看,GPU路线是4000兆瓦,晶圆级路线约1100兆瓦。最后看使用效果,以训练一个GPT4尺度的模型为基准,传统GPU路线差不多17.8小时,晶圆级芯片路线是4.4小时。这些数据来自于特斯拉实际的Dojo系统测试和统计,从成本、占地、功耗、训练时间来看,这条技术路线有机会全面颠覆过去传统GPU的路线。

实际应用与前景

尹首一教授提到,晶圆级计算已经不再是概念,而是已经落地并构建了亿级算力中心的实践。目前,特斯拉和Cerebras的晶圆级计算系统已经在实际的智算中心中大规模应用。例如,Cerebras在阿联酋建设的Galaxy-3超算中心提供了8EFlops的算力,而特斯拉在纽约州建立的算力中心也达到了4Eflops的算力。

晶圆级系统可以分解成三部分,一是核心的计算芯粒,通过互联技术被基板承载;中间的互联基板可以是硅,也可以是玻璃等其它材质;下方是垂直供电,或IO、存储组合的系统级模组,上中下三层构成晶圆级计算系统结构。

但它们在设计和制造上都面临挑战。例如,晶圆级计算需要解决多芯片之间的互连问题,以及实现对高算力计算单元的供电和散热。为此,特斯拉等公司采用了先进的基板技术和高密度存储、供电合成模块,实现了对晶圆级计算系统的有效支撑。

尹教授总结道,晶圆级计算是解决当前算力需求的重要方向。从2019年Cerebras发布第一代产品到2024年台积电开放InFo-SoW工艺,这条技术路线已经得到了产业界的广泛认可。尽管面临诸多挑战,但晶圆级计算的前景仍然非常光明。

责编:Luffy
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
CMA机构已暂时接受了芯片设计软件制造商新思科技为解决其拟议的350亿美元收购Ansys交易可能引发的竞争问题而提出的补救措施。作为条件性批准的一部分,新思科技承诺将剥离Ansys的PowerArtist业务以及出售自身的光学解决方案集团,以回应CMA对合并后实体可能减少市场竞争的担忧。这一进展标志着此笔EDA领域“世纪大收购”迈向完成的重要一步,预计整个过程将在2025年上半年内完成......
IP供应商、芯片设计服务提供商和AI专家在以AI为中心的设计价值链中的地位正变得更加突出。本文给出了四个设计用例,强调了服务于AI应用的芯片设计模型的重新调整。
芯片设计周期久,决定了AI芯片如果没有在设计之初就“压对宝”,上市时就可能已经过时。有没有什么工具能大幅加速AI芯片的设计流程?
Arm预计,到2025年将会有1,000亿台基于Arm架构的设备可具备人工智能功能,包括由Cortex-A、Cortex-M驱动的设备。
硬件若无软件支持就毫无意义。而软件始终是Arm计算平台不可或缺的一部分,其技术已经涵盖整个软件栈的各个层面。从底层固件和操作系统的开发,到与游戏引擎、开源社区和独立软件供应商(ISV)的战略合作,确保所有这些在Arm平台上都能“开机即用”。
随着大量AI手机、平板和PC涌入市场,各厂商在高端机型上激烈的AI功能竞争将很快会扩展到中档设备和汽车等广泛应用场景。同时,各厂家也在不断为已有功能增加新的特性(feature)。AI+Feature的融合互促将成为多个行业的热点。
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
美通社消息,根据Omdia最新的消费者调查,TikTok和YouTube已成为美国18-35岁人群的领先视频平台。这些平台的发展速度已经超过了Instagram、Facebook和Netflix,巩固
近日,据36氪报道,进入2025年,丰田汽车针对中国区业务进行了一系列重要的人事调整。丰田中国已正式任命李晖为首位中国籍总经理。同时,广汽丰田现任总经理藤原宽行将被调任至一汽丰田,担任总经理一职。这一
互联网与科技企业每日重点资讯文 | 苏丁巨头动向字节跳动调整员工福利字节跳动发布内部邮件,对员工福利政策进行微调。包括:2026年将停止发放春节红包(今年发放);2025年度不再发放端午、中秋节礼品;
插播:汇聚南网科技、天合光能、新能安、华友能源、皇鼎储能、住友商社、永光新能源、厦门国贸,以及南瑞继保、智光储能、精控能源、钧能科技等业内20位重量级嘉宾,行家说储能·2025新型储能趋势与工商储应用
1月23日,艾森股份发布公告称,公司正筹划以发行股份及支付现金的方式购买棓诺(苏州)新材料有限公司(以下简称“棓诺新材”)控股权并募集配套资金。该公司相关股票自2025年1月24日起停牌,预计停牌时间
近日,维信诺在显示技术领域取得重大突破,在业界率先采用固态激光退火(SLA)技术,成功实现非晶硅薄膜向多晶硅薄膜的转化,并实现量产品成功点亮,预计在今年2月底将实现SLA技术的大规模量产。这一创举标志
据晚点 Auto消息,近日,比亚迪汽车新技术研究院院长、比亚迪智驾总负责人杨冬生在技术院内部,谈了他对于技术研发、管理、制度等话题的看法,并提出了新的工作要求或者方向。他表示:“一个产品的先进和成功是
寒假到来,你是否已经计划好带着孩子来一场说走就走的旅行?无论是山川湖海,还是古城小镇,每一次旅行都充满了未知和惊喜。在这场旅行中,相机或手机将成为你记录美好瞬间的得力助手。当旅行结束,面对着一堆照片,
据外媒SAMMY FANS报道,三星电子计划在2025年推出四款创新的折叠屏手机,进一步拓展其折叠屏产品系列,包括首款三折叠机型。           据悉,三星将继续更新其Flip和Fold两大折叠
此前,行家说储能在《688Ah电芯下线!储能“双6时代”的悬念》(.点这里)中提及,楚能新能源发布了625Ah储能电芯,近日楚能新能源688Ah储能电芯也取得新进展。据行家说储能最新消息,首批由楚能新