4月20日,Cerebras Systems 公司再次刷新历史,推出为超级计算机任务而打造的第 2 代 Wafer Scale Engine (WSE-2)芯片。与一代WSE相比,WSE-2虽然在面积上没有变化,但却拥有创纪录的 2.6 万亿个晶体管以及 85万个 AI 优化的内核,芯片的所有性能特征,包括:晶体管数、内核数、内存、内存带宽和结构带宽,均比一代增加了一倍以上。

差不多两年前(2019年8月),SeaMicro 创始人安德鲁·费尔德曼(Andrew Feldman)创办的 Cerebras  Systems 公司公司,揭开了芯片设计领域的一场革命,他们将整片晶圆制成了一个巨大的芯片。

以往的芯片制造流程,是从硅锭切下一片晶圆后在Fab中进行加工,一片晶圆能被切成数百颗独立的芯片。而这颗名为晶圆级引擎(Wafer Scale Engine,WSE-1)的处理器直接把整片晶圆做成了一颗芯片,面积与12英寸晶圆所能截取的最大矩形面积一样——比iPad还大。

不过,这颗芯片的每一块区域都能被称为内核,它们以一种复杂的方式与其他内核相互连接。互联的设计是为了保持所有内核的高速运转,以便所有晶体管能够作为一个整体一起工作。在 2019 年推出的WSE-1中,Cerebras 融入了 40 万个内核和 1.2万亿个晶体管,采用的是 16 纳米工艺进行制造,可同时专注于AI和HPC(High Performance Computing,高性能计算机群)工作负载。

更狠的第二代(WSE-2)来了

4月20日,Cerebras Systems 公司再次刷新历史,推出为超级计算机任务而打造的第二代 Wafer Scale Engine (WSE-2)芯片。与一代WSE相比,WSE-2虽然在面积上没有变化,但却拥有创纪录的 2.6 万亿个晶体管以及 85万个 AI 优化的内核,芯片的所有性能特征,包括:晶体管数、内核数、内存、内存带宽和结构带宽,均比一代增加了一倍以上。

这得益于WSE-2采用基于台积电(TSMC)的N7工艺(7nm)打造,使得逻辑电路可以按比例缩小,并在一定程度上缩小了SRAM,让新芯片上可以容纳更多AI内核。Feldman 说,有了这样的先进工艺支持,Cerebras 可以在同样的8*8英寸,面积约46225mm2的芯片中塞进更多的晶体管。

WSE-2与一代对比(图自:AnanTech

值得注意的是,在功能提升的前提下,Cerebras还能够保持其系统功耗不变(23 kW)。

对比市场上第二大AI处理器,英伟达的Ampere A100面积约为826mm2,具有0.054万亿个晶体管。WSE-2比它多了2.55万亿个晶体管;内核数是A100的123倍;缓存是其1000倍;可提供的内存带宽,则达到了A100的13万倍。

Cerebras还引用了1000倍的板载内存,带有40 GB的SRAM,而Ampere A100则为40 MB。

 

最初推出WSE-1的时候,很多人担心这么大的晶圆做芯片,万一其中一块不良,是否整个报废?对此Cerebras解释说,他们通过设计一种可以绕开任何制造缺陷的系统来实现100%的良率,核心与带有FMAC数据路径的2D Mesh连接

Cerebras在WSE-1用了1.5%的额外核心来容纳缺陷,但由于台积电工艺的提升,这个数值被进一步缩小了。

晶圆级引擎存在的意义 

WSE的出现,是因为训练神经网络需要花费较多的时间,即便是当今最先进的模型,也需要几天或几周的时间进行训练,大型网络则需要数周。通常做法是在数十、数百甚至数千个GPU上进行分布式训练,以使训练时间更可控。

其中最大的瓶颈,是这些庞大的处理器集群很难编程,而且数据必须在处理器和外部 DRAM 存储器之间进行多次传输,既浪费时间又消耗能源。所以WSE研发团队的初衷是扩大芯片,使它与 AI 处理器内核一起容纳所需的所有数据,一个CS-2的性能相当于整个GPU集群的性能,同时具有单个设备的简单性。。

其设计的关键是自定图形编译器,采用pyTorch或TensorFlow将每一层映射到芯片的物理部分,从而允许在数据流过时进行异步计算。拥有如此大的处理器意味着数据永远不会掉队,也不需要在内存中等待,不浪费功率,并且可以以流水线的方式连续地移至计算的下一个阶段。编译器和处理器的设计还考虑到了稀疏性,无论批处理大小如何都可以实现高利用率,或者可以使参数搜索算法同时运行。

Cerebras设计的独特性,让它能够超越制造过程中出现的常见物理限制,即标线限制。处理器的设计限制,往往取决于芯片的最大尺寸,因为很难通过Cross link连接两个区域。这是Cerebras的杀手锏之一,该公司仍然是唯一一家能提供这种规模处理器的公司。

在Hot Chips 2020,该公司首席硬件架构师Sean Lie表示,Cerebras对客户的主要好处之一是能够简化工作负载,以前需要使用GPU / TPU机架的工作,现在可以以计算相关的方式在单个WSE上运行。

产品和合作伙伴

Cerebras的第一代WSE作为CS-1的完整系统的一部分一起打包出售,不少实验室与计算机中心已经部署了Cerebras WSE和CS-1。

  • 爱丁堡大学的超级计算中心,利用WSE进行自然语言处理、基因组学和COVID-19的相关研究。
  • 在美国阿贡国家实验室(ANL),WSE被用于COVID-19研究、重力波检测和材料发现等;并且在癌症疗法研究中,使癌症模型的实验周转时间,减少了300倍以上。
  • 制药企业葛兰素史克的高级副总裁金·布兰森表示:“其增加了生成的编码器模型的复杂性,同时将训练时间减少了80倍。”
  • Lawrence Livermore将一台CS-1与其23 PFLOP“拉森”超级计算机配对。匹兹堡超级计算机中心以500万美元的价格购买了两个系统,并将这些系统连接到他们的Neocortex超级计算机上,以实现同步AI和增强的计算能力。

对于WSE-2的应用,国际调研公司Tirias Research首席分析师Jim McGregor认为:“显然,对用于大型数据集的Cerebras晶圆级解决方案,有些公司和实体很感兴趣。但是在企业层面,还有数百万的其他AI应用,以及一些Cerebras不能处理的情况,这就是英伟达拥有SuprPod和Selene超级计算机的原因。与英伟达相比,Cerebras更像是一个小众平台,二者的广度无法相提并论。”

目前Cerebras在多伦多、圣地亚哥、东京和旧金山拥有约300名员工。该公司首席执行官安德鲁·费尔德曼(Andrew Feldman)表示,作为一家公司,他们已经实现了盈利,已经部署了CS-1的客户很多,并且在启动商业系统时已经有更多的客户在远程试用CS-2。 

除了AI之外,由于芯片的灵活性使流体动力学和其他计算仿真成为可能,因此Cerebras在典型的商业高性能计算市场(例如石油、天然气和基因组学)中吸引了很多客户。

CS-2的部署将于今年晚些时候的第三季度开始,价格已从2-3百万美元升至“几百万”美元。

责编:Luffy Liu

您可能感兴趣
最近收到一款Jetson Orin Nano Super开发套装,我打算拿它来做个简单的AI应用开发...在没有任何AI应用和嵌入式应用开发经验的基础上...主打传说中的零代码开发~
“物理智能(Physical AI)”,黄仁勋在CES 2025上发表主题演讲时提出的新概念。他指出,即将全面到来的“Physical AI”时代,将是在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。
该标准旨在为养老机器人的设计、制造、测试和认证提供统一规范,推动全球养老机器人产业的健康发展,通过明确养老机器人的功能与性能分类,确保其在互联家居环境中的有效应用。
2月以来,一些人形机器人头部企业高薪案例值得关注。其中,宇树科技招聘机器人感知算法工程师、机器人控制算法专家等岗位,月薪可达7万元至10万元。智元机器人SLAM算法专家月薪4-7万元,年薪超百万(15薪制)。
在应对美国加码措施上,中国一方面应该依托自身庞大的垂直应用场景,特别是工业制造领域,在做大做强中国制造的同时,推动国产AI芯片的替代,另一方面仍需加大基础研究投入,重点突破AI芯片设计、半导体设备和先进工艺制程。
除了医疗诊断之外,DeepSeek利用其强大的计算能力和数据分析能力,还可以加速药物研发过程。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
小米宣布全球首发光学预研技术——小米模块光学系统,同时发布官方宣传视频。简单来说,该系统是一个磁吸式可拆卸镜头,采用定制M4/3传感器+全非球面镜组,带来完整一亿像素,等效35mm焦段,配备f/1.4
Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新研究,TSMC(台积电)近日宣布提高在美国的先进半导体制造投资,总金额达1650亿美元,若新增的三座厂区扩产进度顺利,预计最快20
引言 嘿,各位电动汽车的爱好者们!咱们今儿个就来聊聊电动汽车里那些“看不见,摸不着”,但又至关重要的零部件。要说电动汽车这玩意儿,那可真是科技含量满满,各种高精尖的技术都往里堆。但要让这些
市值一夜蒸发2900亿”作者|王磊编辑|秦章勇特斯拉陷入一个怪圈。马斯克的权力越来越大,但特斯拉的股价却跌得越来越惨。就在昨天,特斯拉股价又下跌了4.43%,一天之内蒸发406亿美元,约合人民币295
从上表可知,2024年前三季度全球40强PCB企业总营收约416.7亿美元,同比增长7.6%。其中,营收排名第一位的是臻鼎科技(36.05亿美元),排名第2~5位的分别是欣兴电子(26.85亿美元)、
本文来源:智能通信定位圈自动跟随类的产品属于比较酷炫功能的“黑科技”产品。要实现自动跟随的技术可以有很多,但是最常用的就是UWB,因为UWB定位精度高,现在的成本也在下降,手机中也开始逐渐普及UWB等
点击蓝字 关注我们SUBSCRIBE to USXoMotion许多脊髓受伤的人都有惊心动魄的灾难经历:潜水事故、车祸、建筑工地灾难等。但Chloë Angus的故事却截然不同。2015年的一个晚上,
3月4日,中国商务部接连发布三则公告,对26家美国实体/企业采取不同的管制措施。商务部公告2025年第13号显示,根据《中华人民共和国出口管制法》和《中华人民共和国两用物项出口管制条例》等法律法规有关
高通又放大招了!3月3日,也就是MWC世界移动通信大会的第一天,高通正式宣布,推出自家的最新5G调制解调器及射频解决方案——高通X85。高通X85对于高通X85的发布,行业早有关注。因为高通的手机So
面板价格预测(3月)根据TrendForce集邦咨询旗下面板研究中心《TrendForce 2025面板价格预测月度报告》最新调研数据:2025年3月,电视面板与显示器面板价格预期上涨,笔记本面板价格