4月20日,Cerebras Systems 公司再次刷新历史,推出为超级计算机任务而打造的第 2 代 Wafer Scale Engine (WSE-2)芯片。与一代WSE相比,WSE-2虽然在面积上没有变化,但却拥有创纪录的 2.6 万亿个晶体管以及 85万个 AI 优化的内核,芯片的所有性能特征,包括:晶体管数、内核数、内存、内存带宽和结构带宽,均比一代增加了一倍以上。

差不多两年前(2019年8月),SeaMicro 创始人安德鲁·费尔德曼(Andrew Feldman)创办的 Cerebras  Systems 公司公司,揭开了芯片设计领域的一场革命,他们将整片晶圆制成了一个巨大的芯片。

以往的芯片制造流程,是从硅锭切下一片晶圆后在Fab中进行加工,一片晶圆能被切成数百颗独立的芯片。而这颗名为晶圆级引擎(Wafer Scale Engine,WSE-1)的处理器直接把整片晶圆做成了一颗芯片,面积与12英寸晶圆所能截取的最大矩形面积一样——比iPad还大。

不过,这颗芯片的每一块区域都能被称为内核,它们以一种复杂的方式与其他内核相互连接。互联的设计是为了保持所有内核的高速运转,以便所有晶体管能够作为一个整体一起工作。在 2019 年推出的WSE-1中,Cerebras 融入了 40 万个内核和 1.2万亿个晶体管,采用的是 16 纳米工艺进行制造,可同时专注于AI和HPC(High Performance Computing,高性能计算机群)工作负载。

更狠的第二代(WSE-2)来了

4月20日,Cerebras Systems 公司再次刷新历史,推出为超级计算机任务而打造的第二代 Wafer Scale Engine (WSE-2)芯片。与一代WSE相比,WSE-2虽然在面积上没有变化,但却拥有创纪录的 2.6 万亿个晶体管以及 85万个 AI 优化的内核,芯片的所有性能特征,包括:晶体管数、内核数、内存、内存带宽和结构带宽,均比一代增加了一倍以上。

这得益于WSE-2采用基于台积电(TSMC)的N7工艺(7nm)打造,使得逻辑电路可以按比例缩小,并在一定程度上缩小了SRAM,让新芯片上可以容纳更多AI内核。Feldman 说,有了这样的先进工艺支持,Cerebras 可以在同样的8*8英寸,面积约46225mm2的芯片中塞进更多的晶体管。

WSE-2与一代对比(图自:AnanTech

值得注意的是,在功能提升的前提下,Cerebras还能够保持其系统功耗不变(23 kW)。

对比市场上第二大AI处理器,英伟达的Ampere A100面积约为826mm2,具有0.054万亿个晶体管。WSE-2比它多了2.55万亿个晶体管;内核数是A100的123倍;缓存是其1000倍;可提供的内存带宽,则达到了A100的13万倍。

Cerebras还引用了1000倍的板载内存,带有40 GB的SRAM,而Ampere A100则为40 MB。

 

最初推出WSE-1的时候,很多人担心这么大的晶圆做芯片,万一其中一块不良,是否整个报废?对此Cerebras解释说,他们通过设计一种可以绕开任何制造缺陷的系统来实现100%的良率,核心与带有FMAC数据路径的2D Mesh连接

Cerebras在WSE-1用了1.5%的额外核心来容纳缺陷,但由于台积电工艺的提升,这个数值被进一步缩小了。

晶圆级引擎存在的意义 

WSE的出现,是因为训练神经网络需要花费较多的时间,即便是当今最先进的模型,也需要几天或几周的时间进行训练,大型网络则需要数周。通常做法是在数十、数百甚至数千个GPU上进行分布式训练,以使训练时间更可控。

其中最大的瓶颈,是这些庞大的处理器集群很难编程,而且数据必须在处理器和外部 DRAM 存储器之间进行多次传输,既浪费时间又消耗能源。所以WSE研发团队的初衷是扩大芯片,使它与 AI 处理器内核一起容纳所需的所有数据,一个CS-2的性能相当于整个GPU集群的性能,同时具有单个设备的简单性。。

其设计的关键是自定图形编译器,采用pyTorch或TensorFlow将每一层映射到芯片的物理部分,从而允许在数据流过时进行异步计算。拥有如此大的处理器意味着数据永远不会掉队,也不需要在内存中等待,不浪费功率,并且可以以流水线的方式连续地移至计算的下一个阶段。编译器和处理器的设计还考虑到了稀疏性,无论批处理大小如何都可以实现高利用率,或者可以使参数搜索算法同时运行。

Cerebras设计的独特性,让它能够超越制造过程中出现的常见物理限制,即标线限制。处理器的设计限制,往往取决于芯片的最大尺寸,因为很难通过Cross link连接两个区域。这是Cerebras的杀手锏之一,该公司仍然是唯一一家能提供这种规模处理器的公司。

在Hot Chips 2020,该公司首席硬件架构师Sean Lie表示,Cerebras对客户的主要好处之一是能够简化工作负载,以前需要使用GPU / TPU机架的工作,现在可以以计算相关的方式在单个WSE上运行。

产品和合作伙伴

Cerebras的第一代WSE作为CS-1的完整系统的一部分一起打包出售,不少实验室与计算机中心已经部署了Cerebras WSE和CS-1。

  • 爱丁堡大学的超级计算中心,利用WSE进行自然语言处理、基因组学和COVID-19的相关研究。
  • 在美国阿贡国家实验室(ANL),WSE被用于COVID-19研究、重力波检测和材料发现等;并且在癌症疗法研究中,使癌症模型的实验周转时间,减少了300倍以上。
  • 制药企业葛兰素史克的高级副总裁金·布兰森表示:“其增加了生成的编码器模型的复杂性,同时将训练时间减少了80倍。”
  • Lawrence Livermore将一台CS-1与其23 PFLOP“拉森”超级计算机配对。匹兹堡超级计算机中心以500万美元的价格购买了两个系统,并将这些系统连接到他们的Neocortex超级计算机上,以实现同步AI和增强的计算能力。

对于WSE-2的应用,国际调研公司Tirias Research首席分析师Jim McGregor认为:“显然,对用于大型数据集的Cerebras晶圆级解决方案,有些公司和实体很感兴趣。但是在企业层面,还有数百万的其他AI应用,以及一些Cerebras不能处理的情况,这就是英伟达拥有SuprPod和Selene超级计算机的原因。与英伟达相比,Cerebras更像是一个小众平台,二者的广度无法相提并论。”

目前Cerebras在多伦多、圣地亚哥、东京和旧金山拥有约300名员工。该公司首席执行官安德鲁·费尔德曼(Andrew Feldman)表示,作为一家公司,他们已经实现了盈利,已经部署了CS-1的客户很多,并且在启动商业系统时已经有更多的客户在远程试用CS-2。 

除了AI之外,由于芯片的灵活性使流体动力学和其他计算仿真成为可能,因此Cerebras在典型的商业高性能计算市场(例如石油、天然气和基因组学)中吸引了很多客户。

CS-2的部署将于今年晚些时候的第三季度开始,价格已从2-3百万美元升至“几百万”美元。

责编:Luffy Liu

阅读全文,请先
您可能感兴趣
2016-2023年中国独角兽企业总估值由近5000亿美元持续攀升至超1.2万亿美元,其中在2020年首破万亿美元。
目前,这两家人工智能领军企业已经与美国政府下属的AI安全研究所(US AI Safety Institute)签署了谅解备忘录,承诺在发布重大新的人工智能模型之前,先让美国政府进行评估,包括模型的能力、可能带来的风险以及减轻这些风险的策略。
Intel刚刚发布了至强W-2500与W-3500系列处理器,最高60个核心,面向工作站设备。现在的工作站,相比从前似乎已经大不一样了...
在性能方面,Granite Rapids-D至强6 SoC采用了英特尔最新的Intel 3工艺计算小芯片与基于Intel 4的边缘优化I/O小芯片相结合的创新设计,提供了显著的性能、能效和晶体管密度提升。
黄仁勋、Mark Zuckerberg在前不久的SIGGRAPH上大谈了一番AI技术的价值。似乎SIGGRAPH已经很大程度被AI给占领了,这可是个图形技术顶会,这种趋势从去年就开始了...
此前,鸿准曾负责在制造、组装鸿海自用的“FoxBot”机器人,为其与苹果合作生产桌面机器人提供了基础。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
在全球智能手机竞争日益激烈的情况下,谁能在高端市场站稳脚跟,谁就占据了主动权。一直以来全球智能手机市场格局都是,苹果专吃高端,其他各大厂商分食全球中低端市场。但现在市场正在其变化。根据Canalys最
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
会议预告向世界展示中国最具创新力、领导力和品牌化的产品与技术!9月27号,“第6届国际移动机器人集成应用大会暨复合机器人峰会”将在上海举行,敬请关注!逐个击破现有痛难点。文|新战略半导体行业高标准、灵
近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
疫情后的劳动力囤积和强有力的员工保护规则掩盖了德国高薪制造业工作市场令人担忧的变化。根据联邦劳工办公室的数据,欧元区最大经济体德国的失业率在2019年春季曾达到历史最低点4.9%,现已上升至6%。虽然
[关注“行家说动力总成”,快速掌握产业最新动态]9月6日,据“内江新区”消息,晶益通(四川)半导体科技有限公司旗下IGBT模块材料和封测模组产业园项目已完成建设总进度的40%,预计在明年5月建成。据了
9月6日,“智进AI•网易数智创新企业大会”在秦皇岛正式举行,300+企业高管及代表、数字化技术专家齐聚一堂,探讨当AI从技术探索迈入实际应用,如何成为推动组织无限进化的新引擎。爱分析创始人兼CEO金
在苹果和华为的新品发布会前夕,Counterpoint公布了2024年第一季度的操作系统详细数据,数据显示, 鸿蒙操作系统在2024年第一季度继续保持强劲增长态势,全球市场份额成功突破4%。在中国市场
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆