Cerebras全球最大芯片WSE升级二代：参数翻番，功耗不变-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

4月20日，Cerebras Systems 公司再次刷新历史，推出为超级计算机任务而打造的第 2 代 Wafer Scale Engine （WSE-2）芯片。与一代WSE相比，WSE-2虽然在面积上没有变化，但却拥有创纪录的 2.6 万亿个晶体管以及 85万个 AI 优化的内核，芯片的所有性能特征，包括：晶体管数、内核数、内存、内存带宽和结构带宽，均比一代增加了一倍以上。

差不多两年前（2019年8月），SeaMicro 创始人安德鲁·费尔德曼（Andrew Feldman）创办的 Cerebras Systems 公司公司，揭开了芯片设计领域的一场革命，他们将整片晶圆制成了一个巨大的芯片。

以往的芯片制造流程，是从硅锭切下一片晶圆后在Fab中进行加工，一片晶圆能被切成数百颗独立的芯片。而这颗名为晶圆级引擎（Wafer Scale Engine，WSE-1）的处理器直接把整片晶圆做成了一颗芯片，面积与12英寸晶圆所能截取的最大矩形面积一样——比iPad还大。

不过，这颗芯片的每一块区域都能被称为内核，它们以一种复杂的方式与其他内核相互连接。互联的设计是为了保持所有内核的高速运转，以便所有晶体管能够作为一个整体一起工作。在 2019 年推出的WSE-1中，Cerebras 融入了 40 万个内核和 1.2万亿个晶体管，采用的是 16 纳米工艺进行制造，可同时专注于AI和HPC(High Performance Computing，高性能计算机群)工作负载。

更狠的第二代（WSE-2）来了

4月20日，Cerebras Systems 公司再次刷新历史，推出为超级计算机任务而打造的第二代 Wafer Scale Engine （WSE-2）芯片。与一代WSE相比，WSE-2虽然在面积上没有变化，但却拥有创纪录的 2.6 万亿个晶体管以及 85万个 AI 优化的内核，芯片的所有性能特征，包括：晶体管数、内核数、内存、内存带宽和结构带宽，均比一代增加了一倍以上。

这得益于WSE-2采用基于台积电（TSMC）的N7工艺（7nm）打造，使得逻辑电路可以按比例缩小，并在一定程度上缩小了SRAM，让新芯片上可以容纳更多AI内核。Feldman 说，有了这样的先进工艺支持，Cerebras 可以在同样的8*8英寸，面积约46225mm²的芯片中塞进更多的晶体管。

WSE-2与一代对比（图自：AnanTech）

值得注意的是，在功能提升的前提下，Cerebras还能够保持其系统功耗不变（23 kW）。

对比市场上第二大AI处理器，英伟达的Ampere A100面积约为826mm²，具有0.054万亿个晶体管。WSE-2比它多了2.55万亿个晶体管；内核数是A100的123倍；缓存是其1000倍；可提供的内存带宽，则达到了A100的13万倍。

Cerebras还引用了1000倍的板载内存，带有40 GB的SRAM，而Ampere A100则为40 MB。

最初推出WSE-1的时候，很多人担心这么大的晶圆做芯片，万一其中一块不良，是否整个报废？对此Cerebras解释说，他们通过设计一种可以绕开任何制造缺陷的系统来实现100％的良率，核心与带有FMAC数据路径的2D Mesh连接

Cerebras在WSE-1用了1.5％的额外核心来容纳缺陷，但由于台积电工艺的提升，这个数值被进一步缩小了。

晶圆级引擎存在的意义

WSE的出现，是因为训练神经网络需要花费较多的时间，即便是当今最先进的模型，也需要几天或几周的时间进行训练，大型网络则需要数周。通常做法是在数十、数百甚至数千个GPU上进行分布式训练，以使训练时间更可控。

其中最大的瓶颈，是这些庞大的处理器集群很难编程，而且数据必须在处理器和外部 DRAM 存储器之间进行多次传输，既浪费时间又消耗能源。所以WSE研发团队的初衷是扩大芯片，使它与 AI 处理器内核一起容纳所需的所有数据，一个CS-2的性能相当于整个GPU集群的性能，同时具有单个设备的简单性。。

其设计的关键是自定图形编译器，采用pyTorch或TensorFlow将每一层映射到芯片的物理部分，从而允许在数据流过时进行异步计算。拥有如此大的处理器意味着数据永远不会掉队，也不需要在内存中等待，不浪费功率，并且可以以流水线的方式连续地移至计算的下一个阶段。编译器和处理器的设计还考虑到了稀疏性，无论批处理大小如何都可以实现高利用率，或者可以使参数搜索算法同时运行。

Cerebras设计的独特性，让它能够超越制造过程中出现的常见物理限制，即标线限制。处理器的设计限制，往往取决于芯片的最大尺寸，因为很难通过Cross link连接两个区域。这是Cerebras的杀手锏之一，该公司仍然是唯一一家能提供这种规模处理器的公司。

在Hot Chips 2020，该公司首席硬件架构师Sean Lie表示，Cerebras对客户的主要好处之一是能够简化工作负载，以前需要使用GPU / TPU机架的工作，现在可以以计算相关的方式在单个WSE上运行。

产品和合作伙伴

Cerebras的第一代WSE作为CS-1的完整系统的一部分一起打包出售，不少实验室与计算机中心已经部署了Cerebras WSE和CS-1。

爱丁堡大学的超级计算中心，利用WSE进行自然语言处理、基因组学和COVID-19的相关研究。
在美国阿贡国家实验室（ANL），WSE被用于COVID-19研究、重力波检测和材料发现等；并且在癌症疗法研究中，使癌症模型的实验周转时间，减少了300倍以上。
制药企业葛兰素史克的高级副总裁金·布兰森表示：“其增加了生成的编码器模型的复杂性，同时将训练时间减少了80倍。”
Lawrence Livermore将一台CS-1与其23 PFLOP“拉森”超级计算机配对。匹兹堡超级计算机中心以500万美元的价格购买了两个系统，并将这些系统连接到他们的Neocortex超级计算机上，以实现同步AI和增强的计算能力。

对于WSE-2的应用，国际调研公司Tirias Research首席分析师Jim McGregor认为：“显然，对用于大型数据集的Cerebras晶圆级解决方案，有些公司和实体很感兴趣。但是在企业层面，还有数百万的其他AI应用，以及一些Cerebras不能处理的情况，这就是英伟达拥有SuprPod和Selene超级计算机的原因。与英伟达相比，Cerebras更像是一个小众平台，二者的广度无法相提并论。”

目前Cerebras在多伦多、圣地亚哥、东京和旧金山拥有约300名员工。该公司首席执行官安德鲁·费尔德曼（Andrew Feldman）表示，作为一家公司，他们已经实现了盈利，已经部署了CS-1的客户很多，并且在启动商业系统时已经有更多的客户在远程试用CS-2。

除了AI之外，由于芯片的灵活性使流体动力学和其他计算仿真成为可能，因此Cerebras在典型的商业高性能计算市场（例如石油、天然气和基因组学）中吸引了很多客户。

CS-2的部署将于今年晚些时候的第三季度开始，价格已从2-3百万美元升至“几百万”美元。

责编：Luffy Liu

人工智能 EDA/IP/IC设计制造/封装接口/总线/驱动存储技术数据中心/服务器业界新闻

Cerebras全球最大芯片WSE升级二代：参数翻番，功耗不变

更狠的第二代（WSE-2）来了

晶圆级引擎存在的意义

产品和合作伙伴

杂志声明