差不多两年前(2019年8月),SeaMicro 创始人安德鲁·费尔德曼(Andrew Feldman)创办的 Cerebras Systems 公司公司,揭开了芯片设计领域的一场革命,他们将整片晶圆制成了一个巨大的芯片。
以往的芯片制造流程,是从硅锭切下一片晶圆后在Fab中进行加工,一片晶圆能被切成数百颗独立的芯片。而这颗名为晶圆级引擎(Wafer Scale Engine,WSE-1)的处理器直接把整片晶圆做成了一颗芯片,面积与12英寸晶圆所能截取的最大矩形面积一样——比iPad还大。
不过,这颗芯片的每一块区域都能被称为内核,它们以一种复杂的方式与其他内核相互连接。互联的设计是为了保持所有内核的高速运转,以便所有晶体管能够作为一个整体一起工作。在 2019 年推出的WSE-1中,Cerebras 融入了 40 万个内核和 1.2万亿个晶体管,采用的是 16 纳米工艺进行制造,可同时专注于AI和HPC(High Performance Computing,高性能计算机群)工作负载。
更狠的第二代(WSE-2)来了
4月20日,Cerebras Systems 公司再次刷新历史,推出为超级计算机任务而打造的第二代 Wafer Scale Engine (WSE-2)芯片。与一代WSE相比,WSE-2虽然在面积上没有变化,但却拥有创纪录的 2.6 万亿个晶体管以及 85万个 AI 优化的内核,芯片的所有性能特征,包括:晶体管数、内核数、内存、内存带宽和结构带宽,均比一代增加了一倍以上。
这得益于WSE-2采用基于台积电(TSMC)的N7工艺(7nm)打造,使得逻辑电路可以按比例缩小,并在一定程度上缩小了SRAM,让新芯片上可以容纳更多AI内核。Feldman 说,有了这样的先进工艺支持,Cerebras 可以在同样的8*8英寸,面积约46225mm2的芯片中塞进更多的晶体管。
WSE-2与一代对比(图自:AnanTech)
值得注意的是,在功能提升的前提下,Cerebras还能够保持其系统功耗不变(23 kW)。
对比市场上第二大AI处理器,英伟达的Ampere A100面积约为826mm2,具有0.054万亿个晶体管。WSE-2比它多了2.55万亿个晶体管;内核数是A100的123倍;缓存是其1000倍;可提供的内存带宽,则达到了A100的13万倍。
Cerebras还引用了1000倍的板载内存,带有40 GB的SRAM,而Ampere A100则为40 MB。
最初推出WSE-1的时候,很多人担心这么大的晶圆做芯片,万一其中一块不良,是否整个报废?对此Cerebras解释说,他们通过设计一种可以绕开任何制造缺陷的系统来实现100%的良率,核心与带有FMAC数据路径的2D Mesh连接
Cerebras在WSE-1用了1.5%的额外核心来容纳缺陷,但由于台积电工艺的提升,这个数值被进一步缩小了。
晶圆级引擎存在的意义
WSE的出现,是因为训练神经网络需要花费较多的时间,即便是当今最先进的模型,也需要几天或几周的时间进行训练,大型网络则需要数周。通常做法是在数十、数百甚至数千个GPU上进行分布式训练,以使训练时间更可控。
其中最大的瓶颈,是这些庞大的处理器集群很难编程,而且数据必须在处理器和外部 DRAM 存储器之间进行多次传输,既浪费时间又消耗能源。所以WSE研发团队的初衷是扩大芯片,使它与 AI 处理器内核一起容纳所需的所有数据,一个CS-2的性能相当于整个GPU集群的性能,同时具有单个设备的简单性。。
其设计的关键是自定图形编译器,采用pyTorch或TensorFlow将每一层映射到芯片的物理部分,从而允许在数据流过时进行异步计算。拥有如此大的处理器意味着数据永远不会掉队,也不需要在内存中等待,不浪费功率,并且可以以流水线的方式连续地移至计算的下一个阶段。编译器和处理器的设计还考虑到了稀疏性,无论批处理大小如何都可以实现高利用率,或者可以使参数搜索算法同时运行。
Cerebras设计的独特性,让它能够超越制造过程中出现的常见物理限制,即标线限制。处理器的设计限制,往往取决于芯片的最大尺寸,因为很难通过Cross link连接两个区域。这是Cerebras的杀手锏之一,该公司仍然是唯一一家能提供这种规模处理器的公司。
在Hot Chips 2020,该公司首席硬件架构师Sean Lie表示,Cerebras对客户的主要好处之一是能够简化工作负载,以前需要使用GPU / TPU机架的工作,现在可以以计算相关的方式在单个WSE上运行。
产品和合作伙伴
Cerebras的第一代WSE作为CS-1的完整系统的一部分一起打包出售,不少实验室与计算机中心已经部署了Cerebras WSE和CS-1。
- 爱丁堡大学的超级计算中心,利用WSE进行自然语言处理、基因组学和COVID-19的相关研究。
- 在美国阿贡国家实验室(ANL),WSE被用于COVID-19研究、重力波检测和材料发现等;并且在癌症疗法研究中,使癌症模型的实验周转时间,减少了300倍以上。
- 制药企业葛兰素史克的高级副总裁金·布兰森表示:“其增加了生成的编码器模型的复杂性,同时将训练时间减少了80倍。”
- Lawrence Livermore将一台CS-1与其23 PFLOP“拉森”超级计算机配对。匹兹堡超级计算机中心以500万美元的价格购买了两个系统,并将这些系统连接到他们的Neocortex超级计算机上,以实现同步AI和增强的计算能力。
对于WSE-2的应用,国际调研公司Tirias Research首席分析师Jim McGregor认为:“显然,对用于大型数据集的Cerebras晶圆级解决方案,有些公司和实体很感兴趣。但是在企业层面,还有数百万的其他AI应用,以及一些Cerebras不能处理的情况,这就是英伟达拥有SuprPod和Selene超级计算机的原因。与英伟达相比,Cerebras更像是一个小众平台,二者的广度无法相提并论。”
目前Cerebras在多伦多、圣地亚哥、东京和旧金山拥有约300名员工。该公司首席执行官安德鲁·费尔德曼(Andrew Feldman)表示,作为一家公司,他们已经实现了盈利,已经部署了CS-1的客户很多,并且在启动商业系统时已经有更多的客户在远程试用CS-2。
除了AI之外,由于芯片的灵活性使流体动力学和其他计算仿真成为可能,因此Cerebras在典型的商业高性能计算市场(例如石油、天然气和基因组学)中吸引了很多客户。
CS-2的部署将于今年晚些时候的第三季度开始,价格已从2-3百万美元升至“几百万”美元。
责编:Luffy Liu