还记得那家造出最大芯片的公司Cerebras吗? 最近,他们计划与总部位于阿联酋阿布扎比的人工智能和云计算企业Group 42(简称“G42”)合作打造了一台人工智能超级计算机 Condor Galaxy 1,该计算机基于 Cerebras 的大芯片,将于今年在美国加州圣克拉拉附近组装。
Cerebras 首席执行官安德鲁·费尔德曼 (Andrew Feldman) 告诉EE Times,Condor Galaxy 1 将由 64 个互联的 Cerebras CS-2 晶圆级人工智能加速器组成,这笔交易价值“超过 1 亿美元”。
继 Condor Galaxy 1 之后,Cerebras 和G42 这对战略合作伙伴还计划在美国境内外再建立 8 个类似的 64-CS-2 集群。预计到2024年底,将总共实现 576 个CS-2 系统的连接。
这项计划总成本预计将超过 9 亿美元。
新创公司组合,挑战英伟达和FAAMG们
“G42 正在寻找一家在构建、管理和操作超级计算机方面拥有专业知识的合作伙伴,而行业中没有几家能像我们(Cerebras)这样,有那么多人才能够实施大规模的生成式人工智能模型以及操作、清理和管理大数据集。我们可以提供具有快速计算能力的基础设施,它易于使用、灵活,并且拥有出色的协作记录。”费尔德曼说, “这就是他们选择我们的部分原因。”
Condor Galaxy 1 算得上是首个,主要硬件和集成商都是初创企业的超级计算机规模 AI 加速器,同时它还验证了 GPU 之外,其他专用 AI 硬件也有市场。过去5年来,AI硬件领域一直很火爆,并吸引了数十亿美元的风险投资。
费尔德曼将这笔交易描述为“多方面的挑战”,首先这“这对英伟达(Nvidia)来说是一个挑战。对那些超大规模企业来说更是一个挑战。它仿佛在挑明一件事,‘看,你不需要这些大公司的帮忙,也能完成惊人的计算量。’”
Cerebras 首席执行官安德鲁·费尔德曼 (Andrew Feldman) 站在运往新 Condor Galaxy 1 超级计算集群的运输箱上。 (来源:Rebecca Lewington/Cerebras Systems)
虽然谷歌、AWS、Meta 和微软这样的超大规模企业,一直以来都是大规模人工智能计算的明显潜在客户,但他们迄今为止的选择几乎都 Nvidia GPU 芯片和/或内置加速器。这笔交易告诉了世人,除了这些超大规模企业,做AI加速器的其他市场潜力。
“人工智能正在吞噬世界,”费尔德曼说,“这种情况到处都在发生,这在那些还不为人熟知的领域创造了新需求。”
半个系统已经在用了,过剩算力还能卖
仅用了10天,计划中的 Condor Galaxy 1 集群的一半(32 个 CS-2 系统)已在圣克拉拉启动并运行。
“摆在我们面前的是一个巨大的机会,而且很紧迫。”费尔德曼说,“趁这个好时机,我们应该尽早创建一些最强大的AI解决方案,来帮助客户解决问题并在这个新领域建立特许经营权。这一切都给我们带来了紧迫感。”
资料显示,G42 是一家总部位于阿联酋的企业集团,由 9 家公司组成,拥有 22,000 名员工,并且已经拥有中东最大的区域云。
将使用 Condor Galaxy 1 的 G42 公司包括起源人工智能研究院(IIAI, Inception Institute of Artificial Intelligence),该机构负责制作模型并帮助企业在整个中东部署模型;高科技医疗保健公司M42是 G42 与穆巴达拉投资公司(Mubadala Development Company)的合资企业,专注于获得医疗数据的新见解,包括基因组测序。
Condor Galaxy 1 部署的第一阶段,也就是32 个 CS-2系统,已经在运行 G42 的工作负载,期间任何过剩的算力都通过 Cerebras 的其他云产品进行出售。
虽然 G42 拥有该集群,但 Cerebras 将管理和运营它。 12 周内,Cerebras 和 G42 会将该集群的规模增加一倍,达到 64 架 CS-2。 全面投入使用后,Condor Galaxy 1 将提供总共 5400 万个 AI 核心和 84 TB 内存,总共 4 exaFLOPS 的 AI 计算能力 (FP16)。
加利福尼亚州圣克拉拉科洛沃(Colovore)主机托管设施中的 Condor Galaxy 1 AI 超级计算机的一部分(来源:Rebecca Lewington/Cerebras Systems)
美国境内部署好说,境外选址还要考虑地缘政治
费尔德曼表示,选择在美国部署 Condor Galaxy 1 的部分原因是速度。他说:“我们希望以令人难以置信的速度实现这一目标,而且我们在美国可以非常迅速地采取行动。我们采用水冷系统,而这里有现成的设施,可以提供兆瓦级别电力和水。”
每个 CS-2 系统的峰值持续功率为 23 kW,因此完全体的 64 位集群峰值功率将近 1.5 MW。圣克拉拉的Colovore中心还拥有 Cerebras 现有的 16-CS-2 AI 超级计算机 “Andromeda”。
到明年年中,Cerebras 和 G42 计划在德克萨斯州奥斯汀和北卡罗来纳州阿什维尔建造另外两台 64-CS-2 AI 超级计算机:Condor Galaxy 2 和 Condor Galaxy 3。 这些机器将连接到 Condor Galaxy 1,总共 192 个 CS-2 节点,算力为 12 exaFLOPS (FP16)。
到明年年底,另外六台与 Condor Galaxy 1 尺寸相同的机器将在美国境外调试并与其他机器连接。
与美国境内的设施一样,G42 将拥有这些集群,但它们将由 Cerebras 设计、建造和运营。 两家公司将共同转售任何过剩算力。
目前公司仍在考虑美国以外的具体部署地点,因为费尔德曼注意到,地缘政治将对这个重要集群技术产生影响。
费尔德曼说:“我们(Cerebras)有着最快的人工智能处理器、最快的人工智能系统,我们正在与美国监管机构就可以部署该技术的地点进行商议。”
费尔德曼表示,Cerebras 仍将管理和运营海外集群,查看每个 IP 地址的每项工作并控制机器。他认为,虽然人工智能很强大并且可以被恶意使用,但人工智能专用机器被用于军事和密码学,通常需要 64 位计算(CS-2 不支持双精度)。 他说,作为常规云技术管理的一部分,安全威胁已经得到了很好的理解。
总体而言,G42 和 Cerebras 将根据合同,新增多达 9 个集群(576 个 CS-2 节点,在 FP16 下实现 36 exaFLOPS)。 假设成本结构相同,整个交易的价值可能超过 9 亿美元。
Cerebras 的 CS-2 晶圆级大芯片(来源:Cerebras Systems)
(本文授权编译自EETimes,原文参考链接:Cerebras Sells $100 Million AI Supercomputer, Plans Eight More, By Sally Ward-Foxton )
编译:Luffy Liu