全球最大芯片WSE，遇上全球最快AI计算机CS-1-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

今年8月，芯片初创公司Cerebras Systems 在Hot Chips上展出了比脸还大，号称是“世界上最大”的半导体器件Wafer Scale Engine（WSE）。这款芯片首次亮相时，很多人质疑它的实用性，但在9月，Cerebras就宣布与美国能源部(DOE)达成合作，如今它又在加速深度学习的新系统上找到了自己存在的意义……

今年8月，芯片初创公司Cerebras Systems 在Hot Chips上展出了比脸还大，号称是“世界上最大”的半导体器件Wafer Scale Engine（WSE）。电子工程专辑曾经对此进行报道：《初创公司用整块晶圆做出史上最大芯片》

作为目前世界上最大的芯片，WSE的面积达到46,225平方毫米，采用16nm工艺，晶圆大小的处理器阵列内，晶体管数量达到了 1.2 万亿，装了400,000个内核。光是直立高度就约 26 英寸，在一个机架中只能安装三台，整体功率达到了 20kW，且其中有 4kW 是用于冷却。

WSE首次亮相时，很多人质疑它的实用性，随后在9月，Cerebras宣布与美国能源部(DOE)达成合作，将利用WSE进行基础和应用科学、医学研究，充分发挥其超大规模AI的优势。WSE会进驻美国能源部下属Argonne（阿贡）国家实验室、利弗莫尔国家实验室，与传统超级计算机合作，加速AI工作。

现在，它又在加速深度学习的新系统上找到了自己存在的意义。

图自：Cerebras主页

强大到能让计算体验快得离谱

在日前举办的超级计算 2019 峰会（Supercomputing 2019 Event）上，Cerebras正式发布了与美国能源部合作的成果——基于WSE芯片的全球最快的深度学习计算系统 CS-1。新款 CS-1 能够为晶圆级芯片提供 15kW 的功率（由于电源效率低下而损失了 1kW）。

其支持的 Cerebras Wafer Scale 引擎，是有史以来最大的 GPU 的 56 倍、核心的 78 倍、片上内存的 3,000 倍,内存带宽是 10,000 倍，以及 33,000 倍的带宽(PB/s)。

换言之，CS-1 能够带来快得离谱的计算体验。除此之外，它还能够与开源机器学习框架配合使用（如 PyTorch 和 TensorFlow），以提高应用的灵活性。

晶圆级芯片的大小，与一台 iPad 平板电脑相当（图自：EETimes）

这样一套惊人的设备，其售价显然也是相当高昂,该公司一位发言人称，其成本在数百万美元。美国能源部的阿贡（Argonne）国家实验室已经买了一台，用于处理大规模的人工智能计算问题，主攻可用于癌症研究和治疗的药物等基础科学实验。

所有数据就直接存在芯片上

Cerebras是硅谷初创公司，虽然刚刚成立三年，但凭借几次重要发布，目前已经融资超过 2 亿美元。如此受瞩目是因为其在人工智能芯片制造上采取了一种“不走寻常路”的方法——将所有数据保存在一块巨大的芯片上，以便系统更快运行。

AI 系统一般会搭载许多芯片协同工作。但这存在一个显著问题，在芯片之间进行数据传输很慢，并且会限制芯片的分析速度。

成立之初，Cerebras 就希望建立一种专门为深度学习优化的新型计算机，为特定的工作负载选择正确的计算机体系结构。

Cerebras 表示，与其他系统相比，CS-1 的每一个组件都专门针对人工智能工作优化，可以以更小的尺寸和更少的能源消耗下提供更高的计算性能。

CS-1 高度达到 26 英寸（约 66 厘米），大概相当于一个小的行李箱。据相关报道，一个机架中包含了1,000 个 GPU 的集群，50 千瓦的功率。

CS-1 的侧视图，图自: Cerebras官网

这个性能有多强大呢？对比一下谷歌的 TPU v3，CS-1 功耗是它的五分之一，体积只有它的三十分之一，但速度却是整个 TPU v3 的三倍。

分钟完成传统芯片几个月的任务

Cerebras 为 CS-1 设计了专门的系统和软件平台，以从史上最大芯片 WSE 上的 40 万个计算内核和 18G 高性能片上存储器中提取极限处理能力。

在人工智能计算中，芯片越大越好。更大的芯片处理信息更快，能在更短的时间内得到训练结果。但是，仅有优异的处理器性能还远不足够。像 WSE 这样的高级处理器必须与专用的软件相结合才能实现破纪录的性能。因此，Cerebras 专门为这一巨型芯片开发了 CS-1 内置系统和软件平台，各方面都为加速人工智能计算专门设计。

Cerebras 首席执行官安德鲁·费尔德曼(Andrew Feldman)在接受 VentureBeat 采访时说：“这是从 300 毫米晶圆中切割出的最大“正方形“。尽管我们拥有最大、最快的芯片，但我们知道，一个非凡的处理器未必足以提供非凡的性能。如果想提供非常快的性能，那么就需要构建一个系统。而且并不是说把法拉利的引擎放进大众汽车里，就能得到法拉利的性能。如果想要获得 1000 倍的性能提升，需要做的就是打破瓶颈。”

Cerebras 首席执行官安德鲁·费尔德曼(Andrew Feldman)

Cerebras 表示，他们是唯一一家从头开始建立专用系统这一任务的公司。通过优化芯片设计、系统设计和软件的各个方面，CS-1 目前的性能令人满意。

通过 CS-1 和配套的系统软件， AI 需要几个月才能完成的工作现在可以在几分钟内完成，而需要几个星期完成的工作可以在几秒钟内迅速完成。

CS-1 不仅从根本上减少了训练时间，而且还为降低延迟设立了新的标杆。对于深度神经网络，单一图像的分类可以在微秒内完成，比其他解决方案快几千倍。

“这是一台由 40 万个专用人工智能处理器组成的人工智能系统。”费尔德曼说。

CS-1 分解图。图自: Cerebras官网

目前，CS-1 的第一台机器已经完成对 Argonne 国家实验室交付，正被用于研究癌症的神经网络的开发，帮助理解和治疗创伤性脑损伤，CS-1 的性能使其成为 AI 中最复杂问题的潜在解决方案。

Argonne 实验室是一个多学科的科学与工程研究中心，CS-1 可以将全球最大的超级计算机站点比现有的 AI 加速器性能提升 100 到 1000 倍。

通过将超级计算能力与 CS-1 的 AI 处理能力结合使用，Argonne 实验室现在可以加快深度学习模型的研发，以解决现有系统无法实现的问题。

“我们与 Cerebras 合作已有两年多了，我们非常高兴将新的 AI 系统引入 Argonne。”Argonne 实验室的计算、环境和生命科学副实验室主任 Rick Stevens 表示，“通过部署 CS-1，我们大大缩短了神经网络的训练时间，使我们的研究人员能够大大提高工作效率，从而在癌症、颅脑外伤以及当今社会重要的许多其他领域的深度学习研究中得到显著进步。”

深度学习是人工智能的一个领域，它允许计算机网络从大量的非结构化数据中进行学习，然而深度学习模型需要大量的计算能力，并正在挑战当前计算机系统能够处理的极限，Cerebras CS-1 的推出试图解决这一问题。

Argonne 实验室部署 CS-1 以加强人工智能模型的训练，它的第一个应用领域是癌症药物反应预测，这个项目是美国能源部和国家癌症研究所合作的一部分，旨在利用先进的计算机和人工智能来解决癌症研究中的重大挑战问题。增加的 Cerebras CS-1 正在努力支持 Argonne 扩大，主要提倡先进的计算，这也有望利用 AI 功能在 2021 年发布的 Aurora exascale 系统实现百亿亿次级连接。

美国能源部负责人工智能与技术的副部长 Dimitri Kusnezov 在一份声明中说：“在能源部，我们相信与私企合作是加速美国人工智能研究的重要组成部分。我们期待着与 Cerebras 建立长期而有成效的伙伴关系，这将有助于研究下一代人工智能技术，并改变能源部的运营、业务和任务的形势。”

费尔德曼说：“我认为，我们将在未来五年内迎来一个非常激动人心的职业生涯。我认为，一小群人可以改变世界，这确实是企业家的口头禅。你不需要一个大公司，不需要数十亿美元，只要一小群杰出的工程师就能真正改变世界。我们始终相信这一点。”

仍存在质疑：高昂价格、内存过小、算法瓶颈？

当然，对于这样一个全新的 AI 系统，许多网友也提出了质疑。

Reddit 上针对 CS-1 的一个讨论中，名为“yusuf-bengio”的网友表示，在实际操作中这种“晶圆规模的 AI 处理器”可能存在瓶颈，比如：

• 价格。制造这样一个芯片比小型的 GPU 昂贵得多；
• 内存过小。存在延迟或带宽瓶颈；
• 算法瓶颈。如果要使用整个芯片，就必须训练一个极小批量的模型，这反过来会影响准确性。

内存的问题也引起了许多网友的共鸣，有网友表示，这个芯片只能用 batch_size 1 训练，18GB 的静态随机存取存储器（SRAM）直接使得 Megatron，T5，甚至是 GPT-2 这些模型不能使用。

两大亮点

最后，尽管有质疑，还是再来看看 Cerebras 公布的这台全世界最快计算机的两大亮点。

CS-1 系统　　

Cerebras 声称 CS-1 是最快的人工智能计算机。图自: Cerebras官网

“ CS-1 是一个单一的系统，可以比最大的集群提供更多的计算性能，还省去了集群搭建和管理的开销。”Tirias Research 首席分析师凯文 · 克雷韦尔(Kevin Krewell)在一份声明中表示， “CS-1 在单个系统中提供如此多的计算机，不仅可以缩短训练时间，还可以减少部署时间。总体而言，CS-1 可能大幅缩短项目的整体时间，而这是人工智能研究效率的关键指标。”

相比于 GPU 集群需要数周或数月才能建立起来、需要对现有模型进行大量修改、消耗数十个数据中心的机器以及需要复杂的专用 InfiniBand 进行集群搭建不同，CS-1 的搭建使用需要数分钟。

用户只需接入标准的 100Gb 以太网到交换机，就可以用惊人的速度开始训练模型。

Cerebras 软件平台

近距离观察 Cerebras 芯片。图自: Cerebras官网

CS-1 非常易于部署和使用，但是 Cerebras 的目的不仅是加快训练时间，还要加快研究人员验证新想法所需的端到端时间，从模型定义到训练，从调试到部署。

Cerebras 软件平台旨在允许机器学习研究人员在不改变现有工作流程的情况下利用 CS-1 的性能，用户可以使用行业标准的机器学习框架(如 TensorFlow 和 PyTorch)为 CS-1 定义模型训练。

一个强大的图形编译器自动将这些模型转换为针对 CS-1 优化的可执行文件，并提供一组可视化工具进行直观的模型调试和分析。

费尔德曼说: “我们使用开源软件，并尽可能使程序简单化。”但是目前所知的是，这个系统既不是基于 x86，也不是基于 Linux。

责编：Luffy Liu

本文综合自EETimes、Cerebras官网、大数据文摘、techweb报道

阅读全文，请先

人工智能 EDA/IP/IC设计制造/封装基础材料消费电子数据中心/服务器存储技术处理器/DSP 业界新闻

您可能感兴趣

马斯克刷新世界首富记录：身家超过4000亿美元，未来看涨万亿美元

有鉴于电动汽车、自动驾驶和人工智能业务等未来增长潜力，以及在马斯克在当选总统特朗普政府中的“特殊地位”，多家分析机构认为，马斯克的财富未来还将进一步增长。

因应人工智能需求增长，中国有色矿业将3.4亿美元收购巴西锡矿公司股份

锡作为AI技术生产的重要原料之一，其需求有望成为新的增长点。而中国有色矿业公司也希望锁定这种在关键矿物清单上占据重要地位的锡的供应。

HBM4量产时间提前，特斯拉向SK海力士、三星表达采购HBM4意向

HBM4将用于特斯拉正在开发的AI数据中心及其自动驾驶汽车。其中，特斯拉采购HBM4芯片将用于强化其超级电脑Dojo的性能。

特朗普或放宽自动驾驶汽车限制，特斯拉“完全无人驾驶”步入快车道

如果新的法规能够实施，特斯拉毫无疑问将能够更自由地部署其无人驾驶技术，从而推动无人驾驶出租车（如Cybercab）的大规模生产。

瑞萨的AI发展之道：在进博会上专访赖长青

今年进博会上，瑞萨展示了不少AI相关的技术。在我们与赖长青的对谈中，他也解读了AI对于瑞萨而言意味着什么...

OpenAI发布AI蓝图，拟重启核电站应对全球数据中心建设热潮

尽管生成式AI展现出巨大的市场潜力，但能源消耗以及造成的环境也不容忽视。毫无疑问，未来要想在技术创新与环境保护之间找到平衡，还需通过优化算法、改进硬件设计、采用清洁能源等方式来降低其生态足迹。

“一碰交互，共触未来”ITMA峰会盛大开启近场交互新生态

目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。

中科院微电子所在忆阻神经-模糊硬件及应用探索方面取得新进展

中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……

直角照明轻触开关为复杂电子应用提供定制性和多功能性

C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。

投身国产浪潮向上而行，英韧科技再获“中国芯”认可

项目动态|长飞先进武汉基地首批设备搬入

今日，长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办，长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言，厂房建设一般主要分为四个阶段：设备选型、设

被神秘的FS7“附体”，解读两大最新功率模块系列的“超能力”

点击蓝字关注我们安森美（onsemi）在2024年先后推出两款超强功率半导体模块新贵，IGBT模块系列——SPM31 IPM，QDual 3。值得注意的是，背后都提到采用了最新的FS7技术，主要性能

拜登拟对成熟制程芯片启动301调查

来源：观察者网12月18日消息，自12月2日美国发布新一轮对华芯片出口禁令以来，不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称，根据知情人士以及该报查阅

LGDisplay引入AI处理OLED质量异常效率提升90%，每年节约超2000亿韩元

来源：IT之家12 月 18 日消息，LG Display 韩国当地时间今日宣布，已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中，该系统可提升 LG Display 的 OLE

又输了！《黑神话：悟空》年度最佳PS5游戏败给《宇宙机器人》

2024年度PlayStation游戏奖今日公布，《宇宙机器人》获得年度最佳PS5游戏，《使命召唤：黑色行动6》获得年度最佳PS4游戏。在这次评选中，《宇宙机器人》获得多个奖项，包括最佳艺术指导奖、最

AI日报丨超级AI独角兽来了！拿下100亿美元融资，估值升至620亿美元

“ 洞悉AI，未来触手可及。”整理 | 美股研究社在这个快速变化的时代，人工智能技术正以前所未有的速度发展，带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势，为您提供深度的

柔宇显示资产降价拍卖

阿里资产显示，随着深圳柔宇显示技术有限公司（下称：“柔宇显示”）旗下资产一拍以流拍告终，二拍将于12月24日开拍，起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产，其中不

注意些问题，嵌入式软件代码可大幅度减少bug

扫描关注一起学嵌入式，一起学习，一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃，死机或其他计划外的运行时行为追溯到根本原因。在最坏的情

超60GW！飙升12倍，储能机会来了?

又一地，新型储能机会来了？■ 印度：2032储能增长12倍，超60GW据印度国家银行SBI报告，印度准备大幅提升能源存储容量，预计到2032财年将增长12 倍，超60GW左右。这也将超过可再生能源本身

REDMI全球首发！联发科天玑8400官宣：挑战高通骁龙8系

今天上午，联发科宣布新一代天玑芯片即将震撼登场，新品会在12月23日15点正式发布。据悉，这场发布会联发科将推出全新的天玑8400处理器，这颗芯片基于台积电4nm制程打造，采用Arm Cortex A

文章评论

最新
热门

换一换

EE直播

更多>

全球最大芯片WSE，遇上全球最快AI计算机CS-1

强大到能让计算体验快得离谱

所有数据就直接存在芯片上

分钟完成传统芯片几个月的任务

仍存在质疑：高昂价格、内存过小、算法瓶颈？

两大亮点

杂志声明