初创公司Cerebras将在Hot Chips上展出号称是“世界上最大”的半导体器件——一个16nm工艺、晶圆大小的处理器阵列,旨在取代英伟达(Nvidia) GPU在训练神经网络方面的主导地位。这颗面积达到46,225平方毫米的芯片功耗为15千瓦,封装了400,000个内核,并且仅支持在极少数系统中运行,至少已有一家客户采用……

EETimes加利福尼亚州圣何塞报道,初创公司Cerebras将在Hot Chips上展出号称是“世界上最大”的半导体器件——一个16nm工艺、晶圆大小的处理器阵列,旨在取代英伟达(Nvidia) GPU在训练神经网络方面的主导地位。这颗面积达到46,225平方毫米的芯片功耗为15千瓦,封装了400,000个内核,并且仅支持在极少数系统中运行,至少已有一家客户采用。

此外,在本周末的活动中,华为、英特尔和初创公司Habana将详细介绍他们用于训练神经网络的芯片。他们都把Nvidia当作竞争对手,去年Nvidia销售了大约价值30亿美元的GPU,用于支持这些对硬件性能极端渴望的新兴应用。

英特尔的1.1 GHz Spring Crest旨在通过将64个28G系列服务器,整合成16条112Gbit /秒的通道,可以连接多达1,024个芯片。专有互连(proprietary interconnect)是一种直接的无协议链路,无需通过外部HBM2内存,从而能够以相对快速的方式在多个处理器和机箱之间传播大型神经网络。

通过在一个晶圆上放置所有内核、存储器和互连,Cerebras的方法将更快,并且可以整合到同一个框架中。

该初创公司从资深投资者那里筹集了超过2亿美元,成为第一个将晶圆级集成商业化、开创封装和晶圆处理新技术的公司。该公司押注人工智能培训市场,认为它将从七个超大规模数据中心供应商,扩展到数百家公司,覆盖从制药到金融科技等希望将搜集到的数据留给自己的行业。

这个芯片怎么运作?

Cerebras这颗器件在7x12阵列中包含84个块,每个包含大约4,800个内核,用于AI的稀疏线性代数(sparse linear algebra),每个都有48 KB的SRAM,这是它们唯一的内存源。

单级层次结构加快了处理速度,训练程序几乎不需要跨内核共享内存。与单个Nvidia GPU相比,芯片上总共18GB的SRAM是巨大的,但与Cerebras的目标竞争系统相比,这个数字很小。

该公司不愿对该器件的频率发表评论,该频率可能很低,无法帮助管理其功率和热量需求。Cerebras首席执行官兼创始人安德鲁.费尔德曼(Andrew Feldman)表示,这家初创公司的资深工程师“之前已经完成了2-3 GHz芯片,但这不是最终目标——超频带来的回报不如增加内核。”

Feldman不愿对Cerebras计划出售的机架系统成本、设计或路线图发表评论。但他表示,这个一个机架的性能,将相当于一个拥有1000台Nvidia GPU设备的工厂,同时只需要他2-3%的空间和功耗。而且组装1000台设备可能需要数月的时间。

CerebrasNvidiasmall.png
Cerebras器件比Nvidia GPU,以及用于AI培训的任何其他竞争对手芯片大得多。 (图片:Cerebras)

该公司的目标是在11月的超级计算机展上讲解该系统,并介绍其性能和benchmark数据。对于所有参会者来说这将是历史性的一刻,上一次达成类似成就是在1980年的超级计算机展上,当时Gene Amdahl创立的公司Trinity推出了3.5英寸晶圆,

Cerebras编译器将摄取TensorFlow或Pytorch模型,将其转换为机器语言,并使用微代码库将神经网络层映射到巨型芯片的各个区域。它在一定程度上通过在内核上编写编程指令,并配置链接块的网状网络来实现。

“我们将整个网络功能保留在芯片上。” Feldman说,“其他所有人都在压榨网络功能,以至于花费更多时间来回倒数据“,常见的做法是通过内存进行缓慢的外部互连。

Cerebras的174名工程师中,近三分之二是软件开发人员,这表明AI和编译器代码的复杂性。Feldman说,在第一批商业系统投入使用之前,他们将面临“一大堆问答(Q&A)”。

如何面对Nvidia、英特尔、华为和其他新创企业

Moor Insights&Strategy的人工智能和高端系统分析师卡尔•弗罗因德(Karl Freund)说:“如果他们能够让这个晶圆发挥作用,那将是开创性的。”

“他们正在解决的问题很难,但并不是不切实际的,所以我认为他们会在明年的某个时候完成这项任务,”他补充道。

Cerebras面临着Nvidia在人工智能加速器市场预计90%以上的垄断地位。它的16nm产品将与Nvidia的7nm Ampere GPU同时投向市场。

此外,在Hot Chips展上,英特尔将介绍其28核的Spring Crest平台,创业公司Habana将展示一款八核训练处理器,华为也将介绍其训练芯片,创业公司Graphcore的1,200核芯片更是已经拿到戴尔3亿美元的融资和支持。

“人们正在尝试各种各样的事情——核心有多大,决定了内存和带宽有多大,以及它们是如何连接的。正确的组合还有待观察”Linley集团的林利•格温纳普(Linley Gwennap)表示,他指出很少有人在现阶段引用benchmark数据。 (预计在10月底之前,MLPerf会提供Spring Crest和Habana的训练数据。)

Gwennap补充说,人工智能软件还存在许多漏洞,例如芯片能够支持多少TensorFlow的操作,并且能够在多种神经网络类型中表现良好。

开创性的晶圆级集成

就其本身而言,Cerebras提供这种晶圆尺寸级别的器件,在产量、功耗和发热量方面都遇到了挑战。它申请了约30项专利,迄今已发行约6项。

例如,台积电经典的300毫米晶圆可能包含“少量的100个缺陷,” Feldman说。 Cerebras为其Swarm互连提供冗余链路,以便绕过有缺陷的区块,并分配“超过(区块数)1%的链路量作为备用。”

迄今为止,该公司已经生产了100多块晶圆,所有晶圆都能在可接受的水平上运行。为了给它们供电和冷却,Cerebras设计了自己的电路板和冷却板,为每块芯片垂直提供电力和水冷。机架包括一个闭环系统,用于空气冷却水。

Cerebras还与合作伙伴合作设计了一台用于处理和对齐晶圆的机器。 “我们公司拥有流体、材料科学家和制造工程师,”Feldman说。

这家创业公司与台积电合作,发明了一种方法,将其互连放置在区块之间的划线中,这个区域通常被保留,作为芯片之间的隔离区。

Cerebrascrossection.png

一种特别设计的电路板和冷却板,垂直地将电力和冷却水输送到每块芯片上。

制造一台计算机的全新方法

该公司计划在超级计算机大会上推出其系统,这表明它认为晶圆级设备的市场远远超过目前七家超大规模数据中心。

至于人工智能训练,“最初,我们认为全球将有200个客户,但我们已将该估算修改为1,000个,” Feldman说。 “我们所到之处,大批拥有大型数据集的公司,不希望他们的数据保存在谷歌云中,在那里,单次训练的费用高达15万美元,”他补充道。

汽车制造商、制药公司、石油和天然气勘探公司以及金融公司将能够训练自己的神经网络。他说:“超大规模(云服务)公司是一个重要的细分市场,但它们甚至远不及市场的一半。”

Fred Weber是Cerebras的投资人,也是AMD Opteron CPU的前工程经理,他认为晶圆级集成(WSI)的潜力更大。他设想将其用于传统的高性能计算工作,如信号处理、天气预报、模拟/仿真甚至网络切换。

“科技行业中,经常出现一些有趣的良性循环,比如摩尔定律。你可以缩小硅片,而有人会为此付钱——每一代演进都很难,但你知道这是值得的,” Weber说。

“晶圆级集成可能也类似。它要解决的问题很难,但并非不可能。现在行业内有了训练这个需求,于是人们有了一个商业理由去做这件事,“他说,并补充说WSI”一直是我非常感兴趣的领域,因为我在肯德尔广场研究院(Kendall Square Research)工作时,就主要研究大型并行计算机。“

也就是说,“人工智能培训不是一个利基应用。我们正处于‘人工智能可以做什么’这个命题的最开始,因为它是一个通用平台。人工智能是一种计算范式而非应用程序,我对此非常看好,“韦伯说。

在这方面,“在我参与的众多初创公司项目中,Cerebras最有趣,因为它既是一种了不起的人工智能机器,又是一种构建计算机的全新方式,”他说。

编译:Luffy Liu

原文链接:Startup Spins Whole Wafer for AI,By Rick Merritt

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
不管怎么样,英特尔仍在努力推进18A芯片工艺,以期未来在最先进的芯片工艺上能与台积电、三星有一定的领先优势,毕竟其已经率先拿到ASML两台最先进的High NA(高数值孔径)EUV光刻机。未来,英特尔没有选择,只有抓住任何的可能性,硬着头皮上。
美国一直在向日本、荷兰施压,要求日本、荷兰对包括Tokyo Electron、ASML在内的半导体设备企业向中国出售先进半导体制造设备施加更多限制。但实际上,美国半导体政策不仅影响着中国,还在全球范围内构建起了“贸易藩篱”。
碳化硅(SiC)衬底已在电动汽车和一些工业应用中确立了自己的地位。然而,近来氮化镓(GaN)已成为许多重叠应用的有力选择。了解这两种衬底在大功率电路中的主要区别及其各自的制造考虑因素,或许能为这两种流行的复合半导体的未来带来启示。
氮化镓半导体市场正在快速发展,预计到2030年将在半导体市场中占据主导地位。然而,氮化镓技术的成熟度推进缓慢,成本与技术仍是关键突破点。尽管BelGaN在氮化镓技术上取得了显著进展,但由于需要大量投资以支持转型,公司在寻找额外投资时未能成功,最终导致破产。
一项技术要想产生广泛的影响,它不仅要解决短期的挑战,还应该超越现有技术的进步,为未来的创新打开大门。这就是我们对泛林集团(Lam Research)今年早些时候推出的全球首个用于半导体量产的脉冲激光沉积(PLD)技术的描述。
美国一直试图拉拢日本、荷兰进一步收紧限制中国在半导体和人工智能等关键技术领域的进步,特别是限制先进芯片和能够制造这些器件的设备的销售。因此,中国需要继续努力以实现更高的自给率目标,特别是关键制造设备上。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
在全球智能手机竞争日益激烈的情况下,谁能在高端市场站稳脚跟,谁就占据了主动权。一直以来全球智能手机市场格局都是,苹果专吃高端,其他各大厂商分食全球中低端市场。但现在市场正在其变化。根据Canalys最
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
‍‍Mobileye 将终止内部激光雷达开发Mobileye 宣布终止用于自动驾驶的激光雷达的开发,并裁员 100 人。Mobileye 认为,下一代 FMCW 激光雷达对可脱眼的自动驾驶来说必要性没
‍‍近期,IC 设计大厂联发科宣布了2024年上半年度的员工分红计划,与8月份薪资一起发放。据外界估算,按照上半年税前盈余约648.66亿新台币(约 144.42 亿元人民币)进行估算,此次分红总额接
会议预告向世界展示中国最具创新力、领导力和品牌化的产品与技术!9月27号,“第6届国际移动机器人集成应用大会暨复合机器人峰会”将在上海举行,敬请关注!再度出现,能否再次“出线”?文|覃洁兰近日,曾经在
近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了骄成超声等十余家企业,深入了
[关注“行家说动力总成”,快速掌握产业最新动态]9月6日,据“内江新区”消息,晶益通(四川)半导体科技有限公司旗下IGBT模块材料和封测模组产业园项目已完成建设总进度的40%,预计在明年5月建成。据了
往期精选2023年度中国移动机器人产业发展研究报告发布!超200个——2024年上半年AGV/AMR行业中标项目盘点市场保有量超10000台的8大中国AGV/AMR厂商总额超190亿-盘点全球移动机器
随着汽车智能化升级进入深水区,车载ECU(域)以及软件复杂度呈现指数级上升趋势。尤其是多域、跨域和未来的中央电子架构的普及,以及5G/V2X等车云通信的增强,如何保障整车的信息与网络安全,以及防范外部