从2018年9月开始,人工智能处理器创业公司Habana Labs正式退出隐身模式,接连推出首个人工智能推理处理器Goya HL-1000和训练处理器Gaudi,目标直指英伟达。

新兴的人工智能处理器创业公司Habana Labs 2016年创立于以色列特拉维夫,最初的业务为开发专为深度神经网络训练和生产环境中的推理部署而优化的处理器平台。2018年11月,该公司宣布完成超额认购的7500万美元B轮融资。此次融资由英特尔投资领投,WRV Capital、Bessemer Venture Partners、Battery Ventures和现有投资者等也加入其中。自创立以来,该公司已经筹集到1.2亿美元,目前在特拉维夫、圣何塞、北京、波兰设有办事处,全球员工人数量为150人。

2018年9月,Habana Labs正式退出隐身模式,推出首个人工智能(AI)处理器Goya HL-1000,旨在处理各种人工智能推理(Inference)工作负载,如图像识别、神经机器翻译、情感分析、推荐系统以及许多其它应用。该处理器创下了两项行业纪录,基于ResNet-50推理基准实现每秒15,393张图片的吞吐量,延迟时间为1.3毫秒,功耗仅为100瓦,并获得150张图片/每秒/每瓦的电源效率。

今年6月,Habana再接再厉,推出了全新的人工智能训练(Training)处理器Gaudi,配备32GB HBM-2内存,目前提供两种规格:HL-200—PCIe卡,设有8个100Gb以太网端口;HL-205—基于OCP-OAM标准的子卡,设有10个100Gb以太网端口或20个50Gb以太网端口。

Goya和Gaudi两款处理器均采用16nm工艺制造,Habana Labs首席商务官Eitan Medina说,工艺对提升Habana产品的性能帮助不大,更多是源于架构创新。

1.jpg

  • Goya

下图展示的Goya与NVIDIA T4 GPU、英特尔8180 CPU在ResNet-50推理基准测试中的性能对比,可以看出,与如今数据中心部署的一般解决方案相比,Goya性能是T4的3倍,是8180的12倍以上,但延迟只有T4的4%。 

2.jpg

而在另一张图片中,Eitan Medina说英伟达特别喜欢在公开场合强调其8片Tesla V100 GPU的性能等同于169片CPU的性能总和,但其实如果和Goya相比,只需3片Goya处理器,就能实现同样的性能,且后者还具备更低的延迟和更好的能耗比。 

3.jpg

“CPU和GPU从架构上来看更适合做通用计算和图形处理,做人工智能的确有些勉为其难。” Eitan Medina认为Goya平台之所以从诞生到目前为止,9个月的时间内依然是市场上性能最为领先的产品,是因为设计人员的目标非常明确,就是要实现深度学习推理,并在此基础上将可编程张量处理器(Tensor Processing Core, TPC)、开发工具、图书室和编译程序等有机的融为一体,共同打造了一个高性能且节能的处理器平台。 

4.jpg

AI的性能主要体现在两方面:计算能力和延迟。在ResNet-50基准测试中,用于衡量批处理性能的Batch size大小直接影响了处理器性能。在数据中心中,GPU为了实现高性能,必然要进行大量的批处理运算;如果在普通运算中,为了要实现更大的Batch size,就需要将大量数据读取到内存中,但这样带来了延迟。Goya的奇妙之处在于它可以令Batch Size等于1,这意味着Goya一次可以处理一张图片,但在一张图片之下,又可以实现7000张/秒的性能,这对自动驾驶这类既需要高性能,又需要低延迟的应用来说非常合适。 

5.jpg

精度是AI推理性能的另一个重要指标。通常情况下,在推理和预测当中为了考虑性能和效率,会将通过浮点训练好的模型整齐化(quantization),但此举又会造成信息丢失,影响最重的计算结果。得益于强大的算法团队,Habana成功的在两者之间找到了平衡。

考虑到很多用户当前的大部分工作仍旧基于CPU/GPU,如果贸然转换到新的处理器上,之前的工作怎样能够快速、准确的部署到新平台上肯定是他们最担心的事情。Eitan Medina说自己完全理解用户的这种顾虑,因此Habana labs在SynapseAI软件栈中对训练模型输入进行了分析和优化,以通过Goya处理器实现高效推理。这款软件包括一个丰富的内核库,其工具链是开放的,供客户添加专有内核,可与TensorFlow和ONNX等深度学习神经网络框架无缝交互。

目前,Facebook在其官网上已明确表示Goya成为了第一款支持其Glow机器学习编译环境的产品,Habana公司也将Goya的驱动程序开源提供给了Linux,最新版的Linux软件已经集成了Goya驱动程序。

  • Gaudi

按照Habana的官方说法,基于Gaudi的训练系统能够在ResNet-50上提供1650张/秒的图片处理能力,比拥有相同数量的NVIDIA V100 GPU系统高四倍,但功耗是V100的一半,约150瓦。此外,得益于创新的架构,Gaudi可实现训练系统性能的近线性扩展,即使是在较小Batch Size的情况下,也能保持高计算力。因此,基于Gaudi处理器的训练性能可实现从单一设备扩展至由数百个处理器搭建的大型系统的线性扩展。 

6.jpg

除了领先的性能,Gaudi还为人工智能训练带来了RDMA over Converged Ethernet (RoCE v2) 功能,从而让人工智能系统能够使用标准以太网扩展至任何规模。相比之下,基于GPU的系统依赖于专有的系统接口,对系统设计人员来说,这从本质上限制了可扩展性和选择性。

其实NIVIDA也意识到了这个问题。在2019年的GTC大会上,黄仁勋在演讲中就重点介绍了英伟达为什么看好RDMA技术,并随后以69亿美元的价格收购了以色列公司Mellanox。Eitan Medina说在支持RDMA方面Habana与NVIDIA的理念是一致的,不同之处在于Habana直接在单芯片中集成了10个支持RDMA的端口,而V100要支持RDMA功能,必须要通过PCIE接口,然后在外部再接一个支持RDMA的网卡才能实现。另一方面,英伟达在扩展时采用了私有协议NVLink,Habana方面认为NVLink受限于规模,不具备实现大规模的扩展能力。这样,Gaudi无论是在集成度上还是在RDMA数量上,都要比V100高出很多。 

7.jpg

之所以设计成两种不同的接口形式,Eitan Medina解释说,如果在PCIe形态中,用户可以直接用Gaudi替换当前服务器中使用的NVIDIA V100卡;如果采用OCP-OAM接口,这种模组化的结构更易于客户设计属于自己的产品,而英伟达目前还不支持OCP结构,更不支持OAM。

与Gaudi同时发布的还有一款名为HLS-1的8-Gaudi系统,配备了8个HL-205子卡、PCIe外部主机连接器和24个用于连接现有以太网交换机的100Gbps以太网端口,让客户能够通过在19英寸标准机柜中部署多个HLS-1系统实现性能扩展。 

8.jpg

Eitan Medina从三个方面将英伟达DGX-1与HLS-1系统的性能进行了对比。首先,尽管都是8片系统,但DGX-1采用了私有协议NVLink来实现互联,只能实现相邻两颗芯片间的直接互联,无法实现所有8颗芯片间的直接互联;其次,如果DGX-1要实现扩展,只能依赖于它的4个100G以太网端口。而HLS-1系统则能够支持24个100G端口;最后,DGX-1的系统管理和数据通讯都必须在PCIE总线上复用,性能上会有损失。HLS-1为系统管理和数据通讯选择了两条不同的路径,大幅提升了总线效率。 

9.jpg

举例而言,在模型并行处理方面,DGX-2提供的NVLink端口有限,最大只能支持16个并行处理,这在很大程度上限制了模型并行处理能力。而HLS-1中的8片Gaudi 卡可以把80个100G的以太网口对外开放实现互联,从而实现几十个,甚至几百个Gaudi系统之间的并行模型化处理。

10.jpg

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
新款开发板售价仅为249美元,而上一代40 TOPS开发板售价为499美元,价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”,特别适合商业AI开发者、爱好者和学生使用。
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
通过机器学习技术,EDA工具可以获取更精确的模型来预测设计中存在的问题,如布线拥塞、信号干扰、热效应等,从而为用户提供更准确快速的指导,避免后期返工。
这一新规则可能会引起美国在世界各地的合作伙伴和盟友的重大担忧,以及一些国家的不满,担心美国会充当单方面仲裁者,决定谁可以获得对AI至关重要的先进芯片。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
‍‍12月18日,深圳雷曼光电科技股份有限公司(下称“雷曼光电”)与成都辰显光电有限公司(下称“辰显光电”)在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势,共同推进Mi
12月18日,珠海京东方晶芯科技举行设备搬入仪式。插播:加入LED显示行业群,请加VX:hangjia188在10月31日,珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
“ 洞悉AI,未来触手可及。”整理 | 美股研究社在这个快速变化的时代,人工智能技术正以前所未有的速度发展,带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
上个月,亿万富翁埃隆·马斯克谈到了年轻一代的生育问题。他强调生育的紧迫性,认为无论面临何种困难,生育后代都是必要的,否则人类可能会在无声中走向消亡。他认为人们对于生育的担忧有些过头,担心经济压力等问题