Habana Labs日前宣布,其人工智能(AI)训练和推理加速器将为加州大学圣地亚哥分校圣地亚哥超级计算机中心(SDSC)的Voyager超级计算机提供高性能的AI计算能力,计划于2021年秋季投入使用。

在2019年底被英特尔以20亿美元收购后,专注于深度学习加速器开发的Habana Labs日前宣布,其人工智能(AI)训练和推理加速器将为加州大学圣地亚哥分校圣地亚哥超级计算机中心(SDSC)的Voyager超级计算机提供高性能的AI计算能力,计划于2021年秋季投入使用。

Voyager超级计算机采用了Habana 336片Gaudi加速器用于提升AI训练能力。每个训练节点由8片Gaudi卡提供服务,而每个训练节点之间又通过6个400G支持RoCE的以太网实现整个集群的互联。同时,考虑到一些客户未来对于在训练结果如何进行快速的验证和部署,集群还提供了16个Habana Gaudi推理和预测芯片,便于客户将训练模型简单快速部署到Gaudi上去验证训练结果。

Habana Gaudi AI训练加速器

“从传统的数据建模,发展到通过数据去训练模型,再让模型不断通过自身的调节去更好的预测未来,已经成为超算行业的新趋势。”Habana Labs中国区总经理于明扬指出,之前,超算中心很多业务都是利用第三方开发已有固定的模型,再结合客户数据对结果进行研判。而未来,通过与人工智能技术的结合,模型的生成会变的越来越自动化,结果也越来越贴近于实际场景。

同时,这种趋势也给计算架构领域带来新挑战。也就是说,传统超算计算架构是适用于大规模数据变化的计算,但是在人工智能领域,除了数据并行化,还强调人工智能模型的并行化。所以,为了提供更高效的模型训练手段,传统超算正在不断调整和改进自身计算结构,以便能更好适应新的需求和变化。

作为Voyager项目的技术合作伙伴,超微(Supermicro)将为Voyager超级计算机提供基于Habana的AI系统,包括:

● 超微 X12 Gaudi AI训练系统(SYS-420GH-TNGR)内置8个Gaudi HL-205卡,搭配英特尔最新推出的高性能双路第三代至强可扩展处理器;

● 超微SuperServer 4029GP-T内置8片用于AI推理的Habana Goya HL-100 PCIe 卡,搭配双路第二代英特尔至强可扩展处理器;

之所以选择超微作为技术合作伙伴,而不是自己搭建一个AI系统,于明扬解释说,Habana目前为止仍然是AI加速处理器的设计和制造商,如果要为客户提供整个系统的定制,Habana的角色就要成为系统厂商。那么,Habana就必须参与到客户的系统研发中,帮助他们解决更多的兼容性问题,这会消耗公司的现有资源,且不会带来额外的商机。

叫板英伟达的传奇公司

Habana Labs 2016年创立于以色列特拉维夫,最初的业务为开发专为深度神经网络训练和生产环境中的推理部署而优化的处理器平台。2019年底,Habana Labs以20亿美元的价格被英特尔收购。

Habana Labs正式退出隐身模式,是在2018年9月推出首个人工智能处理器Goya HL-100,用于处理各种人工智能推理(Inference)工作负载,如图像识别、神经机器翻译、情感分析、推荐系统以及许多其它应用。该处理器当时创下了两项行业纪录,基于ResNet-50推理基准实现每秒15,393张图片的吞吐量,延迟时间为1.3毫秒,功耗仅为100瓦,并获得150张图片/每秒/每瓦的电源效率。

2019年6月,Habana再接再厉,推出了全新的人工智能训练(Trainning)处理器Gaudi,配备32GB HBM-2内存,并提供两种规格:设有8个100Gb以太网端口的HL-200 PCIe卡;基于OCP-OAM标准的子卡,设有10个100Gb以太网端口或20个50Gb以太网端口的HL-205卡。

Goya和Gaudi两款处理器均采用16nm工艺制造,Habana Labs方面称,工艺对提升Habana产品的性能帮助不大,更多是源于架构创新。

在Habana看来,CPU和GPU从架构上来看更适合做通用计算和图形处理,做人工智能有些勉为其难。而Goya平台设计人员的目标非常明确,就是要实现深度学习推理,并在此基础上将可编程张量处理器(Tensor Processing Core, TPC)、开发工具、图书室和编译程序等有机的融为一体,共同打造一个高性能且节能的处理器平台。

官方数据显示,基于Gaudi的训练系统能够在ResNet-50上提供1650张/秒的图片处理能力,比拥有相同数量的NVIDIA V100 GPU系统高四倍,但功耗是V100的一半,约150瓦。此外,得益于创新的架构,Gaudi可实现训练系统性能的近线性扩展,即使是在较小Batch Size的情况下,也能保持高计算力。因此,基于Gaudi处理器的训练性能可实现从单一设备扩展至由数百个处理器搭建的大型系统的线性扩展。

除了领先的性能,Gaudi还为人工智能训练带来了RDMA over Converged Ethernet (RoCE v2) 功能,从而让人工智能系统能够使用标准以太网扩展至任何规模。相比之下,基于GPU的系统依赖于专有的系统接口,对系统设计人员来说,这从本质上限制了可扩展性和选择性。

考虑到很多用户当前的大部分工作仍旧基于CPU/GPU,如果贸然转换到新的处理器上,之前的工作怎样能够快速、准确的部署到新平台上,以及整体的性价比如何,肯定是他们最担心的事情。

因此Habana labs的一个做法,是在SynapseAI软件栈中对训练模型输入进行了分析和优化,以通过Goya处理器实现高效推理。这款软件包括一个丰富的内核库,其工具链是开放的,供客户添加专有内核,可与TensorFlow和ONNX等深度学习神经网络框架无缝交互。

在AWS EC2实例中,8卡Gaudi可以在TensorFlow上以12000张图像/秒的处理速度训练ResNet-50模型,整体性价比相比原有方案提升40%。

收购之后的路,怎么走?

于明扬对媒体表示,试图进入AI训练市场的厂商很多,包括Arm、燧原科技、登临科技、天数智芯、摩尔线程等,但市场上成熟的、能够给客户提供真正训练体验的产品,只有英伟达GPU和Habana Gaudi两家,其它厂家的产品要么只能用于特定场景,要么只能搭配特定应用,均处于生态系统完善过程中,尚未达到客户能广泛接受的程度。

在被英特尔收购之后,从两个公司的运营结构来讲,Habana现在仍然是独立运营的,这意味着Habana可以自己制订产品策略,直接针对用户需求做出快速反应。同时,英特尔也带给Habana带来了很多资源和良好的口碑,公司原有的客户群得到了极大的扩充,Voyager超级计算机项目即为一例。

在产品规划方面,于明扬透露称,Habana确实在开发代号为Gaudi 2的下一代芯片,采用7纳米工艺制造,2022年上半年面世,性能为前一代产品的2倍。这里的“两倍”,包含两层含义:一是绝对性能的提升,例如对典型AI模型的支撑、提供预处理功能,减少对CPU计算资源的消耗等;二是提供更好的软件生态,包括对框架、新兴模型、更优质的工具链等。

至于是否会和英特尔在代工方面进行合作,他表示,双方正在评估这种合作的可能性,涉及的方面包括制程工艺的成熟度、更高功率产品所需的新技术等等,原则是要保证未来产品的高质量和高可靠性。

在谈及中国市场的发展策略时,于明扬说公司会首先选定主流的云厂商进行深入合作,因为云厂商既能够提供广泛的服务,自身也有很多业务需求,可以给Habana带来更多用户信息和市场需求,帮助Habana更好的打磨自己的产品,在最快时间内能建立起完整的生态体系。

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
新款开发板售价仅为249美元,而上一代40 TOPS开发板售价为499美元,价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”,特别适合商业AI开发者、爱好者和学生使用。
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
通过机器学习技术,EDA工具可以获取更精确的模型来预测设计中存在的问题,如布线拥塞、信号干扰、热效应等,从而为用户提供更准确快速的指导,避免后期返工。
这一新规则可能会引起美国在世界各地的合作伙伴和盟友的重大担忧,以及一些国家的不满,担心美国会充当单方面仲裁者,决定谁可以获得对AI至关重要的先进芯片。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
今日,长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办,长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言,厂房建设一般主要分为四个阶段:设备选型、设
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
‍‍12月18日,深圳雷曼光电科技股份有限公司(下称“雷曼光电”)与成都辰显光电有限公司(下称“辰显光电”)在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势,共同推进Mi
对于华为来说,今年的重磅机型都已经发完了,而明年的机型已经在研发中,Pura 80就是期待很高的一款。有博主爆料称,华为Pura 80将会用上了豪威OV50K传感器,同时电池容量达到5600毫安时。至
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
“ 洞悉AI,未来触手可及。”整理 | 美股研究社在这个快速变化的时代,人工智能技术正以前所未有的速度发展,带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的
扫描关注一起学嵌入式,一起学习,一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃,死机或其他计划外的运行时行为追溯到根本原因。在最坏的情
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
上个月,亿万富翁埃隆·马斯克谈到了年轻一代的生育问题。他强调生育的紧迫性,认为无论面临何种困难,生育后代都是必要的,否则人类可能会在无声中走向消亡。他认为人们对于生育的担忧有些过头,担心经济压力等问题
亲爱的企业用户和开发者朋友们距离2024 RT-Thread开发者大会正式开幕仅剩最后3天!还没报名的小伙伴,抓紧报名噢,12月21日不见不散!大会时间与地点时间:2024年12月21日 9:30-1