在2019年底被英特尔以20亿美元收购后,专注于深度学习加速器开发的Habana Labs日前宣布,其人工智能(AI)训练和推理加速器将为加州大学圣地亚哥分校圣地亚哥超级计算机中心(SDSC)的Voyager超级计算机提供高性能的AI计算能力,计划于2021年秋季投入使用。
Voyager超级计算机采用了Habana 336片Gaudi加速器用于提升AI训练能力。每个训练节点由8片Gaudi卡提供服务,而每个训练节点之间又通过6个400G支持RoCE的以太网实现整个集群的互联。同时,考虑到一些客户未来对于在训练结果如何进行快速的验证和部署,集群还提供了16个Habana Gaudi推理和预测芯片,便于客户将训练模型简单快速部署到Gaudi上去验证训练结果。
Habana Gaudi AI训练加速器
“从传统的数据建模,发展到通过数据去训练模型,再让模型不断通过自身的调节去更好的预测未来,已经成为超算行业的新趋势。”Habana Labs中国区总经理于明扬指出,之前,超算中心很多业务都是利用第三方开发已有固定的模型,再结合客户数据对结果进行研判。而未来,通过与人工智能技术的结合,模型的生成会变的越来越自动化,结果也越来越贴近于实际场景。
同时,这种趋势也给计算架构领域带来新挑战。也就是说,传统超算计算架构是适用于大规模数据变化的计算,但是在人工智能领域,除了数据并行化,还强调人工智能模型的并行化。所以,为了提供更高效的模型训练手段,传统超算正在不断调整和改进自身计算结构,以便能更好适应新的需求和变化。
作为Voyager项目的技术合作伙伴,超微(Supermicro)将为Voyager超级计算机提供基于Habana的AI系统,包括:
● 超微 X12 Gaudi AI训练系统(SYS-420GH-TNGR)内置8个Gaudi HL-205卡,搭配英特尔最新推出的高性能双路第三代至强可扩展处理器;
● 超微SuperServer 4029GP-T内置8片用于AI推理的Habana Goya HL-100 PCIe 卡,搭配双路第二代英特尔至强可扩展处理器;
之所以选择超微作为技术合作伙伴,而不是自己搭建一个AI系统,于明扬解释说,Habana目前为止仍然是AI加速处理器的设计和制造商,如果要为客户提供整个系统的定制,Habana的角色就要成为系统厂商。那么,Habana就必须参与到客户的系统研发中,帮助他们解决更多的兼容性问题,这会消耗公司的现有资源,且不会带来额外的商机。
叫板英伟达的传奇公司
Habana Labs 2016年创立于以色列特拉维夫,最初的业务为开发专为深度神经网络训练和生产环境中的推理部署而优化的处理器平台。2019年底,Habana Labs以20亿美元的价格被英特尔收购。
Habana Labs正式退出隐身模式,是在2018年9月推出首个人工智能处理器Goya HL-100,用于处理各种人工智能推理(Inference)工作负载,如图像识别、神经机器翻译、情感分析、推荐系统以及许多其它应用。该处理器当时创下了两项行业纪录,基于ResNet-50推理基准实现每秒15,393张图片的吞吐量,延迟时间为1.3毫秒,功耗仅为100瓦,并获得150张图片/每秒/每瓦的电源效率。
2019年6月,Habana再接再厉,推出了全新的人工智能训练(Trainning)处理器Gaudi,配备32GB HBM-2内存,并提供两种规格:设有8个100Gb以太网端口的HL-200 PCIe卡;基于OCP-OAM标准的子卡,设有10个100Gb以太网端口或20个50Gb以太网端口的HL-205卡。
Goya和Gaudi两款处理器均采用16nm工艺制造,Habana Labs方面称,工艺对提升Habana产品的性能帮助不大,更多是源于架构创新。
在Habana看来,CPU和GPU从架构上来看更适合做通用计算和图形处理,做人工智能有些勉为其难。而Goya平台设计人员的目标非常明确,就是要实现深度学习推理,并在此基础上将可编程张量处理器(Tensor Processing Core, TPC)、开发工具、图书室和编译程序等有机的融为一体,共同打造一个高性能且节能的处理器平台。
官方数据显示,基于Gaudi的训练系统能够在ResNet-50上提供1650张/秒的图片处理能力,比拥有相同数量的NVIDIA V100 GPU系统高四倍,但功耗是V100的一半,约150瓦。此外,得益于创新的架构,Gaudi可实现训练系统性能的近线性扩展,即使是在较小Batch Size的情况下,也能保持高计算力。因此,基于Gaudi处理器的训练性能可实现从单一设备扩展至由数百个处理器搭建的大型系统的线性扩展。
除了领先的性能,Gaudi还为人工智能训练带来了RDMA over Converged Ethernet (RoCE v2) 功能,从而让人工智能系统能够使用标准以太网扩展至任何规模。相比之下,基于GPU的系统依赖于专有的系统接口,对系统设计人员来说,这从本质上限制了可扩展性和选择性。
考虑到很多用户当前的大部分工作仍旧基于CPU/GPU,如果贸然转换到新的处理器上,之前的工作怎样能够快速、准确的部署到新平台上,以及整体的性价比如何,肯定是他们最担心的事情。
因此Habana labs的一个做法,是在SynapseAI软件栈中对训练模型输入进行了分析和优化,以通过Goya处理器实现高效推理。这款软件包括一个丰富的内核库,其工具链是开放的,供客户添加专有内核,可与TensorFlow和ONNX等深度学习神经网络框架无缝交互。
在AWS EC2实例中,8卡Gaudi可以在TensorFlow上以12000张图像/秒的处理速度训练ResNet-50模型,整体性价比相比原有方案提升40%。
收购之后的路,怎么走?
于明扬对媒体表示,试图进入AI训练市场的厂商很多,包括Arm、燧原科技、登临科技、天数智芯、摩尔线程等,但市场上成熟的、能够给客户提供真正训练体验的产品,只有英伟达GPU和Habana Gaudi两家,其它厂家的产品要么只能用于特定场景,要么只能搭配特定应用,均处于生态系统完善过程中,尚未达到客户能广泛接受的程度。
在被英特尔收购之后,从两个公司的运营结构来讲,Habana现在仍然是独立运营的,这意味着Habana可以自己制订产品策略,直接针对用户需求做出快速反应。同时,英特尔也带给Habana带来了很多资源和良好的口碑,公司原有的客户群得到了极大的扩充,Voyager超级计算机项目即为一例。
在产品规划方面,于明扬透露称,Habana确实在开发代号为Gaudi 2的下一代芯片,采用7纳米工艺制造,2022年上半年面世,性能为前一代产品的2倍。这里的“两倍”,包含两层含义:一是绝对性能的提升,例如对典型AI模型的支撑、提供预处理功能,减少对CPU计算资源的消耗等;二是提供更好的软件生态,包括对框架、新兴模型、更优质的工具链等。
至于是否会和英特尔在代工方面进行合作,他表示,双方正在评估这种合作的可能性,涉及的方面包括制程工艺的成熟度、更高功率产品所需的新技术等等,原则是要保证未来产品的高质量和高可靠性。
在谈及中国市场的发展策略时,于明扬说公司会首先选定主流的云厂商进行深入合作,因为云厂商既能够提供广泛的服务,自身也有很多业务需求,可以给Habana带来更多用户信息和市场需求,帮助Habana更好的打磨自己的产品,在最快时间内能建立起完整的生态体系。