英伟达(Nvidia)在其年度GPU技术大会(GTC 2018)发表多项系统级升级功能,以提升其图像处理器(GPU)在人工智能(AI)神经网络训练方面的性能,并与ARM合作将其技术扩展到推论领域。
针对可能会在2019年或之后推出的7nm GPU,Nvidia并未提供详细的开发蓝图。不过,由于其他竞争对手——如AMD才刚进入这个领域、英特尔(Intel)预计要到明年后才会推出Nervana加速器,而新创公司Graphcore至今仍不动声色,这让Nvidia还有时间慢慢琢磨。就在几个月前,英特尔和Graphcore都计划在今年发布量产芯片。
Nvidia的高阶Tesla V100 GPU现可提供32GB HBM2 DRAM,较去年5月发布时支持更高2倍的内存容量。此外,该公司还宣布推出采用台积电(TSMC) 12nm FinFET工艺制造的100W芯片——NVSwitch,支持18个NVLink 2.0埠,可链接16个GPU至共享内存。
Nvidia率先打造出可支持10kW功率与高达2 petaflops性能的强大AI训练系统。其DGX-2在10U机箱中封装了12组NVSwitch芯片和16组GPU,足以支持两个Intel Xeon主机、Infiniband或以太网络(Ethernet)以及多达60个固态硬盘(SSD)。
Cray、慧与科技(Hewlett Packard Enterprise;HPE)、IBM、联想(Lenovo)、美超威(Supermicro)和泰安计算机(Tyan)等公司都已宣布将在今年6月前开始出货搭载这款32GB芯片的系统。甲骨文(Oracle)则计划今年底在云端服务中搭载该芯片。
Nvidia透过广泛地升级内存、互连与软件优化,以提高AI性能。Nvidia表示,它在两天内完成FAIRSeq翻译模型的训练,较去年9月时采用8组GPU与16GB内存的测试提高了8倍。此外,SAP则指采用ResNet-152模型,使其于图像识别方面取得10%的进展。
为了超越Nvidia,英特尔计划在明年量产支持12组100Gbit/s链路的Nervana芯片,而Nvidia Volta则支持6个25Gbit/s NVLinks。Nervana芯片支持非同相内存,可在打造加速器丛集(包括环形网络)时提供更大的灵活性,但在编程时将会更加困难。
为了简化编码作业,英特尔宣布开放其Ngraph编译程序,目的在于来自第三方AI架构(如Google TensorFlow)的软件转变为可在英特尔Xeon、Nervana及其FPGA芯片上执行的程序代码。
英特尔和几家数据中心合作伙伴正针对执行于加速器原型上的程序代码进行微调。该公司计划在5月下旬的开发者大会上发布其计划细节,但预计要到明年之后才会量产芯片。届时,Nvidia将英特尔计划升级加速器开发蓝图的压力,而必须尽快推出下一代芯片。
Tirias Research资深分析师Kevin Krewell说 :“目前的Nervana产品将成为一款真正的软件开发工具。它是在英特尔收购该公司之前,以28nm工艺技术打造的,因而不至于与Nvidia 12nm Volta设计相互竞争。”
他补充说,为Volta升级内存和NVSwitch,“让Nvidia得以在竞争中保持领先。我们都期待采用更先进的下一代工艺技术,但是,就量产出货的芯片而言,Volta目前还没有竞争对手。”
至于几家新创公司,Wave Computing预计今年推出首款针对数据中心和开发人员打造的训练系统。这一市场还有新的业者持续出现中。例如新创公司SambaNova Systems在获得5,600万美元的投资后首度在上周登场,其投资方包括Google的母公司Alphabet。SambaNova Systems的共同创办人Kunle Olukotun之前还成立了新创公司Afara Websystems,并打造了Niagara服务器处理器,后来被升阳公司(Sun Microsystems)收购,而Oracle后来并购了升阳。
Nvidia DGX-2将自第三季开始销售
连手ARM加速深度学习推论计划
Nvidia目前在数据中心的神经网络模型训练方面占主导地位,但在网络边缘的更广泛推论领域仍是个新手。为了加强其市场地位,Nvidia和ARM展开合作,将Nvidia的开放来源硬件导入推论作业,成为ARM机器学习产品计划的一部份。
Nvidia去年宣布将开放其Xavier推论加速器IP,至今已发布了多个RTL版本了。这些IP目前正面对来自Cadence、Ceva和新思科技(Synopsys)等公司的AI加速器竞争。
至于ARM将选择哪一款Nvidia IP目前仍不清楚。ARM至今只是草拟了将AI芯片作为其广泛Project Trillium的一部份。ARM目前仅透露计划将其新兴神经网络软件移植到Nvidia IP上。
Nvidia负责Xavier的移动事业部门副总裁暨总经理Deepu Talla表示,他注意到业界开始使用免费的模块化IP设计多种芯片。然而,迄今为止还没有人发布相关信息。
Nvidia希望在推论方面的努力能够扩展到使用其机器学习软件,该软件同时也用于训练AI模型。为此,该公司发布了几项更新其程序代码的计划,并将其整合至第三方AI架构中。
此外,Nvidia最新的TensorRT 4 Runtime软件也增强对于推论作业的支持,并整合于1.7版Google TensorFlow架构中。Nvidia还将该Runtime软件与Kaldi语音架构、Windows ML和Matlab等整合在一起。
该公司并宣布,上周推出的RTX光影追踪软件采用V100 Quadro GV100芯片,支持32GB内存和两组NVLink。
该软件可为游戏、影片和设计模型提供更快速、更逼真的渲染,执行于Nvidia专有的API以及微软(Microsoft)用于光线追踪的DirectX,未来还将支持Vulkan。
Nvidia专业可视化部门副总裁Bob Pette表示,相较于基于CPU的渲染,该软件进一步提升了10倍到100倍;他并预计这一市场将在2020年达到超过20亿美元的规模。
Nvidia首席执行官黄仁勋认为,GPU在AI效能方面已发展出超越摩尔定律以外的新方向(来源:Nvidia)
编译:Susan Hong
本文授权编译自EE Times,版权所有,谢绝转载
关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。