IBM Research发表深度学习(deep learning)算法的最新突破,据称几乎达到了理想微缩效率的神圣目标:新的分布式深度学习(DDL)软件可随着处理器的增加,实现趋近于线性加速的最佳效率。
如图1所示,这一发展旨在为添加至IBM分布式深度学习算法的每一个服务器,实现类似的加速效率。
IBM研究人员兼IBM Research加速认知基础设施部门总监Hillman Hunter认为,其目标在于“将与深度学习训练有关的等待时间,从几天或几小时减少到几分钟或甚至几秒钟。”
Hunter在一篇有关这项深度学习发展的部落格文章中指出,“最受欢迎的深度学习架构开始扩展到服务器中的多个绘图处理器(GPU),而非使用GPU的多个服务器。”IBM的开发团队“为连接至数十个服务器的上百个GPU加速器所需的庞大、复杂运算任务,编写了自动化与优化其平行任务的软件与算法。”
深度学习算法随GPU增加而趋近于线性加速效率 (来源:IBM)
IBM声称,使用开放源码的Caffe深度学习架构,可将最多达256个Nvidia Tesla P100 GPU添加至单一服务器,最终达到了95%微缩效率的测试结果。这一测试结果可用于影像识别学习,但预计也适用于类似的学习任务。IBM在50分钟的训练时间内达到了接近线性的微缩效率。在相同的训练数据集时,Facebook Inc.先前曾经在60分钟的训练时间内实现89%的效率。
而在ImageNet-22k的数据组合下,IBM声称可在7个小时、750万张影像的训练中,达到了33.8%的验证精确度;在相同的条件下,微软(Microsoft Corp.)原先的记录是在10天训练中达到29.8%的准确率。IBM的处理器——PowerAI平台,可支持64节点的Power8丛集(加上256个Nvidia GPU),提供超过2PFLOPS的单精度浮点性能。
该公司正为PowerAI平台用户免费提供其分布式深度学习套件,同时,还为第三方开发人员提供各种应用的编程接口,让他们能选择与其应用最相关的底层算法。
编译:Susan Hong
本文授权编译自EE Times,版权所有,谢绝转载
关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。