去年全联接大会上,华为发布了全栈全场景的AI解决方案,坦率地讲,当时华为只交付了用于推理的昇腾310处理器和ModelArts应用开发平台。
今年,华为用于训练的昇腾处理器和AI计算框架MindSpore都已经发布了。至此,华为的全栈全场景AI解决方案全面落地。
9月18日,华为全联接2019(HUAWEI CONNECT)大会上,华为副董事长胡厚崑发布了Atlas 900 AI训练集群,以超强算力带给企业人工智能业务的极致体验。世界正从数字化向智能化转型,人工智能产业作为关键驱动力,面临自身的升级进化的挑战。华为在超强人工智能算力和大规模分布式AI训练集群两个方面加速智能化世界的转型。
集成数千颗算力最强AI芯片
Atlas 900 AI训练集群采用业界单芯片算力最强的昇腾910 AI处理器,每颗昇腾910 AI处理器内置32个达芬奇AI Core,号称“算力最强的AI处理器”,7nm工艺制程,最大功耗为350W,实测310W,单芯片提供比业界高一倍的算力(256TFLOPS@FP16)。Atlas 900 AI训练集群将数千颗昇腾910 AI处理器互联,打造业界第一的算力集群。
来源:视频截图
昇腾910 AI处理器采用SoC设计,集成“AI算力、通用算力、高速大带宽I/O”,大幅度卸载Host CPU的数据预处理任务,充分提升训练效率。
全球训练最快的AI集群Atlas900
Atlas 900 AI训练集群采用“HCCS、 PCIe 4.0、100G以太”三类高速互联方式,百TB全互联无阻塞专属参数同步网络,降低网络时延,梯度同步时延缩短10~70%。
在AI服务器内部,昇腾910 AI处理器之间通过HCCS高速总线互联;昇腾910 AI处理器和CPU之间以最新的PCIe 4.0(速率16Gb/s)技术互联,其速率是业界主流采用的PCIe 3.0(8.0Gb/s)技术的两倍,使得数据传输更加快速和高效。在集群层面,采用面向数据中心的CloudEngine 8800系列交换机,提供单端口100Gbps的交换速率,将集群内的所有AI服务器接入高速交换网络。
独创iLossless 智能无损交换算法,对集群内的网络流量进行实时的学习训练,实现网络0丢包与E2E μs级时延。
来源:视频截图
华为表示:“在 Atlas 900 出现之后,一切计算瓶颈都会消失。”
“这款产品汇聚了华为几十年的技术积累,是当前全球最快的AI训练集群,由数千颗昇腾处理器组成。在衡量AI计算能力的金标准ResNet-50模型训练中,Atlas 900只用了59.8秒就完成了训练,这比原来的世界记录还快了10秒。这是什么概念?相当于短跑冠军跑完终点,喝完一瓶水才等到第二名。”胡厚崑表示,Atlas 900的强大算力,可广泛应用于科学研究和商业创新。比如天文探索、石油勘探等领域,都需要进行庞大的数据计算和处理,原来可能花费好几个月的工作,现在交给Atlas 900,就是几秒钟的事情。
他表示,当前条件下,天文学家要从20万颗星星中找出某种特征的星体,相当困难,需要169天的工作量。现在用上Atlas 900,只用10秒,就从20万颗星星中检索出了相应特征的星体。
此外,据华为介绍,目前Atlas 900的已经部署到了华为云上,并以极优惠的价格向全球科研机构和大学开放。目前并以极优惠的价格向全球科研机构和大学开放。
华为首次披露计算战略
华为认为,智能世界联接和计算不分家,在过去的三十多年里,华为在联接领域持续不断地投资,从有线到无线,从2G、3G、4G,到今天热门的5G,华为已经取得了一些成绩。然而,计算能力已经成为人的能力的一种延伸,从大型机到个人计算机,从台式机到笔记本、到平板电脑,从智能手机到可穿戴设备,计算设备体积越来越小,功能越来越强,离人的距离也越来越近。沿着这样的趋势走下去,计算产业的发展前景是不可限量的。
此次,华为首次披露他们的计算战略,主要从四个方面来布局,包括对架构创新的突破、对全场景处理器族的投资,坚持有所为有所不为的商业策略,以及不遗余力地构建开放生态。
架构创新:达芬奇架构。华为认为,在计算无处不在的时候,算力将会成为关键瓶颈,而现在从行业来看,算力已经成为了高度稀缺资源。摩尔定律走到极限的情况下,整个行业需要找到新的架构释放新的算力。这是产业的需求。从华为的业务布局来看,也需要一种新的架构覆盖全场景的智能计算需要。这种情况下,达芬奇架构诞生。
全场景处理器家族:胡厚崑说,处理器是整个计算产业最基础的部分,目前华华为一共有4大芯片系列,具体包括支持通用计算的鲲鹏系列,支持AI的昇腾系列,支持智能终端的麒麟系列,以及支持智慧屏的鸿鹄系列。他表示,未来华为将持续不断地对处理器进行投资,将来还将推出一系列处理器,面向更多的场景。
商业策略“有所为有所不为”:华为表示不直接对外销售处理器,以云服务面向客户,以部件为主面向合作伙伴,优先支持合作伙伴发展整机。具体来说,我们有三个方面的考虑:
• 硬件开放:我们把服务器主板、AI模组和板卡等硬件开放给伙伴,帮助伙伴做好整机和解决方案。
• 软件开源:我们把服务器操作系统、数据库、AI开发框架等软件开源,帮助伙伴做好商用版本,让软件开发更简单。
• 使能应用开发和迁移:我们不做应用,但我们提供工具和团队,帮助伙伴更高效地做好应用开发和迁移。
构建开放生态:在这一步,华为倡导开放,更新沃土计划,目标是未来5年,投入15亿美元,汇聚500万开发者,来使能全球合作伙伴发展应用及解决方案。
华为称未来还在持续不断地对板卡、服务器、操作系统、数据库、编译器等关键技术和产品进行投资,希望通过强力投资,打通生态全链条,坚定地参与打造鲲鹏产业。
责编:Yvonne Geng