燧原在WAIC上发布云燧智算机：POD产品形态正式补全-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

从前些年开始，AI模型参数规模就以每3个月提高一倍的速度在发展，燧原科技创始人兼COO张亚林在WAIC “AI领Show”的主题演讲中说：“模型参数已经到了千亿，甚至往万亿级规模。”这是大规模算力方面的需求；加上训练并行的变迁，大规模集群是AI计算的必需品。

今年WAIC可谓是国产AI技术相关企业的主场，尤其是AI芯片和GPU厂商。至少有两家AI芯片企业在WAIC上更新了自家的系统级解决方案——而且从这些企业的产品更新也能够体会到，国产AI芯片企业越来越脚踏实地了。比如燧原科技在今年的WAIC上发布了“云燧智算机”（CloudBlazer POD）——从这种POD类设备的发布，能够看到国产AI芯片企业正逐步走向成熟。

“算力底座不仅是芯片，还有板卡、软件。更重要的是什么？系统一体化。这块除了美国友商之外，中国国内还非常罕见。”张亚林说，“如何真正通过集群和系统的方式，使能AI大模型、达成更高的生产力已经成为一个关键的问题。”“中国计算中心落地过程，不仅对能效、算力密度有要求，还在部署、运维、集成等各方面都提出了非常高的交钥匙一体化的需求。”这是云燧智算机和集群诞生的背景。

云燧智算机及集群方案的诞生，也让燧原完成了芯片、板卡、服务器、集群算力中心解决方案的覆盖。

云燧智算机和集群

张亚林提到，目前国内数据中心的业务痛点，首先是集群落地的标准规范弱：“这么大的一个集群，其装配、集成、部署、运维，模组化标准化非常难。能否做到了开箱即用？”其次则在于专业性强，“集群在部署过程中，是否能够真正做到随时随地的监控、很快推动算力利用率、推动绿色集约化；这些问题并没有被很好地解决。”另外交付周期很长，“大量组件的搬运、组装、集成、部署、运维、上线等等，要等上半年、大半年甚至一年时间。”

这是本次燧原发布新品的基础。实际上，像英伟达、Graphcore这类企业早就有了POD, SuperPOD形态设备。燧原则藉由云燧智算机（CloudBlazer POD）的发布补全了这一形态，令其成为更大规模计算集群的基本组件。配合软件，一体化方案是燧原看来解决以上痛点的基础。

云燧智算机

除了邃思芯片作为核心之外，云燧智算机“是个一体化平台，软硬件、整个系统全部集成在里面。模块是标准的，液冷服务器所有器件标准化，非常利于即插即用和部署。”张亚林说，“除了硬件之外，还有强大的软件和平台、各种开箱即用的工具链。”“这样的云燧智算机整体能够达到开箱即用、上电即用的效果。”

燧原在官方介绍中提到云燧智算机采用一体化设计，“是转为人工智能场景下计算、存储、网络、软硬协同设计的标准化产品，提供高可用的整体安全设计，确保集群架构扩展性能符合预期，提供包括采购、安装、运维一体的交钥匙方案。”

云燧智算机整体设计

云燧智算机的内部构成如上图，整体由8个液冷单元组成——这是燧原与浪潮合作打造的。值得一提的是其中的液冷散热——似乎液冷已经是现在数据中心很流行的一个解决方案了，今年Computex上英伟达也发布了液冷PCIe板卡。张亚林在演讲中说，国家期望推动数据中心做到绿色集约、低碳高效，“液冷是绿色集约的关键，传统风冷越来越不能满足低碳、高能效需求。液冷是大势所趋。”

对企业来说，液冷本身是有助于降低散热、能耗和运维成本的；而且液冷本身也有利于相同空间下的性能释放，有助于达成更高的PUE（Power Usage Effectiveness，能源效率）。

从算力参数来看，云燧智算机内的每个单元TF32算力为8PetaFLOPS。则在横向扩展以后，藉由“超千卡规模集群”能够“突破E级算力”。

通信带宽方面，节点内部为1TB/s聚合通信带宽，在节点横向扩展时节点间提供3个200Gb/s RDMA传输。另外张亚林也强调了存算网络分离，“可以独立地增加算力，或者独立地增加存储”。

在管理运维方面，其中内置了故障监测和智能诊断系统，用于监测存储、算力、能效等的运行情况；并能够在发现故障后立即报警。其中“集成高效的智能调度系统，并能做到秒级热迁移”——智能调度体现在监控算力利用率、发现算力瓶颈和功耗水平，达成智能化的算力利用；而“秒级热迁移”主要藉由组件化特性，实现即插即用。

横向扩展后的云燧智算集群CloudBlazer Matrix，即是通过横向扩展达成E级算力。燧原形容其方案是“预优化的”，设备是“预集成的”，系统是“预调优的”。

“我们可以根据终端客户、合作伙伴的需求，进行专门的半定制化。整个集群的算力、存储、模块、软件等都是可配置的。”张亚林总结智算集群的三大特点涵盖了绿色集约、自主创新、安全可靠。

绿色集约主要表现的是算力效率，以及数据中心PUE之类的指标。液冷方案也是其中的重要一环。而“自主创新”，则包含其中的软硬件和系统，和“整个液冷机柜都由燧原科技自主完成设计”；

“安全可靠”则体现在藉由算力调度和监控平台可发现问题，而且“整个液冷集群已经在客户那里稳定上线运行了两个月，没有出现任何问题”，“上线之前我们也和互联网头部客户一起，用美国友商测试最极端的方法精准打磨，经过了6个月的测试”，确保稳定和可靠。

此外张亚林也预告了燧原的POD产品路线，在突破E级算力之后，未来会以更大规模组合的方式，达成10倍以上的算力提升。“从目前的AI领域到泛AI，或者某些HPC的能力。”

软件和系统的价值很重要

软件和生态部分自然是燧池软件平台CloudBlazer Station。这个平台上有4个组件是赋能上层诸多应用的关键。分别是TopsMine智能算法管理平台、TopsDL训推一体化平台、TopsStack异构算力调度平台、TopsDiscover智能运维平台。

其中算法服务层的TopsMine是个算法仓，内置了不少算法；而TopsDL用以实现训推一体化，即令集群既能做训练，又能做推理。算法服务层的这两个平台，“把整个顶层的场景和算法，以及训推一体化，自动地结合起来。”

底层的基础设施部分，TopsStack异构算力调度平台，是将硬件的算力调用起来，“下发的大量任务通过这个平台能够形成最智能的分发和使用”；而TopsDiscover智能运维平台用于监控存储、算力等的使用率、能效情况，以及故障监测——也支持远程服务访问，实现远程监控集群的运行情况。

对燧原这类AI芯片企业而言，系统和软件的确是“算力服务应用的关键”。现在的AI芯片面对多样化的场景、巨量化的模型，要求规模化的算力；对开发生态而言，易用性、迁移性、“泛化性”、编程性都格外重要。这些实际上是一家已经把AI芯片做出来，且趋于成熟、要正式起量的企业更愿意去谈的部分，是发展中真正的难点；也是英伟达这种竞争对手把握的能力。

从底层硬件 - 芯片到板卡，再到服务器与集群；到中间层的燧池软件平台；以及上层的应用，包括各种网络模型，如视觉模型、语音模型、推荐模型、多模态大模型等。似乎今年不少国产AI芯片企业都开始强调自家的“一体化方案”，而着墨于系统和软件平台，体现的实则也是芯片的真正落地。

这套方案各组成部分的不断完善，也是燧原这样的企业需要花大量精力不断推进和迭代的。软件方面和更上层，“我们会专注于和所有的客户一起打磨整个业务系统，提高我们的AI生产力”。系统方面，“我们会持续优化它的整体价值——也就是TCO（总拥有成本）。通过芯片、板卡、系统集群成本，以及软件的大量迭代，保证更低的TCO”，“不仅仅是整个集群的建设成本，还有部署运维成本，包括电力开销成本。”

体现走向应用场景、落地的一句话是张亚林所说的：“我们现在提出软件和系统的价值。最近工信部也一直在强调，真正的AI要从终端去看，从用户去看，从场景去看，从系统角度去看，而不是简单去谈未来和愿景。”今年WAIC在AI技术上的主体氛围即是如此，也让我们看到了以燧原为代表的AI芯片企业近两年真正的发展。

落地和应用

张亚林在列举当前燧原已经应用的场景中，除了“头部互联网公司”“大型股份制商业银行”“国家高新技术开发区”以及“国际奢侈品电商平台”之外，相对给我们留下深刻印象的是某“国家著名实验室”。所谓的“千卡业务集群”就是在这个实验室里应用的，被燧原称作“国内首个落地千卡规模液冷集群的AI算力企业”。

张亚林介绍说这个集群已经落地运行了两个月的时间，“这是一个集成的、高度稳定的、安全可靠的、真正大规模的复杂系统工程。千卡业务本身就有巨大的复杂度。”它特别谈到，“我们1280张卡已经做到了0.9的线性度，未来我们还会继续优化。这样的线性度本身就代表了多卡通信的优化和算力的高可用。”“据我所知，目前1280液冷卡集群，0.9的线性度在国内是绝无仅有的。”

燧原列举的数据中提到，该实验室数据中心因此达成的PUE≤1.15，电力消耗降低了30%。

除此之外，其它的集群典型应用还包括“西南核心省会城市‘1+5+N’新型算力中心”，上层应用主要是城市安全、智慧交通、智慧教育、智慧社区、智慧工地等；从介绍来看，主要是藉由计算机视觉来打造智慧城市，比如说用电调度、社区管理、疫情推演等等。

以燧原为代表的国产AI芯片厂商，如今更愿意去谈系统、软件、应用，以及与合作伙伴间的合作——换句话说是让芯片落到实处。从产品形态的补全，到更加着眼于落地，这样的成长是显而易见的。

发布POD、集群，强调系统和软件生态的重要性，并将其落地转化为生产力，无一不体现着现在的国产AI芯片企业已经脱离了过去讲故事、卖情怀、谈愿景的初期阶段，朝着更具切实意义的方向迈进。或许对于整个行业而言，这些都是AI芯片从大量步入成熟的开端。