从前些年开始,AI模型参数规模就以每3个月提高一倍的速度在发展,燧原科技创始人兼COO张亚林在WAIC “AI领Show”的主题演讲中说:“模型参数已经到了千亿,甚至往万亿级规模。”这是大规模算力方面的需求;加上训练并行的变迁,大规模集群是AI计算的必需品。

今年WAIC可谓是国产AI技术相关企业的主场,尤其是AI芯片和GPU厂商。至少有两家AI芯片企业在WAIC上更新了自家的系统级解决方案——而且从这些企业的产品更新也能够体会到,国产AI芯片企业越来越脚踏实地了。比如燧原科技在今年的WAIC上发布了“云燧智算机”(CloudBlazer POD)——从这种POD类设备的发布,能够看到国产AI芯片企业正逐步走向成熟。

从前些年开始,AI模型参数规模就以每3个月提高一倍的速度在发展,燧原科技创始人兼COO张亚林在WAIC “AI领Show”的主题演讲中说:“模型参数已经到了千亿,甚至往万亿级规模。”这是大规模算力方面的需求;加上训练并行的变迁,大规模集群是AI计算的必需品。

“算力底座不仅是芯片,还有板卡、软件。更重要的是什么?系统一体化。这块除了美国友商之外,中国国内还非常罕见。”张亚林说,“如何真正通过集群和系统的方式,使能AI大模型、达成更高的生产力已经成为一个关键的问题。”“中国计算中心落地过程,不仅对能效、算力密度有要求,还在部署、运维、集成等各方面都提出了非常高的交钥匙一体化的需求。”这是云燧智算机和集群诞生的背景。

云燧智算机及集群方案的诞生,也让燧原完成了芯片、板卡、服务器、集群算力中心解决方案的覆盖。

云燧智算机和集群

张亚林提到,目前国内数据中心的业务痛点,首先是集群落地的标准规范弱:“这么大的一个集群,其装配、集成、部署、运维,模组化标准化非常难。能否做到了开箱即用?”其次则在于专业性强,“集群在部署过程中,是否能够真正做到随时随地的监控、很快推动算力利用率、推动绿色集约化;这些问题并没有被很好地解决。”另外交付周期很长,“大量组件的搬运、组装、集成、部署、运维、上线等等,要等上半年、大半年甚至一年时间。”

这是本次燧原发布新品的基础。实际上,像英伟达、Graphcore这类企业早就有了POD, SuperPOD形态设备。燧原则藉由云燧智算机(CloudBlazer POD)的发布补全了这一形态,令其成为更大规模计算集群的基本组件。配合软件,一体化方案是燧原看来解决以上痛点的基础。

云燧智算机

除了邃思芯片作为核心之外,云燧智算机“是个一体化平台,软硬件、整个系统全部集成在里面。模块是标准的,液冷服务器所有器件标准化,非常利于即插即用和部署。”张亚林说,“除了硬件之外,还有强大的软件和平台、各种开箱即用的工具链。”“这样的云燧智算机整体能够达到开箱即用、上电即用的效果。”

燧原在官方介绍中提到云燧智算机采用一体化设计,“是转为人工智能场景下计算、存储、网络、软硬协同设计的标准化产品,提供高可用的整体安全设计,确保集群架构扩展性能符合预期,提供包括采购、安装、运维一体的交钥匙方案。”

云燧智算机整体设计

云燧智算机的内部构成如上图,整体由8个液冷单元组成——这是燧原与浪潮合作打造的。值得一提的是其中的液冷散热——似乎液冷已经是现在数据中心很流行的一个解决方案了,今年Computex上英伟达也发布了液冷PCIe板卡。张亚林在演讲中说,国家期望推动数据中心做到绿色集约、低碳高效,“液冷是绿色集约的关键,传统风冷越来越不能满足低碳、高能效需求。液冷是大势所趋。”

对企业来说,液冷本身是有助于降低散热、能耗和运维成本的;而且液冷本身也有利于相同空间下的性能释放,有助于达成更高的PUE(Power Usage Effectiveness,能源效率)。

从算力参数来看,云燧智算机内的每个单元TF32算力为8PetaFLOPS。则在横向扩展以后,藉由“超千卡规模集群”能够“突破E级算力”。

通信带宽方面,节点内部为1TB/s聚合通信带宽,在节点横向扩展时节点间提供3个200Gb/s RDMA传输。另外张亚林也强调了存算网络分离,“可以独立地增加算力,或者独立地增加存储”。

在管理运维方面,其中内置了故障监测和智能诊断系统,用于监测存储、算力、能效等的运行情况;并能够在发现故障后立即报警。其中“集成高效的智能调度系统,并能做到秒级热迁移”——智能调度体现在监控算力利用率、发现算力瓶颈和功耗水平,达成智能化的算力利用;而“秒级热迁移”主要藉由组件化特性,实现即插即用。

横向扩展后的云燧智算集群CloudBlazer Matrix,即是通过横向扩展达成E级算力。燧原形容其方案是“预优化的”,设备是“预集成的”,系统是“预调优的”。

“我们可以根据终端客户、合作伙伴的需求,进行专门的半定制化。整个集群的算力、存储、模块、软件等都是可配置的。”张亚林总结智算集群的三大特点涵盖了绿色集约、自主创新、安全可靠。

绿色集约主要表现的是算力效率,以及数据中心PUE之类的指标。液冷方案也是其中的重要一环。而“自主创新”,则包含其中的软硬件和系统,和“整个液冷机柜都由燧原科技自主完成设计”;

“安全可靠”则体现在藉由算力调度和监控平台可发现问题,而且“整个液冷集群已经在客户那里稳定上线运行了两个月,没有出现任何问题”,“上线之前我们也和互联网头部客户一起,用美国友商测试最极端的方法精准打磨,经过了6个月的测试”,确保稳定和可靠。

此外张亚林也预告了燧原的POD产品路线,在突破E级算力之后,未来会以更大规模组合的方式,达成10倍以上的算力提升。“从目前的AI领域到泛AI,或者某些HPC的能力。”

软件和系统的价值很重要

软件和生态部分自然是燧池软件平台CloudBlazer Station。这个平台上有4个组件是赋能上层诸多应用的关键。分别是TopsMine智能算法管理平台、TopsDL训推一体化平台、TopsStack异构算力调度平台、TopsDiscover智能运维平台。

其中算法服务层的TopsMine是个算法仓,内置了不少算法;而TopsDL用以实现训推一体化,即令集群既能做训练,又能做推理。算法服务层的这两个平台,“把整个顶层的场景和算法,以及训推一体化,自动地结合起来。”

底层的基础设施部分,TopsStack异构算力调度平台,是将硬件的算力调用起来,“下发的大量任务通过这个平台能够形成最智能的分发和使用”;而TopsDiscover智能运维平台用于监控存储、算力等的使用率、能效情况,以及故障监测——也支持远程服务访问,实现远程监控集群的运行情况。

对燧原这类AI芯片企业而言,系统和软件的确是“算力服务应用的关键”。现在的AI芯片面对多样化的场景、巨量化的模型,要求规模化的算力;对开发生态而言,易用性、迁移性、“泛化性”、编程性都格外重要。这些实际上是一家已经把AI芯片做出来,且趋于成熟、要正式起量的企业更愿意去谈的部分,是发展中真正的难点;也是英伟达这种竞争对手把握的能力。

从底层硬件 - 芯片到板卡,再到服务器与集群;到中间层的燧池软件平台;以及上层的应用,包括各种网络模型,如视觉模型、语音模型、推荐模型、多模态大模型等。似乎今年不少国产AI芯片企业都开始强调自家的“一体化方案”,而着墨于系统和软件平台,体现的实则也是芯片的真正落地。

这套方案各组成部分的不断完善,也是燧原这样的企业需要花大量精力不断推进和迭代的。软件方面和更上层,“我们会专注于和所有的客户一起打磨整个业务系统,提高我们的AI生产力”。系统方面,“我们会持续优化它的整体价值——也就是TCO(总拥有成本)。通过芯片、板卡、系统集群成本,以及软件的大量迭代,保证更低的TCO”,“不仅仅是整个集群的建设成本,还有部署运维成本,包括电力开销成本。”

体现走向应用场景、落地的一句话是张亚林所说的:“我们现在提出软件和系统的价值。最近工信部也一直在强调,真正的AI要从终端去看,从用户去看,从场景去看,从系统角度去看,而不是简单去谈未来和愿景。”今年WAIC在AI技术上的主体氛围即是如此,也让我们看到了以燧原为代表的AI芯片企业近两年真正的发展。

落地和应用

张亚林在列举当前燧原已经应用的场景中,除了“头部互联网公司”“大型股份制商业银行”“国家高新技术开发区”以及“国际奢侈品电商平台”之外,相对给我们留下深刻印象的是某“国家著名实验室”。所谓的“千卡业务集群”就是在这个实验室里应用的,被燧原称作“国内首个落地千卡规模液冷集群的AI算力企业”。

张亚林介绍说这个集群已经落地运行了两个月的时间,“这是一个集成的、高度稳定的、安全可靠的、真正大规模的复杂系统工程。千卡业务本身就有巨大的复杂度。”它特别谈到,“我们1280张卡已经做到了0.9的线性度,未来我们还会继续优化。这样的线性度本身就代表了多卡通信的优化和算力的高可用。”“据我所知,目前1280液冷卡集群,0.9的线性度在国内是绝无仅有的。”

燧原列举的数据中提到,该实验室数据中心因此达成的PUE≤1.15,电力消耗降低了30%。

除此之外,其它的集群典型应用还包括“西南核心省会城市‘1+5+N’新型算力中心”,上层应用主要是城市安全、智慧交通、智慧教育、智慧社区、智慧工地等;从介绍来看,主要是藉由计算机视觉来打造智慧城市,比如说用电调度、社区管理、疫情推演等等。

以燧原为代表的国产AI芯片厂商,如今更愿意去谈系统、软件、应用,以及与合作伙伴间的合作——换句话说是让芯片落到实处。从产品形态的补全,到更加着眼于落地,这样的成长是显而易见的。

发布POD、集群,强调系统和软件生态的重要性,并将其落地转化为生产力,无一不体现着现在的国产AI芯片企业已经脱离了过去讲故事、卖情怀、谈愿景的初期阶段,朝着更具切实意义的方向迈进。或许对于整个行业而言,这些都是AI芯片从大量步入成熟的开端。

邃思2.5 AI推理芯片

邃思2.0 AI训练芯片

云燧T21 AI训练OAM模组

责编:Amy.wu
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
最近收到一款Jetson Orin Nano Super开发套装,我打算拿它来做个简单的AI应用开发...在没有任何AI应用和嵌入式应用开发经验的基础上...主打传说中的零代码开发~
2024 年,中国人工智能专业在校生约 4 万多人,而整个领域的人才缺口却高达 500 万……
从品牌战略的角度来看,华为本次选择古代神话中的人物作为商标,可能是为了借助这些神话角色的知名度和文化内涵,打造具有中国特色的品牌形象……
随着全球数字化转型市场蓬勃发展,云计算、人工智能、大数据、5G等技术的应用范围不断扩大,全球企业的数字化转型已经来到了持续发展阶段,这也促使了企业不断加大其在数字化转型的投入。其中 AI、机器视觉和 RFID 等先进技术在实现高效生产物流方面发挥着关键作用。
“物理智能(Physical AI)”,黄仁勋在CES 2025上发表主题演讲时提出的新概念。他指出,即将全面到来的“Physical AI”时代,将是在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。
该标准旨在为养老机器人的设计、制造、测试和认证提供统一规范,推动全球养老机器人产业的健康发展,通过明确养老机器人的功能与性能分类,确保其在互联家居环境中的有效应用。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
点击上方蓝字谈思实验室获取更多汽车网络安全资讯3 月 5 日,据中国经济网报道,近日有传言毛京波即将卸任莲花中国总裁,调整至海外市场。莲花汽车内部人士证实了此事:“毛总(毛京波)已经有几天没有出现在办
千万级中标项目5个,百万级中标项目12个。文|新战略根据公开信息,新战略移动机器人产业研究所不完全统计,2025年2月,国内发布35项中标公告,披露总金额超15527.01万元。(由新战略移动机器人全
‍‍据“龙岩发布”3月5日消息,蓝天LED显示屏产业链生产项目一期装修已完成50%,预计3月底可完工,4月初试投产。加入LED显示行业群,请加VX:hangjia188图源:龙岩发布据介绍,蓝天LED
差分运算放大电路,对共模信号得到有效抑制,而只对差分信号进行放大,因而得到广泛的应用。差分电路的电路构型    上图是差分电路。    目标处理电压:是采集处理电压,比如在系统中像母线电压的采集处理,
回顾2024年,碳化硅和氮化镓行业在多个领域取得了显著进步,并经历了重要的变化。展望2025年,行业也将面临新的机遇和挑战。为了更好地解读产业格局,探索未来的前进方向,行家说三代半与行家极光奖联合策划
从上表可知,2024年前三季度全球40强PCB企业总营收约416.7亿美元,同比增长7.6%。其中,营收排名第一位的是臻鼎科技(36.05亿美元),排名第2~5位的分别是欣兴电子(26.85亿美元)、
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----来源: 逍遥设计自动化申
如果说华为代表了国产手机芯片的最高水平,那么紫光展锐无疑就是国产中低端芯片最大的依持了。3月3日,巴塞罗那MWC世界移动通信大会上,紫光展锐正式发布手机芯片T8300。据了解,T8300采用的是6nm
                                                                                                
在3月4日北京市政府新闻办公室举行的发布会上,北京经济技术开发区(北京亦庄)发布消息称,将于4月13日举行北京亦庄半程马拉松赛,全球首个人形机器人半程马拉松赛将同期举行。会上表示,人形机器人将与运动员