专注百亿算力市场,这家存储厂商已为多个千卡智算中心降本增效丨爱分析调研

原创 爱分析ifenxi 2024-12-11 18:02
01
存储产品对智算中心精细化运营起到重要作用

从2023年开始,政策支持和生成式AI需求驱动整个智算中心市场迎来爆发式增长。根据市场调研数据,2023年中国智算服务市场整体规模达到194.2亿元,其中2023年下半年整体规模达到114.1亿元,同比增长85.8%。

从2024年下半年开始,不少智算中心已完成投资建设工作,进入到运营阶段,如何精细化运营,最大化发挥算力资产价值,降低运营成本是每个智算中心关注的问题,存储产品选型是一项重要但又容易被忽视的工作。

在智算中心建设阶段,存储占整体预算在5-10%,远低于占比60-70%的GPU投入,但在运营阶段,存储产品对提升算力利用率、降低运营成本起到了重要作用。

首先,英伟达等GPU产品算力持续不断提升,2023年多数智算中心采购的是A100 GPU,2024年普遍换成了H100,算力带宽从200G提升至400G,对存储软硬件架构提出新的要求。如果存储产品无法匹配400G带宽要求,这对智算中心运营商来说是算力的巨大浪费。

其次,通过数据自由流动、冷热分离等方式降低存储成本,是智算中心运营商都希望实现的功能,特别是在2024年闪存售价上涨15%的背景下。同时,智算中心希望尽可能降低运维成本,整个数据流动过程最好是业务无感知、自动化完成,对存储产品功能提出更高要求。

再次,很多智算中心为了满足当前信创要求,同时会购买华为、寒武纪等国产厂商的算力集群,每套算力集群单独搭配一个存储设备有些浪费,智算中心运营商希望通过统一存储来适配异构算力,这样可以节省空间和资源。

02

基于NVMe over RDMA架构的存储产品成为行业共识

相比传统数据中心,智算中心对存储产品提出更高要求,新一代存储产品必须在存储介质、存储网络等方面有适配AI场景的技术特点。

存储介质方面,目前全闪已经成为行业共识,混闪介质更多是服务于数据流动场景,用于冷数据存储等。在全闪阵列中,存储技术NVMe(Nonvolatile Memory Express)已经全面取代SATA(Serial Advanced Technology Attachment)成为主流,NVMe利用服务器中的PCIe高速总线,将其直连服务器,从而减少了CPU开销,降低延迟,提升IOPS和吞吐量。

存储网络方面,越来越多用户开始接受RDMA(Remote Direct Memory Access)协议,替代传统TCP/IP协议。RDMA协议的特点是允许两台服务器直接读写对方的内存,而无需经过任何一台服务器,这带来两方面好处。一方面,基于RDMA协议能够实现高速传输数据,这在AI模型训练场景是至关重要的影响因素。另一方面,基于RDMA协议可以释放CPU,考虑到国产CPU产品的性能略逊于海外产品,这让CPU的性能劣势不会影响到存储产品性能。

03 

AI存储厂商选型:性能、稳定可靠、功能

智算中心等企业用户在选型存储产品时,重点考量三个方面:性能、稳定可靠和功能。

性能层面,正如前文所言,智算中心的GPU硬件已经升级至400G带宽,未来甚至会迭代至800G带宽,存储产品性能必须能跟上GPU性能提升,否则对智算中心而言是硬件上很大的浪费和损失。

稳定可靠对于智算中心越来越重要,整个智算中心市场逐步进入到运营阶段,加上现阶段有大量算力需求的主要集中在头部互联网公司和AI大模型厂商,智算中心之间的竞争势必越来越激烈。作为基础设施服务,稳定可靠一定是企业用户关注重点,存储又直接影响到企业用户最核心的训练数据,智算中心在采购存储产品时一定会关注稳定可靠性,看重厂商过往服务案例和经验。

冷热数据流动、数据安全、额度分配等功能是智算中心所需要的,存储厂商的产品需要能够支持上述功能,同时,这些功能最好是集成到产品中自动化实现,不需要太多人工干预。

04 

AI存储代表厂商:极客天成

国内市场提供AI存储产品的原厂主要分成国际大厂和本土厂商。国际大厂包含IBM(GPFS)、DDN、VAST Data等,本土厂商一类是华为、中科曙光等IT综合服务商,另一类是以极客天成、焱融科技、XSKY为代表的专注存储产品厂商,极客天成作为一家2016年成立的基于RDMA技术的存储厂商值得关注。

极客天成的主要产品是极客追光全闪一体机,提供100% 的 NVMe 存储介质和多种高速连接主机接口选项。2U NVMe 平台是业界最快的存储解决方案之一,速度达120GB/s,并且以最小的外形尺寸交付多达24块 NVMe 固态硬盘(SSD),主要应用数据实时分析、深度学习、AI药物研发、大模型训练等场景。

相比其他存储厂商,极客天成在成立之初就确定了RDMA技术方向,分布式并行文件存储NVFile、分布式块存储NVMatrix、分布式对象存储NVObject都是基于RDMA技术底座。

极客天成的文件存储产品采取全内核态的软件架构,这使得数据流动可以在内核态进行,不需要传到用户空间,数据交换效率最高。全内核态软件架构的存储产品对用户有两方面好处,第一,内核态存储产品能够跟上NVME技术提升带来的硬件升级,使得存储产品能够持续利用到硬件迭代带来的性能提升;第二,内核态存储产品在部署上更加灵活,极客天成的产品支持纯软件部署和软硬一体方案,能够适配到不同场景。

面向国内企业用户,极客天成的产品还具备两点优势。一方面,顺应国产化替代趋势,极客天成产品已完成对鲲鹏、海光、飞腾等国产CPU和华为昇腾、寒武纪等国产GPU芯片的适配。另一方面,极客天成没有盲目跟踪Share Everything架构,而是采取Share Nothing架构,主要是考虑到需要适配不同客户的硬件设备,ShareEverything架构尽管在性能上可以做到更强,但需要客户购买一体化硬件设备,在中国是比较难落地的。

产品功能上,极客天成能够实现数据冷热自动分级,降低智算中心运营维护成本。整个数据流动方案可以自动化执行,不需要由太多运维人员操作,降低操作风险。

尽管相较IT大厂,极客天成公司存续时间不长,但已经在金融证券、医疗、电信等领域有诸多客户案例,面向AIGC、量化投研等场景部署了千卡GPU训练集群,是专注存储产品厂商中落地部署千卡集群数量最多的厂商之一,产品的稳定可靠性得到初步验证。

注:点击左下角“阅读原文”,前往爱分析官网获取更多内容



爱分析ifenxi 爱分析是一家中国领先的数字化市场研究与咨询机构。
评论
  • 随着AI大模型训练和推理对计算能力的需求呈指数级增长,AI数据中心的网络带宽需求大幅提升,推动了高速光模块的发展。光模块作为数据中心和高性能计算系统中的关键器件,主要用于提供高速和大容量的数据传输服务。 光模块提升带宽的方法有两种:1)提高每个通道的比特速率,如直接提升波特率,或者保持波特率不变,使用复杂的调制解调方式(如PAM4);2)增加通道数,如提升并行光纤数量,或采用波分复用(CWDM、LWDM)。按照传输模式,光模块可分为并行和波分两种类型,其中并行方案主要应用在中短距传输场景中成本
    hycsystembella 2025-01-25 17:24 284浏览
  • 故障现象 一辆2007款日产天籁车,搭载VQ23发动机(气缸编号如图1所示,点火顺序为1-2-3-4-5-6),累计行驶里程约为21万km。车主反映,该车起步加速时偶尔抖动,且行驶中加速无力。 图1 VQ23发动机的气缸编号 故障诊断接车后试车,发动机怠速运转平稳,但只要换挡起步,稍微踩下一点加速踏板,就能感觉到车身明显抖动。用故障检测仪检测,发动机控制模块(ECM)无故障代码存储,且无失火数据流。用虹科Pico汽车示波器测量气缸1点火信号(COP点火信号)和曲轴位置传感器信
    虹科Pico汽车示波器 2025-01-23 10:46 256浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 913浏览
  • 书接上回:【2022年终总结】阳光总在风雨后,启航2023-面包板社区  https://mbb.eet-china.com/blog/468701-438244.html 总结2019,松山湖有个欧洲小镇-面包板社区  https://mbb.eet-china.com/blog/468701-413397.html        2025年该是总结下2024年的喜怒哀乐,有个好的开始,才能更好的面对2025年即将
    liweicheng 2025-01-24 23:18 255浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 651浏览
  • 不让汽车专美于前,近年来哈雷(Harley-Davidson)和本田(Honda)等大型重型机车大厂的旗下车款皆已陆续配备车载娱乐系统与语音助理,在路上也有越来越多的普通机车车主开始使用安全帽麦克风,在骑车时透过蓝牙连线执行语音搜寻地点导航、音乐播放控制或免持拨打接听电话等各种「机车语音助理」功能。客户背景与面临的挑战以本次分享的客户个案为例,该客户是一个跨国车用语音软件供货商,过往是与车厂合作开发前装车机为主,且有着多年的「汽车语音助理」产品经验。由于客户这次是首度跨足「机车语音助理」产品,因
    百佳泰测试实验室 2025-01-24 17:00 157浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 220浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 339浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 1148浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 399浏览
  • 项目展示①正面、反面②左侧、右侧项目源码:https://mbb.eet-china.com/download/316656.html前言为什么想到要做这个小玩意呢,作为一个死宅,懒得看手机,但又想要抬头就能看见时间和天气信息,于是就做个这么个小东西,放在示波器上面正好(示波器外壳有个小槽,刚好可以卡住)功能主要有,获取国家气象局的天气信息,还有实时的温湿度,主控采用ESP32,所以后续还可以开放更多奇奇怪怪的功能,比如油价信息、股票信息之类的,反正能联网可操作性就大多了原理图、PCB、面板设计
    小恶魔owo 2025-01-25 22:09 375浏览
  • 飞凌嵌入式基于瑞芯微RK3562系列处理器打造的FET3562J-C全国产核心板,是一款专为工业自动化及消费类电子设备设计的产品,凭借其强大的功能和灵活性,自上市以来得到了各行业客户的广泛关注。本文将详细介绍如何启动并测试RK3562J处理器的MCU,通过实际操作步骤,帮助各位工程师朋友更好地了解这款芯片。1、RK3562J处理器概述RK3562J处理器采用了4*Cortex-A53@1.8GHz+Cortex-M0@200MHz架构。其中,4个Cortex-A53核心作为主要核心,负责处理复杂
    飞凌嵌入式 2025-01-24 11:21 230浏览
  • 前篇文章中『服务器散热效能不佳有解吗?』提到气冷式的服务器其散热效能对于系统稳定度是非常重要的关键因素,同时也说明了百佳泰对于散热效能能提供的协助与服务。本篇将为您延伸说明我们如何进行评估,同时也会举例在测试过程中发现的问题及改善后的数据。AI服务器的散热架构三大重点:GPU导风罩:尝试不同的GPU导风罩架构,用以集中服务器进风量,加强对GPU的降温效果。GPU托盘:改动GPU托盘架构,验证出风面积大小对GPU散热的影想程度。CPU导风罩:尝试封闭CPU导风罩间隙,集中风流,验证CPU降温效果。
    百佳泰测试实验室 2025-01-24 16:58 134浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦