专注百亿算力市场,这家存储厂商已为多个千卡智算中心降本增效丨爱分析调研

原创 爱分析ifenxi 2024-12-11 18:02
01
存储产品对智算中心精细化运营起到重要作用

从2023年开始,政策支持和生成式AI需求驱动整个智算中心市场迎来爆发式增长。根据市场调研数据,2023年中国智算服务市场整体规模达到194.2亿元,其中2023年下半年整体规模达到114.1亿元,同比增长85.8%。

从2024年下半年开始,不少智算中心已完成投资建设工作,进入到运营阶段,如何精细化运营,最大化发挥算力资产价值,降低运营成本是每个智算中心关注的问题,存储产品选型是一项重要但又容易被忽视的工作。

在智算中心建设阶段,存储占整体预算在5-10%,远低于占比60-70%的GPU投入,但在运营阶段,存储产品对提升算力利用率、降低运营成本起到了重要作用。

首先,英伟达等GPU产品算力持续不断提升,2023年多数智算中心采购的是A100 GPU,2024年普遍换成了H100,算力带宽从200G提升至400G,对存储软硬件架构提出新的要求。如果存储产品无法匹配400G带宽要求,这对智算中心运营商来说是算力的巨大浪费。

其次,通过数据自由流动、冷热分离等方式降低存储成本,是智算中心运营商都希望实现的功能,特别是在2024年闪存售价上涨15%的背景下。同时,智算中心希望尽可能降低运维成本,整个数据流动过程最好是业务无感知、自动化完成,对存储产品功能提出更高要求。

再次,很多智算中心为了满足当前信创要求,同时会购买华为、寒武纪等国产厂商的算力集群,每套算力集群单独搭配一个存储设备有些浪费,智算中心运营商希望通过统一存储来适配异构算力,这样可以节省空间和资源。

02

基于NVMe over RDMA架构的存储产品成为行业共识

相比传统数据中心,智算中心对存储产品提出更高要求,新一代存储产品必须在存储介质、存储网络等方面有适配AI场景的技术特点。

存储介质方面,目前全闪已经成为行业共识,混闪介质更多是服务于数据流动场景,用于冷数据存储等。在全闪阵列中,存储技术NVMe(Nonvolatile Memory Express)已经全面取代SATA(Serial Advanced Technology Attachment)成为主流,NVMe利用服务器中的PCIe高速总线,将其直连服务器,从而减少了CPU开销,降低延迟,提升IOPS和吞吐量。

存储网络方面,越来越多用户开始接受RDMA(Remote Direct Memory Access)协议,替代传统TCP/IP协议。RDMA协议的特点是允许两台服务器直接读写对方的内存,而无需经过任何一台服务器,这带来两方面好处。一方面,基于RDMA协议能够实现高速传输数据,这在AI模型训练场景是至关重要的影响因素。另一方面,基于RDMA协议可以释放CPU,考虑到国产CPU产品的性能略逊于海外产品,这让CPU的性能劣势不会影响到存储产品性能。

03 

AI存储厂商选型:性能、稳定可靠、功能

智算中心等企业用户在选型存储产品时,重点考量三个方面:性能、稳定可靠和功能。

性能层面,正如前文所言,智算中心的GPU硬件已经升级至400G带宽,未来甚至会迭代至800G带宽,存储产品性能必须能跟上GPU性能提升,否则对智算中心而言是硬件上很大的浪费和损失。

稳定可靠对于智算中心越来越重要,整个智算中心市场逐步进入到运营阶段,加上现阶段有大量算力需求的主要集中在头部互联网公司和AI大模型厂商,智算中心之间的竞争势必越来越激烈。作为基础设施服务,稳定可靠一定是企业用户关注重点,存储又直接影响到企业用户最核心的训练数据,智算中心在采购存储产品时一定会关注稳定可靠性,看重厂商过往服务案例和经验。

冷热数据流动、数据安全、额度分配等功能是智算中心所需要的,存储厂商的产品需要能够支持上述功能,同时,这些功能最好是集成到产品中自动化实现,不需要太多人工干预。

04 

AI存储代表厂商:极客天成

国内市场提供AI存储产品的原厂主要分成国际大厂和本土厂商。国际大厂包含IBM(GPFS)、DDN、VAST Data等,本土厂商一类是华为、中科曙光等IT综合服务商,另一类是以极客天成、焱融科技、XSKY为代表的专注存储产品厂商,极客天成作为一家2016年成立的基于RDMA技术的存储厂商值得关注。

极客天成的主要产品是极客追光全闪一体机,提供100% 的 NVMe 存储介质和多种高速连接主机接口选项。2U NVMe 平台是业界最快的存储解决方案之一,速度达120GB/s,并且以最小的外形尺寸交付多达24块 NVMe 固态硬盘(SSD),主要应用数据实时分析、深度学习、AI药物研发、大模型训练等场景。

相比其他存储厂商,极客天成在成立之初就确定了RDMA技术方向,分布式并行文件存储NVFile、分布式块存储NVMatrix、分布式对象存储NVObject都是基于RDMA技术底座。

极客天成的文件存储产品采取全内核态的软件架构,这使得数据流动可以在内核态进行,不需要传到用户空间,数据交换效率最高。全内核态软件架构的存储产品对用户有两方面好处,第一,内核态存储产品能够跟上NVME技术提升带来的硬件升级,使得存储产品能够持续利用到硬件迭代带来的性能提升;第二,内核态存储产品在部署上更加灵活,极客天成的产品支持纯软件部署和软硬一体方案,能够适配到不同场景。

面向国内企业用户,极客天成的产品还具备两点优势。一方面,顺应国产化替代趋势,极客天成产品已完成对鲲鹏、海光、飞腾等国产CPU和华为昇腾、寒武纪等国产GPU芯片的适配。另一方面,极客天成没有盲目跟踪Share Everything架构,而是采取Share Nothing架构,主要是考虑到需要适配不同客户的硬件设备,ShareEverything架构尽管在性能上可以做到更强,但需要客户购买一体化硬件设备,在中国是比较难落地的。

产品功能上,极客天成能够实现数据冷热自动分级,降低智算中心运营维护成本。整个数据流动方案可以自动化执行,不需要由太多运维人员操作,降低操作风险。

尽管相较IT大厂,极客天成公司存续时间不长,但已经在金融证券、医疗、电信等领域有诸多客户案例,面向AIGC、量化投研等场景部署了千卡GPU训练集群,是专注存储产品厂商中落地部署千卡集群数量最多的厂商之一,产品的稳定可靠性得到初步验证。

注:点击左下角“阅读原文”,前往爱分析官网获取更多内容



爱分析ifenxi 爱分析是一家中国领先的数字化市场研究与咨询机构。
评论
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 84浏览
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 49浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 66浏览
  • 【萤火工场CEM5826-M11测评】OLED显示雷达数据本文结合之前关于串口打印雷达监测数据的研究,进一步扩展至 OLED 屏幕显示。该项目整体分为两部分: 一、框架显示; 二、数据采集与填充显示。为了减小 MCU 负担,采用 局部刷新 的方案。1. 显示框架所需库函数 Wire.h 、Adafruit_GFX.h 、Adafruit_SSD1306.h . 代码#include #include #include #include "logo_128x64.h"#include "logo_
    无垠的广袤 2024-12-10 14:03 69浏览
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 47浏览
  • 智能汽车可替换LED前照灯控制运行的原理涉及多个方面,包括自适应前照灯系统(AFS)的工作原理、传感器的应用、步进电机的控制以及模糊控制策略等。当下时代的智能汽车灯光控制系统通过车载网关控制单元集中控制,表现特殊点的有特斯拉,仅通过前车身控制器,整个系统就包括了灯光旋转开关、车灯变光开关、左LED前照灯总成、右LED前照灯总成、转向柱电子控制单元、CAN数据总线接口、组合仪表控制单元、车载网关控制单元等器件。变光开关、转向开关和辅助操作系统一般连为一体,开关之间通过内部线束和转向柱装置连接为多,
    lauguo2013 2024-12-10 15:53 81浏览
  • 概述 通过前面的研究学习,已经可以在CycloneVGX器件中成功实现完整的TDC(或者说完整的TDL,即延时线),测试结果也比较满足,解决了超大BIN尺寸以及大量0尺寸BIN的问题,但是还是存在一些之前系列器件还未遇到的问题,这些问题将在本文中进行详细描述介绍。 在五代Cyclone器件内部系统时钟受限的情况下,意味着大量逻辑资源将被浪费在于实现较大长度的TDL上面。是否可以找到方法可以对此前TDL的长度进行优化呢?本文还将探讨这个问题。TDC前段BIN颗粒堵塞问题分析 将延时链在逻辑中实现后
    coyoo 2024-12-10 13:28 101浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 74浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 70浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-10 16:13 105浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 136浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦