一位北漂创业的朋友,看过《长安三万里》之后,被感动得泪流满面。在他看来,自己和李白一样,都是被繁荣的盛唐气象所吸引,为了追逐“心中的长安”而一往无前。
一代人有一代人的“长安”,都渴望站到时代最核心的舞台上,实现理想、建功立业。数字经济,应该是我们这一代人,所拥有的黄金机会。
今年以来,大模型这样火爆的创新方向,以及由此而生的巨大机会,就像光辉万丈的长安一样,代表着增长、繁华,以及无限可能性,吸引着无数企业和创业者,想要投身其中。
然而,“梦到长安三万里,海风吹断碛西头”,长安是理想,和现实之间,隔着三万里路,并不容易抵达。
很多企业入局研发或应用大模型,却没有做好技术、成本、基础设施等一系列准备,就盲目踏上了旅程,其中的首要考验,就是存储。
IDC的《数据时代2025》报告显示,全球数据规模呈现井喷式增长,中国将成为全球最大数据源。海量数据中,语音、图片、视频等非结构化数据约占80%,与结构化数据相比,非结构化数据增长迅速、管理困难。存储降本,成为企业IT基础设施建设的重要议题。
举个例子,互联网企业/金融机构等普遍开展的数字化业务,有大量的音视频文件存储需求,需要庞大的存储资源。政府电子档案要求保存周期为5年甚至更长,公检法司数据要求保存周期至少30年以上……这些数据普遍处于10PB以上规模,假设归档存储按0.001元/GB/年计费,则用户30年存储成本将超过1亿元。
根据专家访谈,考虑行业及规模差异,企业存储成本约占IT基础设施整体成本的5%~30%,随着数据规模持续扩大,这一比例也将进一步加剧,带来的存储成本也不可小觑。
AIGC、大模型等智能化应用,海量非结构化数据对存储的极致成本效益提出了挑战,CPU、内存、磁盘三种资源的动态配比常常顾此失彼,存在浪费现象,日积月累形成了不小的成本压力。
这样看来,数据大爆炸的背景下,降低存储成本,已经成为各行各业数字化转型、智能化升级的前置条件。
这时候,京东云的真实业务实践和技术累积优势,就显现了出来。京东用二十年时间走过了数字化之路,已经构筑了支撑大规模业务的存储基础设施,并大规模应用于京东的各类业务之中。京东云既解决了存储基础设施方面的技术难题,也对存储成本进行了极致优化,让存储降本成为现实。
因此,数字经济的《存储三万里》该怎么跨越?我们不妨通过京东云自研分布式统一存储平台——“云海”,来一探究竟。
数字盛世,存储关山
试想一下,如果李白带着几大车沉重的行李,可能还没走到长安,就已经被行李负担拖慢了速度,被盗匪劫走了财物,为雇人保护行装而花光储蓄……而被劝退了。“银鞍照白马,飒沓如流星”,轻装上路,才有了诗仙的肆意飞扬、浪漫洒脱。
对数字化企业/政府来说,最宝贵的资产就是数据。而以SAN、NAS等集中式存储为代表的传统存储,就像马驮肩扛的行囊一样,在保存腾挪数据资产时,显得愈发捉襟见肘。
不仅会带来高昂的建设和维护成本,一旦遭遇外部威胁或故障,就容易影响业务的连续性,损伤用户体验,增加了运维复杂度和数据丢失风险。而且其扩展能力有限,无法很好支撑大模型这类大容量、高并发、高性能的应用场景。
所以,更加快速安全、敏捷灵活的分布式存储,成为一种强烈的需求,演化为存储的“今日之选”。
与传统集中式存储相比,分布式存储采用松耦合的系统架构,每个存储服务器节点都承担数据存储的功能,可以横向扩展、性能和容量随节点数量扩展线性提升,支持全冗余部署,保障业务连续性和数据安全性。
相当于李白们从西域到长安,不用全程将行囊背在身上,可以把沿途的多个城市当作站点,分别设成各自独立的存储节点,用统一的账册(软件系统)进行调度管理,省去了全程保存看守维护迁移的开销和人力成本。即使途中出现了意外,也可以通过其他站点快速解决,不影响后续的行程(业务),将损失降到最低。
在此基础上,“存算分离”技术应运而生。存算一体的架构下,计算和存储中只要有一个达到瓶颈,都会影响整体性能,导致业务应用停滞,存在大量的资源浪费,同时运维复杂、扩展受限、升级困难。而依托云平台的分布式存储,采用“存算分离”,可以将数据通过云上数据湖/仓库基础设施来存储,由微服务直接访问存取,无论是应用/数据哪个环节出了问题,都可以依托云平台的弹性和可扩展能力,快速解决。
可以简单理解为,将行李(数据存储)和用途(应用计算)分开,单独按需配置。这样就可以避免行李多用不完(资源浪费)或者行李少不够用(资源不足),优化计算资源利用率,旅客的综合成本就减少了,这是前往长安(数字化转型)成本最优的存储方案。
但是,实现存算分离的分布式存储架构,并非易事。主要面临以下问题:
1.性能损失。
存算分离有两种实现方式:一是自建机房,另一种是上云。自行部署存储系统,初始投资成本高,需要购买的硬件设备和该有的冗余副本一个也不能少。所以,绝大多数企业都选择交给云厂商,在云上构建存算分离架构,用户只需要按量付费。
但传统的云上分布式存储性能低下,读写慢、性能低于本地盘50%-70%,对于智能汽车、游戏等性能敏感型行业,延迟、卡顿问题十分明显,强行做存算分离,性能无法满足业务正常需求,所以企业不敢用、也用不了。
2.降本不明显。
自建机房中的存算分离架构,即使释放了计算节点,也无法收回成本,动态缩容是没有意义的,动态扩容又受到机房容量的影响,如果事先按照业务高峰规划了资源,那么在低谷时即使释放了计算节点,资源浪费的现象也依然存在。此外,分布式存储各集群的管理要求有差异,运维难度随之上升,风险预警难,故障定位慢,需要投入非常高的运维成本。
相比之下,云上的存算分离架构,这些条件由云服务商保障,在释放计算节点后,云厂商可以将这部分资源销售给其他客户,通过庞大的客户群将高昂成本进行摊销,对用户来说,是成本更低的方案。这就要求云存储服务商在用户规模、成本优势上,拉开显著差距。
3.可靠性存疑。
分布式存储分为开源和自研两条路线,目前主流的开源技术如Ceph、Swift、HDFS、GlusterFS、Lustre,均为国外技术并托管在国外开源社区,存在一定的供应链风险。在大规模部署时,开源存储产品的稳定性和安全性存在一定挑战。作为数据基础设施的存储,进行国产化替代,尤其需要注重自研能力,厂商对存储系统的性能、稳定性、安全性具备完全控制权,保证产品的性能和稳定性,最大化降低用户应用风险。对厂商的资金实力、研发能力、产品迭代优化等,提出了较高的要求。
可以看到,数据大爆发的时代背景下,存算分离架构会越来越有优势。
从集中式存储到分布式存储只是第一步,第二次升级是做到真正的存算分离,才能支撑大模型、AIGC、自动驾驶等高质量存储诉求,推动存储产品向更先进的存算分离架构演进,急需实力绝群、自主创新的技术力量带来改变。
先进存储,云海为桥
李白在《关山月》中写道:明月出天山,苍茫云海间。长风几万里,吹度玉门关。横亘在李白们和长安之间的迢迢路途,有没有一条“捷径”呢?
2012年,率先踏上数字化行程的京东,正式开启自研存储产品的研发,经过十余年的发展,这些关于存储的经验,都凝结为京东云的思考,以及自研分布式统一存储平台“云海”的核心能力。
具体来说,传统分布式存储像是地上的路,而“云海”更像是一座直达的桥,跨越了重重关卡,更快抵达先进存储的目的地。
第一,性能关。
零售电商高并发的业务特点以及金融对安全稳定的刚性需求,深刻影响着京东云对存储稳定性的理解及要求。在京东618奇迹的背后,离不开的极致性能与坚如磐石的稳定性支撑。
性能,对于电商直播、游戏、AI训练、自动驾驶等高性能计算场景是必备刚需。以AI训练为例,大模型参数规模已向万亿级迈进,数据的读写速度、搬运速度与吞吐量,会直接影响到模型训练效率。要缩短业务模型的训练迭代周期,底层存储必须具备极高的性能指标和并发能力。
作为京东云十年磨一剑的分布式存储产品,云海支持全冗余部署、多机房灾备,并不断融入无leader非仲裁协议、智能流控、智能化运维等技术,持续突破稳定性的能力极限。
同时,通过架构的革新,云海实现了跨越式的性能提升,在这两年的京东618中,基于云海的存算分离系统架构,使得原本由于性能问题很难全面实施的存算分离得以落地,面对吞吐量TB/s、IOPS上亿级的压力,依然能够提供顺滑的存储体验。
极致性能和稳定性支撑,让“云海”能够满足新兴复杂应用和井喷数据规模的存储需求。
第二,成本关。
无论业务规模大或小,IT基础设施的降本是企业永恒的追求。以京东为例,截至2023年Q2,京东在自营商品SKU达到千万级的基础上,库存周转天数继续保持着31.7天的全球领先水平,运营着超1600个物流仓库,超过56万名员工。如此庞大复杂体系的高效运转,每天产生着海量的数据,如何以最低的成本来存储,成为云海必须要解决的问题。
云海通过高性能支撑上层应用存算分离、EC超低冗余技术等,大幅提升磁盘物理使用率、得盘率与存储密度,全面优化存储成本。
今天,云海已实现1.1x级别副本的超低冗余存储,以及行业内最大规模QLC-SSD的落地,成本技术指标领跑行业,为数字经济的长期可持续发展奠定了基础。
第三,自主关。
京东完全掌握云海底层架构设计和核心代码主动权,核心技术自主可控,并就开源框架常见性能、稳定问题,进行了针对性优化。与所有主流国产化平台兼容互认,包括操作系统、数据库、中间件、服务器、CPU、主板、网卡、磁盘等,助力政企客户实现全面国产可控。
因此,“云海”可以在全面自主的基础上,保证存储性能,做到真替真用,打消了国产化替代的后顾之忧,全面满足政府客户、企业客户信创需求。
“云海”为桥,让存算分离的分布式存储不再遥远。那么,这股先进技术的“春风”,能否从京东内部实践吹向千行百业,抵达产业深处呢?
逐梦长安
接地气的技术理想主义
数字经济的繁荣,不仅需要李白的惊才绝艳,也需要高适的脚踏实地,将其一点一滴地践行。
作为数字新基建的先进存储,要结合各行业对云盘的具体业务诉求,真正落地并降本增效,是不能悬浮在天上的,要干苦活、累活。
《长安三万里》中,高适对李白说:你是谪仙人,要回天上。我是世间人,我在世间盘桓。
和现实中的产业站在一起,正是京东云脚踏实地、关注现实的一面。
京东集团技术委员会主席、京东云事业部总裁曹鹏曾提到,我们一直相信,技术进步来自产业实践,又反哺于产业发展。在“云海”存储身上,解决产业中实际而具体的存储问题,将存算分离的分布式存储真正落地,更将“高适”的那一面显现了出来。
为了让云海更适配产业诉求,京东云还做了大量工作:
首先是务实。自己的降落伞自己先跳,京东云基于京东集团内部丰富的存储应用场景,以及对降本提效的极致追求,推动云海实现由实际业务推动的高速迭代,验证云海的技术先进性、有效性、可靠性。
此外,京东云坚持让客户说话,让市场说话。“云海”与真实产业、现实场景结合的案例正在不断激增,在各行业显现出先进存储的真实价值:真省钱,京东云存储助力某大型消费金融公司打造存算分离大数据分析系统,实现有效降本;真可靠,京东云存储助力某政府部门建设稳定安全的国民养老保险平台,数据的安全合规存储,是项目首要需求;真可用,某自动驾驶公司依托京东云存储,构建高性能自动驾驶模型训练平台,大幅提高训练效率。这些真实的案例,帮助企业在数字化转型中,更加笃定地踏上先进存储这条必然之路。
另外,为了匹配中国企业的差异化特点和不同部署需求,京东云带来了更懂中国市场的多元化交付模式。全新发布了云海一体机,可同时支持纯软授权或软硬一体机形式独立交付,也可作为存储标准化产品,以纯软或软硬一体机的形式集成在解决方案中输出,让客户有更灵活的选择。
用李白的逸兴飞扬,展技术壮志;用高适的脚踏实地,向产业落地。云海的一体两面,正是数字中国所需要的技术理想主义。
在先进存储的底座上,掘金数字时代,是我们这一代人的盛唐,是值得追逐的《长安三万里》。
和云伙伴一同前行,这条数字化之路就不再孤单,也终将抵达。