2023年,是大模型商业化落地元年。根据《2023爱分析·中国大模型市场商业化进展研究报告》,2023年中国大模型市场规模约为50亿元,预计2024年将达到120亿元。
大模型表现出的强大的理解、生成和推理能力,让各行各业的企业用户普遍预期大模型将带来巨大甚至变革性的价值,纷纷探索大模型的落地应用。可以预见的是,大模型将引发新一轮AI应用建设浪潮。同时,为了支撑大模型时代的AI应用,企业IT基础设施也将被重塑。01
在大模型落地过程中,算力、数据和算法是三大支撑要素,而其中算力需求最先迎来爆发。在当前探索可研和试点应用阶段,企业一般从大模型训练和微调入手,而基于大数据量、大规模参数进行的大模型训练,需要消耗大量算力资源。例如,根据OpenAI公开信息,13亿参数规模的GPT-3 XL模型,训练一次需要的算力约为27.5 PFlop/s-day(每秒千万亿次运算一天)。大模型时代,算力日益成为数字经济的新型生产力。随着未来大模型技术向多模态等方向演进,参数量将持续膨胀,算力需求还将呈指数级增长。同时,传统自建集群、云服务租用等算力供给方式,将在性能和成本上面临挑战,算力基础设施需要向以智算中心为代表的先进算力进行升级。1.2 先进算力存在“木桶效应”,存力是容易被忽视的短板在此背景下,国家政策层面也高度重视算力发展。2023年10月,工业和信息化部等6部门联合印发了《算力基础设施高质量发展行动计划》(以下简称《行动计划》)。《行动计划》指出,算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,强调计算、网络、存储和应用需要协同创新、共同发展。图1:算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力值得注意的是,本次《行动计划》高度重视先进存力的建设。主要目标方面,明确提出到2025年存储总量超过 1800EB 、先进存储容量占比达30% 以上的目标;同时,将“强化存力高效灵活保障”列入重点任务之一,提出了加速存力技术研发应用、持续提升存储产业能力 、推动存算网协同发展等具体任务和相应措施。其中,先进存储是指应用全闪存阵列、SSD 等先进存储部件,采用存算分离、高密等先进技术,单位容量数据操作能力达到万 IOPS(每秒读写次数)以上的存储模块。在大模型算力建设方面,企业普遍将注意力投向价格高昂、技术供给上有卡脖子风险的GPU。相比以GPU为代表的计算力,存力的重要性往往被忽视。但事实上,大模型对算力的要求如此之高,必须依托由高性能计算芯片、存储和网络共同构成的大规模算力集群。而算力集群存在“木桶效应”,如果存储和网络性能无法支撑大规模数据存储、读写和传输,高性能计算芯片也用武之地,价值将大打折扣,最终影响大模型训练效率。因此,作为AI算力基础设施的关键组成部分之一,先进存力同样是大模型落地的前提条件。大模型训练等场景对于存力提出了一系列新挑战,而存力也往往容易成为“木桶效应”中的短板,制约计算力的效能发挥,成为大模型落地过程中潜藏的风险。金融行业走在大模型落地前列,AI先进存力面临突出挑战在AI先进存力建设方面,大模型落地进展走在前列的金融行业面临的挑战具有代表性。2.1 金融是大模型落地领军行业,且重视大模型自主能力建设金融行业包括银行、保险、证券等,是大模型落地的领军行业,也是《行动计划》中提出的“深化算力赋能行业应用”重点行业之一。根据公开信息,大量金融机构尤其是头部金融机已经开始落地大模型场景应用,并自建大模型能力。图2:部分金融机构大模型落地动态
金融行业具备大模型落地的良好条件。一方面,金融机构的数字化成熟度和AI应用成熟度都比较高,因此具备良好的数据基础、较强的算法技术能力,以及众多潜在的大模型应用场景,为大模型落地提供了坚实的基础。另一方面,金融机构向来重视数字化转型,数字化预算投入较高,且以央国企为主,在大模型算力投入方面具备较强实力和意愿。根据爱分析调研,金融行业典型的大模型应用场景包括数据分析、智能问答、智能客服、数字营业厅、智能投顾、智能投研、营销内容生成、产品推荐、智能风控等,部分场景已进入试点应用阶段。这些应用场景可以帮助金融机构进一步改善客户体验、提效降本,甚至有机会带来业务重塑的变革性价值。例如,在数字营业厅场景,未来基于大模型支持的数字人具备强大的用户交互和任务执行能力,可以直接帮助客户办理业务、推荐产品完成交易,从而创造新的渠道。能力建设和应用建设是当前企业用户落地大模型的两种主要方式。对于头部金融机构而言,大模型作为变革性技术,需要实现能力内化,因此普遍采用能力建设的方式,在应用场景中优先调用自有大模型,而非直接采购外部大模型和相关应用。为了进行大模型能力建设,金融机构需要训练和部署自有大模型,且模型参数量往往在千亿级。2.2 金融行业需要可用、可信、可控的AI先进存力在重视大模型能力建设的背景下,金融机构必须构建起坚实的智能算力基础设施,以支撑大模型的高效训练和部署。具体到存力方面,金融机构也面临一系列新挑战,对于AI先进存力的需求可以总结为三方面:可用、可信、可控。图3:金融行业对于AI先进存力的需求
2.2.1 可用:“三高一低” 极致性能,提升算力资源利用率大模型场景对于存力有着高吞吐、高IOPS、高带宽、低延时的极致性能要求。尤其是大模型训练环节,其数据量大、参数规模大、训练周期长、投资规模大等特点是传统AI场景所不具备的,因此为传统AI场景而构建的基于开源技术或商业化产品的存力难以满足性能需求,众多头部金融机构开始着手重新规划和建设适应大模型时代的存力基础设施。具体来看,大模型的落地可以分为数据采集与处理、模型开发、模型训练、模型上线与运营等环节,各环节对于存储都提出了相应的性能和功能层面的需求。图4:大模型场景对存储的需求
在数据采集与处理环节,需要将分散在企业各个业务系统、数据湖、数据仓库等多种来源的海量数据归集起来进行预处理,这些数据类型多元,协议复杂多样。为了做到数据的快速高效归集以及清洗、过滤、去重等处理,就需要存储系统支持高吞吐和大容量,同时支持多协议数据互通,兼容性好。在模型开发环节,需要对持续更新的跨系统数据源进行统一、便捷的处理操作,实现数据共享与交互,这就要求存储系统具备较好的兼容性,支持标准POSIX语义兼容,支持多平台对接如Hadoop、CSI等,以实现整个数据生态中的数据高效共享。模型训练环节是整个大模型落地的重中之重,时间周期长、资源消耗大,训练结果直接影响模型的任务表现,对于存储系统的考验也最大。第一,为了提升大模型训练速度,需要对大规模数据集进行快速加载,且一般采用数百甚至上万张GPU构成计算集群进行高效的并行计算,需要高并发I/O处理。一旦存储系统无法及时将数据加载到GPU中,就会使得昂贵的算力资源处于等待状态,造成资源浪费和训练周期拉长。在同样的GPU算力规模下,存储性能的高低可能造成模型训练周期数倍的差异。因此,存储系统需要具备千万级IOPS、GB级带宽、微秒级延时的极致性能,以提升GPU资源利用率。第二,大模型训练数据集一般以文档、图片、音视频等非结构化数据为主,呈现海量小文件的特点,即单个文件通常很小,在几十字节到几百kb级别,但文件数量庞大,在几亿到几十亿量级。这就要求存储系统具备强大的元数据管理能力,从而支持海量小文件的高吞吐。此外,在长周期的训练过程中,由于软硬件系统稳定性和模型调优等方面的问题,大模型训练往往容易出现中断,而训练中断非常影响训练效率。这一方面要求存储系统本身具备高可用性,避免因为存储系统的硬件故障、数据一致性错误等问题出现训练中断;另一方面,也要求存储系统在出现训练中断时,能实现checkpoint 的快速保存和加载,快速恢复训练状态,尽可能减少中断时间。在模型上线与运营阶段,一般需要对模型效果进行评估,并持续快速迭代模型,这同样要求存储系统支持高并发、高吞吐,提高模型运营环节的效率。2.2.2 可信:满足金融行业信创要求,并破解国产硬件性能瓶颈在满足以上极致性能要求的前提下,金融机构在先进存力建设中还需要考虑信创适配问题。金融行业在国民经济中地位关键,且央国企占主导,是信创重点行业,在政策要求下正在加速推动信创进程,目前在进行第三期信创试点。大模型和大模型算力基础设施作为下一代关键技术,也必然要满足信创适配要求,保证核心技术的自主可控。因此,国外存储厂商的商业化产品虽然在性能上整体领先,但无法作为优先选择。对于国内厂商,则需要验证其技术自主可控能力,以及产品与周边信创生态软硬件系统的兼容性。同时,为了满足信创要求,金融机构在建设存储系统中需要采用大量国产硬件,在当前阶段仍存在性能不足问题。为解决这一矛盾,需要存储系统在软件层面通过算法等技术实现性能优化,避免国产硬件限制了整体性能。在AI先进存力建设方面,金融机构还需要尽可能降低成本。一方面,大模型整体需要巨大投入,且短期内业务收益并不直接,需要在各方面投入上尽量把控成本;另一方面,为了解决大量数据的存储需求,金融机构在大容量、高性能存储系统软硬件本身的投入也非常可观,单次投入在数百万至数千万级别,存在成本优化的空间。因此,在满足功能与性能要求的前提下,存储系统需要能通过兼容和利旧低成本硬件、提升磁盘空间利用率等方式降低TCO。此外,金融机构在采购存储系统时,为了保证自身大模型能力建设的自主性和灵活性,还有软硬件解耦的需求,即独立采购存储硬件和软件,避免硬件绑定。一方面,软硬件解耦可以使金融机构在采购时更加灵活,根据实际需求选择最适合的软硬件产品,有助于降低采购成本。另一方面,通过软硬件解耦,金融机构可以根据业务发展需求快速独立调整硬件和软件配置,提高系统的稳定性和可维护性。而存储系统本身是软件和硬件的高度融合,在软件定义存储的趋势下,尤其要求存储厂商的软件产品具备高度的硬件兼容性,且在合作模式上更加开放和灵活。典型解决方案:京东云云海分布式存储系统,助力金融机构大模型落地伴随着大模型等技术应用对先进存力需求的增长,先进存储技术也在快速发展,结合分布式存储、全闪存、蓝光存储、硬件高密、数据缩减、编码算法、芯片卸载、多协议数据互通、RDMA网络等技术,构建新一代存储解决方案。国内厂商和产品在先进存力发展中逐渐扮演着越来越重要的角色,京东云云海分布式存储就是其中具有代表性的典型解决方案。云海是京东云自研的分布式统一存储平台,从2012年开始启动研发,经过十余年的发展,基于新一代存储架构的云海于2022年正式对外发布。云海根植于京东集团内部万亿级营收业务体量下的最佳实践,并面向互联网、金融、运营商、政府、汽车等行业客户提供多场景下稳定、高性能的存储解决方案。图5:云海存储技术架构图
从技术架构来看,云海以全自研统一引擎为底座,提供块存储、分布式文件存储、并行文件存储、对象存储、大数据存储等5种存储服务。支持标准X86服务器和各类国产化服务器,具备极致性能、低成本、高稳定、自主、安全、统一存储等特点,可充分满足存算分离、高性能计算、AI训练、大数据底层存储等新兴场景,以及音视频存储、图片存储、数据报表、灾备存储、传统存储替代等传统场景的存储需求。3.2 基于全自研统一底座,为金融机构大模型场景提供AI先进存力面向以金融机构为代表的大模型场景,云海分布式存储产品基于全自研的统一底座,具备高性能、强兼容性、低成本的优势,同时能很好地满足金融机构对于信创和软硬件解耦的需求。目前,云海分布式存储已服务数家头部商业银行和证券公司的大模型算力基础设施建设。在性能方面,云海自研引擎采用全追加写模型,相比日志机制减少了读写时间并避免了日志盘性能瓶颈问题,融合超低延时RDMA网络及软件架构优化,4K随机写IOPS达到100万时,平均延迟仍在100μs内,I/O性能接近本地NVMe磁盘。在大模型训练的并行文件存储下,单文件系统支持千万级IOPS,上千台服务器同时并发访问;单客户端数据200μs延迟和数百GB/s的读写吞吐(物理网卡上限等限制)。在高性能的同时,云海产品的稳定性经过了京东自身海量数据规模和复杂场景的考验。在兼容性方面,云海以全自研统一底座为引擎,统一平台下,相同数据支持多种协议访问,有效打破数据孤岛,实现数据互通,大幅提升大模型场景下数据共享效率。对于金融机构的信创适配需求,云海可兼容全系列国产软硬件,已与所有主流国产化平台兼容互认,包括操作系统、数据库、中间件、服务器、CPU、主板、网卡、SSD等,并基于全局无锁架构充分发挥国产硬件能力。同时,云海本身是京东100% 自研产品,核心技术完全自主可控。在成本方面,云海形成了低至1.1x副本的业内超低冗余的EC存储,并在生产环境成熟使用,提升磁盘空间利用率。此外,云海的架构设计对低成本TLC/QLC-SSD友好,可有效弥补TLC/QLC随机写性能及寿命的缺陷,全面使用TLC/QLC存储介质。整体上,云海对于各类硬件设备的兼容性良好,可以很好地利用廉价存储硬件和企业旧有存储硬件。此外,云海提供灵活的交付模式,可同时支持纯软授权或软硬一体机形式的独立交付,也可作为存储标准化产品,以纯软或软硬一体机的形式被集成在解决方案中输出,为金融机构提供自主选择权,避免软硬件绑定。3.3.1 某国有大行基于云海构建存力底座,提升大模型整体能力某银行作为国有大型商业银行,近几年积极响应国家号召,坚持科技创新,用科技手段助力业务创新,提升核心竞争能力。在大模型浪潮下,该银行开始将AIGC引入业务实践,尝试不同业务场景的应用。同时,在人工智能战略规划和实施路径的指引下,该银行通过自建大模型平台来构建大模型自助能力。该银行大模型的平台中,数据系统、AI平台、大模型应用三者构成闭环。各环节间的衔接,则需要通过存储平台来实现数据广泛、高效的流动。在存储平台方面,面临以下痛点:数据准备和预处理过程复杂,耗时长;原有存储非协议融合方式,数据无法在不同的存储节点间迁移和高效流动,严重影响了大模型运行效率。
正常大模型应用读需求在读40G、写20G,而原有存储系统的性能无法达到要求,导致大模型训练时效慢,训练受影响。
海量小文件处理读写速度缓慢,限制了整个大模型训练的效率。
因性能不足,checkpoint时刻造成一定时间的等待,有时会退回到前一节点,产生算力空置的等待时间。
该银行与京东云合作,基于云海存储产品构建存储平台,提供了以下解决方案:采用数据与元数据分离存储的架构,从而实现文件系统的分布式设计,同一文件系统可在上千台服务器同时挂载,实现高性能并发读写,共享数据。
云海分布式存储集群支持原生的POSIX语义,支持rename,保证任务的稳定性和性能,加速数据准备和预处理过程。
单一命名空间可支撑百亿级文件;提供强一致性保证,内建缓存加速机制,保证数据强一致性和高性能,实现海量小文件高吞吐。
存储系统API不变,兼容性如POSIX\HDFS等,像本地文件系统一样使用,无缝对接应用,无业务侵入性。
基于以上特性,该银行的存储平台具备强大的读写性能,大幅提升了大模型训练效率。在存储空间方面,满足大模型训练的海量数据存储需求,并且有效降低了成本。此外,平台采用统一分布式存储的方式,有效解决了数据系统、AI平台,大模型应用三者数据高效流动的问题,从而达到降本增效。3.3.2 某券商基于云海构建统一云原生存储架构体系,支撑“小微化、高频化”业务新模式某券商拥有多功能协调发展的金融业务体系,经营范围覆盖证券经纪、证券投资咨询、财务顾问等。为了支撑业务发展,该券商需要进行系统架构的全面云原生化升级,其中也涉及分布式存储的云服务。升级后的存储架构需要提供多业务场景的存储服务,对接云原生场景,要求支持多种语义(HDFS / POSIX / S3)兼容,与主流计算引擎(Spark、Presto、Hive 等)无缝衔接,支持存储空间无限扩展,同时支撑高性能和低成本两种场景,并实现较低的运维成本。资源利用率低:用户大数据存算一体,扩展困难,造成资源浪费。
无存储方案:用户的容器缺少持久化存储方案。
使用中的NAS存储存在性能不足、连接不稳定、故障难恢复等诸多问题。
不灵活:存储架构不够灵活,难以适应“小微化、高频化”的业务新模式,无法支撑业务系统快速上线和快速变更。
图6:基于云海分布式存储搭建统一存储平台
在此背景下,该券商基于云海分布式存储搭建了新的统一存储平台。基于云海分布式存储的特性,升级后的存储平台具备以下特点:实现了存算分离,计算和存储资源可以按需分配和资源共享。
支持多种语义(HDFS/ POSIX / S3等)兼容,并与主流计算引擎无缝衔接。
同时满足低成本和高性能两类场景的需求,使用RDMA技术,传输延迟显著减小,实现低延时、低CPU开销、高带宽。
对比开源的Ceph,在协议支持、性能与稳定性、安装配置与运维管理特性等方面均有较大的优势。
实现统一云原生存储架构体系升级后,该券商构建了超大规模数据湖,统一管理结构化与非结构化数据,实现数据高效存储与流动,满足了“小微化、高频化”的业务新模式,支撑证券业务系统频繁变更。同时,存储平台兼容多存储接口类型,与用户业务系统无缝链接。04
展望未来,大模型时代的到来将推动新一轮的以智能算力为特征的算力基础设施建设,先进存力是其中至关重要的组成部分。
对于金融机构而言,要顺利推进大模型能力与应用建设,必须先夯实算力基础设施。相比计算力、网络可以通过直接采购成熟产品服务快速形成能力,软硬件高度融合且更具开放性的存力建设具有更大的挑战性。金融机构应当提升对存力建设的重视度,同时在算力基础设施建设中进行前瞻性的统筹规划,做好存力与计算力、网络的匹配,避免出现存力短板,阻碍大模型落地进程。
注:点击左下角“阅读原文”,下载完整版《金融行业先进AI存力报告》。