在此背景下,2024年4月26日,爱分析正式发布《2024爱分析·数据库应用实践报告》。
点击文末左下角“阅读原文”,可下载完整版《2024爱分析·数据库应用实践报告》。
报告典型案例
01
在信创政策、技术创新和业务需求等因素共同驱动下,我国数据库市场保持快速发展,据大数据技术标准推进委员会测算,2022年中国数据库市场规模为403.6亿元,预计2027年将达到1286.8亿元,年复合增长率为26.1%。
政策端:信创自主可控推动数据库国产化加速
信创已经成为国家战略之一,通过发展信创产业实现信息技术领域的自主可控,保障国家信息安全是国家经济稳定发展的前提。随着大量中央及地方信创相关政策的出台,信创在“2+8+N”行业加速落地。其中数据库作为承载企业数据存储和管理的基础设施,是信创基础软件的替换重点,国产数据库市场迎来加速发展的黄金时期。
在信创政策推动下,以金融、电信、政府、制造、交通为代表的行业对国产数据库需求旺盛,未来,随着信创在更多行业的落地,国产数据库厂商将迎来巨大的市场空间,这也为国产数据库突破核心技术、储备技术人才、丰富产品形态提供发展契机。
技术端:AI、云计算与数据库融合加深,大数据、IoT技术催生数据库品类日益丰富
随着大模型落地加快,大模型与数据库的融合场景愈加成熟,如将生成式AI技术与数据库结构设计、架构设计、数据分析挖掘等场景结合,能有效提升数据库开发、运维和分析效率,正成为数据库厂商智能工具开发新方向。
上云是企业数字化转型的重要战略。为适应云应用的研发需求,数据库厂商正联合云厂商推出云数据库产品,为用户提供高效、便捷的数据库服务,如基于云计算的数据库即服务(DBaaS),支持用户在云端访问和使用数据库系统,可提供灵活的数据库管理解决方案。进一步,云计算中的无服务架构(Serverless)技术和服务模式逐渐成熟,其极致的可扩展性和资源细粒度自动控制的特点,使Serverless成为云厂商的重点布局。
此外,大数据、IoT技术的快速发展,使企业数据体量呈爆炸式增长,同时带来异常丰富的数据类型,如时序、GIS、图像、视频、文本等数据类型日益丰富,推动图数据库、时序数据库、时空数据库、文档数据库等各种专用数据库涌现并快速发展。
需求端:企业分析需求多元化促进分析型数据库技术更新迭代
随着数据资产的积累,企业正将数据分析广泛的应用到各个业务中,对分析型数据库的需求也从结构化数据、T+1周期分析,变成海量、多源异构、高并发、实时等复合需求,推动数据库从性能、可扩展性、架构等多方面持续迭代。
在以上背景下,本报告选择分析型数据库和云原生数据库市场作为重点研究对象,围绕两个市场的典型应用实践展开研究。
分析型数据库
随着市场的快速变化和数据资产的快速增长,企业对数据分析的应用愈加广泛,对数据分析的性能要求也越来越高。在场景方面,除固定报表外,自助式分析、即席分析、复杂分析、预测分类场景也日益普遍,正成为企业日常经营的必要手段。在性能方面,以精准营销、风险控制、经营统计为代表的企业实时和准实时业务决策场景在快速增加。而基于Oracle、MySQL搭建的传统查询分析引擎在以上场景中表现严重不足,如在对海量数据高并发、实时查询场景响应缓慢,难以适应跨系统的多源异构数据的联邦查询,难以支持复杂分析的准实时场景等。
针对以上挑战,分析型数据库厂商采用多种手段满足企业复杂场景下的性能需求,如优化存储和计算架构,存储上采用存算分离架构,计算上采用分布式计算、MPP或全内存等架构;如通过外表联邦查询、湖仓一体满足对跨系统多元异构数据的融合分析;以及通过预计算、索引优化、物化视图、向量化执行引擎等多种方式提升固定报表、复杂查询的查询速度等。
典型案例1:中通快运重构数据中心,满足业务多种复杂分析需求
传统架构难以适应业务快速发展
中通快运率先在业内提出“数字快运”概念,在产品可追溯、物流智能管理、智慧供应链、辅助决策系统等方面持续投入。中通快运在数字化之初,搭建了基于Oracle的数据分析环境。近年来,中通快运业务规模保持快速增长,日快递单量能达到50万票,考虑到下单、揽件、运输、分拣、中转、签收等各个节点的操作,单表的最大写入量能达到20亿条,业务对海量数据、高并发、实时分析的复杂需求日益高涨,这为中通快运的IT系统带来严峻挑战,具体如下:
1. 传统架构设计混乱,横向扩容受阻,系统性能面临瓶颈
中通快运传统架构在建立之初,为解决运营操作问题,软件开发中的数据分析和业务操作都在大运主库Oracle中实现,分析数据和业务操作数据杂糅,业务逻辑和数据逻辑均通过Java应用程序实现,所有表之间存在复杂的级联关系。并且,IT部门普遍以大运主库OGG同步的方式开发数据服务,使得底层数据架构的复杂程度进一步升级,成为主库横向扩容的阻碍。虽然中通快运通过对主库进行了纵向升级,但OGG同步路线的快速增长已经逐步消耗掉主库纵向升级带来的性能提升。
此外,中通快运传统架构中以宽表的方式进行数据建模,一旦业务运营模式发生变化,需要对宽表进行调整或重构形成复杂的数据模型,如多个表之间存在多对多、嵌套关系等,导致数据同步困难,难以满足业务对数据分析的时效要求。
2. 难以满足业务日益广泛的复杂分析需求
为保证业务正常运行,主库Oracle中只能存储3-6个月的数据,更早的数据则以文件格式进行备份。然而业务部门对数据分析的应用场景愈发普遍,并涌现出更多复杂分析场景,如车辆调度、路线规划、仓储管理、用户需求预测等越来越多的场景需要基于大跨度的历史数据进行预测分析,但备份中的数据难以调用。
3.开发和部署方式呈现烟囱式,无法快速响应业务变化
中通快运的系统之间相互独立,多年来对业务需求的支持以烟囱式开发为主,缺乏统一的数据规范,使得数据开发过程需花费大量时间处理数据格式、数据一致性等质量问题,造成数据开发效率缓慢,同时也带来重复开发、资源浪费的问题。
在对业务和数据反复思考过程中,中通快运大数据团队意识到,只有推动系统架构设计和业务运作流程同时演进,才能实现数据赋能。这意味着大数据团队不能仅仅作为一个支撑部门,更要具有主动赋能的意识。
为推动业务流程变革,中通快运大数据团队开始推动集团高层重新定位部门价值,将数据部门确定为业务赋能核心,纳入业务战略规划中。同时,数据团队与业务部门紧密合作,理解业务需求,提供相应的数据服务和解决方案,实现数据驱动的业务决策和优化。
在技术支持上,IT部门对数据中心的系统架构进行重构,并着重解决大数据量、高并发、实时场景下的OLAP分析问题。在陆续使用过HBase、Clickhouse等数据库后,中通快运将目光转向开源数据库,并有两点核心诉求:1)功能上,数据库需具备强大的联表查询能力,且支持大数据量、高并发、实时分析等场景;2)运维支持上,中通快运IT资源有限,并且需要将更多资源投入业务支持中,因此要求数据库具有简易运维的特点,且有商业厂商做支撑。综合考虑数据库功能和中投入产出比,中通快运最终选择与基于StarRocks的商业化公司镜舟科技一起解决核心OLAP分析问题。
北京镜舟科技有限公司致力于帮助中国企业建立卓越的数据分析系统,形成自己的“数据护城河”,旗下产品镜舟分析型数据库和镜舟湖仓分析引擎是基于 StarRocks 发展起来的企业级商用数据库,支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据,同时具备水平扩展、高可用、高可靠、易运维等特性。镜舟科技服务70亿元以上客户数量超过350家,包括不限于腾讯、携程、平安银行、中原银行、中信建投、招商证券、众安保险、大润发等企业。
重构数据中心架构,建设实时、准实时和大跨度大数据量三层数据服务能力
中通快运数据中心系统架构设计上,主要实现了两个关键点:1.对操作和分析进行解耦,将数据查询任务与DML任务隔离。2.对数据服务能力进行分层,按照实时、准实时和大跨度大数据量三层的服务能力。具体来看:
面向(一年期内)大数据、高并发、实时要求高的分析场景,镜舟湖仓分析引擎从Paimon中读取并存储一年期数据,提供准实时响应,响应速度在10s左右。
面向跨年的长期历史数据的大规模复杂查询,由镜舟分析型数据库直接对Paimon历史数据进行分析,整体从业务端数据传输到服务端的响应时间控制在 2-3 分钟内。
在这个过程中,IT部门要改变以往支撑部门的角色定义,而是作为赋能部门主动推动业务流程改造,才能实现新一代信息技术驱动下的业务、管理和商业模式的深度变革和重构。
03
云原生数据库
数字化转型深入为传统企业带来艰巨的数据挑战,具体体现在:
1)传统企业硬件资源无法灵活扩展难以适应业务快速变化,也无法满足业务流量波动需求,而靠服务器堆积的方式又会带来巨大的资源浪费。
2)传统数据库单点故障或是对容灾备份的配置疏漏难以保证数据的可用性和可靠性。
3)单一数据库难以满足企业业务需求,企业普遍部署事务型数据库、分析型数据库、数据仓库、数据湖等多种基础设施,使数据处理流程愈发复杂的同时也带来了高昂的运维成本。
受限于IT资源,传统企业希望能在有限的资源和人力投入下解决上述挑战。
04
创作团队
张扬
孟晨静
爱分析 分析师
外部专家(按姓氏拼音排序)
张贤孝
数据研发部
中通快运 信息中心
特别鸣谢 (按拼音排序)