研究范围:经济新常态下,如何对海量数据进行分析挖掘以支撑敏捷决策、适应市场的快速变化,正成为企业数字化转型的关键。机器学习算法能识别数据模型,基于规律完成学习、推理和决策,正广泛的应用在金融、消费品与零售、制造业、能源业、政府与公共服务等行业的各种业务场景中,如精准营销、智能风控、产品研发、设备监管、智能排产、流程优化等。企业传统的机器学习虽然能有效支撑业务决策,但由于严重依赖数据科学家,其技术门槛高、建模周期长的特点正成为企业实现数据驱动的阻碍。数据科学与机器学习平台是指覆盖数据采集、数据探索、数据处理、特征工程、模型构建、模型训练、模型部署与发布、模型管理与运营等建模全流程的平台,提供一站式建模服务,能显著提升建模效率、降低建模门槛。数据科学与机器学习平台能支持并赋能企业各业务场景实现智能决策,帮助企业打造数据驱动型组织。本报告对数据科学与机器学习平台市场进行重点研究,面向金融、消费品与零售、制造与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商的数据部门、业务部门负责人,通过对业务场景的需求定义和代表厂商的能力评估,为企业数据科学与机器学习平台的建设规划、厂商选型提供参考。厂商入选标准:1. 2023年数据科学与机器学习平台市场规模达到55亿元图1:2022-2026年数据科学与机器学习平台市场规模
据爱分析推测,2022年数据科学与机器学习平台市场规模为41亿元,2023年将达到55亿元,同比增长35%。未来爱分析测算2026年数据科学与机器学习平台市场规模将达到154亿元,2022-2026四年CAGR为40%。未来几年,数据科学与机器学习平台市场的快速增长主要受AI大模型驱动。ChatGPT的爆火推升了企业对生成式大模型的认知,也提高了企业对AI解决方案的预算投入,数据科学与机器学习模型作为AI解决方案的基础设施建设,将与AI解决方案一起保持高速增长。目前,数据科学与机器学习平台市场在金融、电信、互联网等行业渗透率最高;大中型企业正加速平台落地。分行业来看,受数据体量和质量水平影响,数据科学与机器学习平台在金融、电信、互联网等行业渗透程度较高。大型企业均已通过采购或自建的方式搭建起数据科学与机器学习平台,中型企业也在加速部署落地。其次是政府机构,数据科学与机器学习平台在省级部门单位的渗透率逐渐提升。此外,数据科学与机器学习平台在零售、新能源、工业、医疗等行业的渗透率较低,其中大型企业尚处于引入、筹备阶段。从企业规模来看,大中型企业的业务线条复杂、潜在AI应用场景数量可观,且自身技术人员储备充足,从长远来看,使自身具备AI建模能力是更持久、性价比也更高的方式,因此待数据条件成熟后大中型企业更倾向引入数据科学与机器学习平台;小型企业业务简单,技术人员有限,更倾向直接从算法商店直接购买成熟的AI算法部署实施,实现AI应用的快速验证,后续AI应用场景增多或是采购的算法不支持个性化业务场景时,才会考虑采购数据科学与机器学习平台。2. 大模型将升级平台使用体验,成为厂商差异化竞争关键AI大模型热潮激发大模型与千行百业的结合,大模型与数据科学与机器学习平台的融合已明确成为数据科学与机器学习平台的进化新方向。数据科学与机器学习平台厂商在功能上区别不明显,平台使用体验成为差异化关键,大模型与数据科学与机器学习平台的融合能有效改善平台使用体验,将成为厂商获取未来竞争优势的发力点。据爱分析调研,厂商对大模型与机器学习平台的融合实践路径主要基于以下三种形式展开:
图2:大模型与数据科学与机器学习平台融合形式
通过预训练大模型进行智能标注,如应用CV大模型对图片、语义进行智能标注,高效生成训练数据。
用大模型对业务创新思路进行快速初步验证。大模型的通用性使得它能快速给出结果,用户可先通过大模型验证业务思路后,再使用数据科学与机器学习平台开发训练小模型以保证模型效果和稳定性。
通过大模型实现建模全流程智能化。既有的低代码建模仍需要人工拖拉拽进行配置,过程中也需要对算子细节进行设置,人工操作不可避免,而自动化建模方式下,缺少数据科学家的专业性,只能适用于分类、回归等简单的场景。大模型建模的理想愿景是实现用户通过自然语言与大模型互动,大模型可自动化完成数据准备、模型训练、模型部署全流程。在这个过程中,大模型会为用户提供数据科学家级别的专业引导。这一方式的落地难度系数极高,需完成包括不限于完成从自然语言(NLP)到数据处理(SQL)的转化、数据的图形化、建立模型训练知识库等过程。
图3:人通过自然语言与大模型互动智能完成建模全流程
目前,前两种形式已经落地实现,第三种形式还处于研发阶段。3. 数据科学与机器学习平台厂商应满足企业信创需求信创国产化已经成为国家发展的重要战略之一。随着信创产业的发展,以金融、政府为代表的领域正沿着从基础设施到支撑平台再到企业应用的思路进行国产化替换,目前,大中型企业及机构在基础设施端的国产替换完成度较高,包括芯片、服务器、操作系统、数据库、中间件等。数据科学与机器学习平台支撑数据资产价值变现的关键环节,且与以上基础软硬件关系紧密,需要适应企业国产化环境。这要求技术厂商尽快完成平台软件与国产化软硬件环境的兼容、适配及认证,保证平台能在国产CPU、AI加速芯片以及操作系统上稳定运行。图4:数据科学与机器学习平台的国产化适配要求
爱分析对本次数据科学与机器学习平台项目的市场分析如下。同时,针对参与此次报告的部分代表厂商,爱分析撰写了厂商能力评估。数据科学与机器学习平台
定义:数据科学与机器学习平台是指覆盖数据采集、数据探索、数据处理、特征工程、模型构建、模型训练、模型部署与发布、模型管理与运营等建模全流程的平台,提供一站式建模服务,能显著提升建模效率、降低建模门槛。大模型开发平台也属于数据科学与机器学习平台的范畴。
终端用户: 金融、消费品与零售、制造与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商的数据科学家、风控建模人员、营销建模人员、业务分析人员、模型应用人员。甲方核心需求: 企业对机器学习的应用越来越广泛。一方面,数据量的激增、算法的突破以及CPU、GPU、DPU等多种算力技术的发展,为以机器学习为基础的数据挖掘、计算机视觉、自然语言处理、生物特征识别等技术在企业的应用奠定了技术基础;另一方面,市场环境的快速变化对企业决策敏捷性要求增强,不仅推动企业将机器学习模型应用到营销、广告、风控、生产等更多业务场景,也对模型精度、模型开发敏捷性以及模型应用广度提出更高要求。然而,机器学习技术门槛高、建模周期长,难以满足企业通过基于机器学习模型提升经营效率的需求。数据科学与机器学习平台具备工具丰富集成、建模效率提升以及模型资产复用等特点,能充分满足企业对智能应用的需求,正成为企业智能化基础设施的必要构成。不同企业对数据科学与机器学习平台的需求不同,其差异取决于企业自身机器学习建模能力和对算法的需求。1. 对于金融、消费品与零售、制造与能源、政府与公共服务等行业企业除大型金融机构外,传统企业普遍不具备机器学习建模能力。大型金融机构数据科学团队人才完善,对机器学习算法的探索和应用更前沿,如将机器学习模型应用在精准营销、智能风控、产品研发、客户体验管理等多个场景中。但更多的传统企业面临IT人才缺失、尚未开始智能化应用或处于局部试验的初期阶段。传统企业对数据科学与机器学习平台的需求主要体现在以下五个方面:图5:传统企业对数据科学与机器学习平台的需求
1)降低机器学习建模门槛,使非专业建模人员也能掌握机器学习建模技术,赋能业务。传统机器学习建模技术门槛高,需要组建专门的数据科学团队,包括数据工程师、数据科学家、开发工程师等,人力成本高昂。传统企业希望能降低机器学习建模门槛,如平台能实现数据自动处理、自动特征工程、图形化建模或自动建模等功能,使非专业的业务人员也能快速开展建模工作,广泛赋能业务,实现普惠AI。2)提供定制化算法、模型部署和运营服务,快速创造业务价值。传统行业多具备行业特性,行业垂直场景下的模型开发耗时耗力,而且传统企业对AI智能应用的探索尚处于初期,更倾向“小步快跑”,因此购买定制化算法能节约人力、实现快速产出以及验证AI智能应用效果。企业需要厂商提供定制化算法服务、模型在硬件平台和操作系统平台的部署服务以及模型运营服务。3)缩短建模周期,提高业务敏捷响应度。以金融行业为例,金融企业的产品、服务、风控模型均需随着客户行为改变而持续迭代更新。但传统的机器学习建模周期长达数月,无法敏捷响应业务需求。企业需要数据科学与机器学习平台内置丰富的行业算法、模型模板、案例等,供建模人员直接调用,加速模型训练;或是提供一键部署功能,实现模型在生产环境的快速部署。4)提供咨询服务,提升模型质量。对于具备一定机器学习建模能力的金融机构,需要厂商提供建模咨询支持,协助企业完成数据准备、模型训练、模型部署等环节,提升模型质量。5)支持国产化适配。以金融、政府、电信为代表的行业,其底层软硬件基础设施已经基本实现国产化,厂商需支持平台对国产软硬件的兼容、适配。对于中小企业或是刚开始试点智能应用的企业,相较于数据科学与机器学习平台需要的组织、人才、流程上的变革与支持,采购适用于特定场景的AI智能应用是性价比更高、更迅捷的解决方案。人工智能软件与服务商如算法服务商、ISV即面向此类需求,提供模型和智能应用服务。以算法服务商为例,尽管具备专业的数据科学团队,但中小型企业的算法需求多样且个性化,如虽然都是AI视觉算法,智慧城市、智慧工业下的应用场景如安全帽识别、产品瑕疵识别的模型却截然不同,需要基于业务数据集、业务思路分别进行训练。这使得算法服务商常常面临严格的算法交付周期和算法精度要求。具体而言,人工智能软件与服务提供商对数据科学与机器学习平台的核心需求主要体现在以下四个方面:图6:人工智能软件与服务提供商对数据科学与机器学习平台的需求
1)提高机器学习建模效率。软件开发公司、算法提供商面临严格的交付周期,但在传统AI应用开发方式下,数据接入、数据处理、模型训练等一系列建模流程都需要人工操作,建模周期长。其中数据接入环节因开源算法工具对不同类型的数据兼容性较差,需人工将原始数据转化为开源算法所支持的数据类型;数据标注环节往往通过人工完成,并且部分领域的标注过程严重依赖专业知识,整体数据准备将耗费数周时间;模型部署中对模型的集成、监控和更新需要大量的调研和实施工作,单个模型部署到上线需要3-5个月。企业需要完善的数据科学工具和建模功能,支持实现数据采集、数据准备、特征工程、模型训练、模型部署等建模全流程,提高建模效率。2)满足数据科学家复杂场景建模需求。平台需支持数据科学家在复杂场景下进行灵活建模,如提供丰富的算法,预置主流机器学习框架,支持NoteBook建模方式,以及支持数据科学家在模型训练中手动调参等。3)对模型开发资源和计算资源进行统一管理,支持计算资源弹性扩容,加速建模计算性能。传统开发模式中重复建设严重,如各项目数据准备、特征工程、模型训练等各自研发,造成模型开发管理资源、计算资源浪费,难以适应大规模智能应用开发需求。另外,机器学习模型训练过程中耗费大量计算资源,而一旦结束训练,计算资源又处于闲置状态。企业需要实现计算资源弹性扩容,满足模型开发不同阶段的计算需求。4)为多角色的数据科学团队提供协作平台。机器学习建模过程需要数据工程师、数据科学家、数据分析师等多角色共同协作完成,存在反复沟通、协作流程不明确等问题,带来重复性工作。厂商能力要求: 为满足金融、消费品与零售、制造与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商等甲方客户的核心需求,厂商需具备以下能力:1. 厂商应具备完善的机器学习模型开发功能,提供包括数据采集、数据准备、特征工程、模型训练、模型部署等功能在内的一站式端到端数据科学与机器学习平台。1)数据采集方面,平台应具备整合多源异构数据的能力,支持实时接入结构化数据和非结构化数据(如表格、图片、时间序列数据、语音和文本等),并具备基本的ETL能力、数据实时更新和同步能力。2)数据准备方面,平台应提供丰富的数据清洗、数据探索工具。其中数据清洗环节,应能支持进行数据融合、数据缺失处理、数据分类、数据标注、数据异常处理、数据平滑以及整合非结构化数据和结构化数据等数据清洗工作,减少人工干预。数据探索环节,厂商需具备单变量和多变量统计、聚类分析、地理定位图、相似度度量等分析能力。3)模型训练环节,针对非专业建模人员,平台应提供简便易用的建模工具,降低机器学习建模门槛。如平台可通过建模全流程可视化降低用户使用门槛,尤其在模型构建环节,应支持以拖拉拽的方式完成建模。针对专业建模人员,平台应具备较高的灵活性和开放性,提供主流开源算法和建模工具。如为专业的数据科学家提供自由灵活的NoteBook建模方式,并预置主流机器学习框架R、TensorFlow、Pytorch、Spark等,以及丰富的机器学习算法。4)模型部署环节,平台应支持模型一键部署,使建模人员可快速将模型从开发环境部署到生产环境中,并提供API接口供业务人员调用。此外,平台还应提供模型版本管理和模型监控功能,实时监测模型性能,保证模型质量。5)资源管理方面,平台需能对CPU、GPU资源进行管理和整合,以容器化方式对算力虚拟化,实现弹性扩容、性能加速等功能,且不同部门和项目之间可共享集群资源。6)平台应具备AutoML能力,包括提供数据自动清洗、智能标注、自动特征工程和自动模型训练等功能,提高建模效率。其中特征工程环节,数据科学与机器学习平台应能实现自动化特征构建、特征选择、特征降维和特征编码;模型训练环节,平台应支持自动化模型选择、自动化调参、自动化超参数搜索、模型自动验证等,减少模型训练时间成本和人力成本。7)此外,平台还应支持多角色的数据科学团队协作,协同数据工程师、数据科学家、业务人员等不同角色在建模工作流程中的模型注解、讨论、答疑、评论等,使建模过程可追溯、模型可复用,减少重复性工作。2. 厂商需具备垂直行业Know-how能力,为企业提供咨询和实施部署服务。厂商的专业服务能力体现在三个方面:一方面,基于丰富的垂直行业知识和经验积累,厂商能为用户提供行业场景相关的算法、模型模板,或是将行业经验与模型算法相结合,形成诸如精准营销、智能推荐、反欺诈、设备预警等智能业务模型,供用户直接调用;另一方面,厂商能提供建模咨询服务,通过数据科学专家团队规划有效的模型应用到特定业务的运营方案,协助用户完成数据准备、模型训练、模型部署、模型运营等工作,以及将企业既有的数据集经验、特征工程经验、模型经验等提炼形成数字资产,内嵌到平台中。此外,厂商应具备较强的实施部署能力,包括提供定制化模型算法在硬件平台和操作系统平台的部署服务、以及数据科学与机器学习平台的部署服务。3. 厂商需支持数据科学与机器学习平台与国产化软硬件生态体系适配。如在服务器方面,应支持华为、曙光、浪潮等国产服务器品牌,在操作系统方面,支持中标麒麟、银河麒麟的适配认证;在国产CPU方面,支持与飞腾、鲲鹏、海光、龙芯等国产厂商适配。入选标准: 2.2022Q1至2022Q4该市场付费客户数量≥10个;3.2021Q1至2022Q4该市场合同收入≥1000万元。厂商全景地图: 力维智联
厂商介绍: 深圳力维智联技术有限公司(简称“力维智联”),前身为中兴通讯的子公司“中兴力维”,是一家专注于泛在数据监测预警和大数据人工智能技术的科技公司。公司拥有170+授权发明专利,承担国家“科技创新2030—新一代人工智能”重大项目和“物联网与智慧城市关键技术及示范”重点专项的研发任务,是国内通用人工智能与机器学习平台DSML软件产品的核心供应商。产品服务介绍: Sentosa数据科学与机器学习平台(简称“ Sentosa_DSML”)是力维智联自主研发的一站式通用人工智能开发部署应用平台,通过低代码方式帮助客户实现AI算法模型的开发、评估与部署,且具备完善的数据资产化管理模式、支持开箱即用简捷部署。Sentosa_DSML 以 Sentosa Data Cube 数据魔方平台为主体,集成了 Sentosa ML 机器学习平台与Sentosa DL 深度学习平台等组件,支持组合定制、灵活搭配。Sentosa_DSML已应用在政府、出版、电信、科研院所、高校、能源等多个行业,通用性较强。
厂商评估: 力维智联 Sentosa_DSML 在降低用户使用门槛、缩短模型开发周期、平台实用性以及运维服务等方面具有明显优势。其中,在易用性方面,力维智联已经将大模型能力融入平台中。此外,平台可适配国产硬件,满足信创需求。提供端到端一站式低代码人工智能开发部署平台,降低用户使用门槛。为适应非专业建模人员使用,Sentosa_DSML 可全流程零代码实现数据准备、模型开发、评估与部署。平台部署近300个标准算子,包括数据读入算子、数据处理算子、数据可视化算子、特征工程算子、机器学习算子、深度学习算子、模型评估算子等,支持用户通过拖拉拽的形式自定义算子流,之后算子流可直接发布为服务进行部署。除零代码可视化模型开发外,Sentosa_DSML 还支持自动化模型开发,支持自动化数据准备、自动化进行特征工程、自动选择模型、自动调参等模型开发全流程。此外,针对专业数据科学家,平台通过提供数据视图和模型库访问插件的形式支持低代码Notebook开发,提升模型开发效率。
具备高效的项目执行效率,显著缩短开发周期。Sentosa_DSML 高效的执行效率体现在模型开发、团队协作、资源管理、数据资产管理等多个方面。
在模型开发的编译环节,平台对算子流编译统一进行后台优化,包括优化编译器设计框架、代码结构以及内存,提高编译效率。
在团队协作方面,基于力维智联完全的自主研发,平台定义了一套接口规范,保证建模各环节之间的衔接流畅,如清洗好的数据可直接拖入建模平台中,数据读入算子、统计分析算子等进一步处理分析。规范的接口可使数据工程师、数据科学家、软件工程师等多角色无缝协作,减轻代码开发工作量的同时也让团队更专注于模型精度的优化与领域知识的落地应用。
数据资产管理中,支持算子流、Notebook、模型、服务、工作流和应用等全流程数据资产的版本管理,实现数据资产的沉淀和共享复用,提高模型开发团队工作效率。并且,模型的版本管理中支持一键切换,更轻便灵活,减少繁琐的更新部署工作。
在资源管理方面,平台以容器化的方式对计算资源包括CPU、GPU、内存和存储等进行统一纳管、分配和动态扩容,尤其支持对不同项目资源进行隔离,避免因资源错配或抢占导致任务效率低及中断的现象。
平台操作界面互动友好,实用性较强。力维智联秉持“用户友好”的理念,对用户操作细节进行改进。如Sentosa_DSML 支持一键部署,开箱即用,且具有良好的跨平台特性,可在私有云和公有云上部署。又如在模型开发中,用户对Notebook类型任务节点的条件参数构建表达式时,平台可自动提示数据集列名、自动校验表达式正确与否。如在AI调度中心,可对算子流、Notebook、脚本等调度单元进行定时调度、周期调度、消息触发调度等,作业执行方式更灵活。
与此同时,力维智联已将大模型能力融入机器学习平台中,提高平台的可用性,例如在深度学习数据预处理中,用户可通过预训练大模型提供的AI自动标注功能,辅助完成数据标注工作。另外,在平台Chat with Data 大模型功能模块,用户可通过自然语言输入,实现对数据的预处理。
此外,Sentosa_DSML可满足金融、政府、电信等多领域的信创需求。力维智联对Sentosa_DSML有完全自主知识产权,且平台在底层硬件上全面适配Intel、鲲鹏、飞腾CPU处理器和Windows、Linux、麒麟等操作系统。
实力雄厚,可为用户提供持久运维服务。力维智联前身为中兴通讯子公司“中兴力维”,公司已申请并积累700余项发明专利与软件著作权,全业务覆盖全球70+国家和地区,可为用户提供算法更新、算法开发、人员培训以及后续运维升级等服务支持。
典型客户: 上海世纪出版集团、中海油惠州石化、南网科研院、航天科技、国家城安院