FF随着企业对数据驱动决策的需求不断增长,数据分析流程的效率和准确性成为关键。然而,传统数据分析常常面临沟通障碍、高昂的人力成本以及低下的工作效率,导致管理层和业务部门陷入排队困境,分析团队则不得不常态化加班。本文探讨了大模型技术的兴起如何引领数据分析的升级,并通过引入图模型,解决了大模型数据分析中的准确性、速度和灵活性问题。大模型以其强大的自然语义理解能力,允许用户通过自然语言与数据分析系统直接对话,实现自助式数据分析,显著提升了数据分析的效率和用户体验。然而,单一的大模型解决方案存在生成结果的错误、查询速度慢和交互过程呆板等问题。为了克服这些挑战,图模型的引入提供了一个全新的视角,通过结合数据和业务元素,提升了数据分析的准确率,实现了即时人机对话,并允许用户通过可视化界面进行实时建模,从而让数据分析更加灵活和高效。本文还介绍了一个大型国有企业如何通过构建数据自服务平台,实现实时搜索分析,大幅提升了一线业务人员的用数效率,将数据分析时间从平均7天缩短至0.5天,显著推动了企业数字化转型的步伐。这一实践案例展示了大模型与图模型结合的强大力量,预示着数据分析流程的革命性变革,让企业数据分析真正告别了排队与加班的时代。大模型引领数据分析大升级,让“排队与加班”成为过去式
企业数据分析痛点显著,“排队与加班”困扰着管理层、业务部门和数据分析团队在企业数据分析领域,一个显著的痛点正在逐渐浮出水面——“排队与加班”已成为管理层、业务部门和数据分析团队的共同困扰。随着企业向“数据驱动”和“精细化运营”转型的步伐加快,数据分析的需求日益增长,数据分析团队每月的工作量也随之攀升至新高。然而,需求方与数据分析团队之间存在的沟通障碍,导致了效率的严重低下。需求方从业务角度出发,而数据分析团队对业务的理解可能不够深入,难以迅速建立需求与数据指标之间的“映射关系”。当分析结果出炉,双方在沟通上的困难同样显著,导致返工重做的情况屡见不鲜。此外,数据分析团队的人力成本高昂,且往往不直接参与一线业务,团队规模受限。以北京地区为例,数据分析师、数据工程师和数据科学家的年薪分别在20-25万元、25-40万元和50-100万元之间,属于中高收入群体。在当前经济复苏不达预期的背景下,企业更加重视员工规模控制,尤其是对那些不直接产生收益的团队。数据分析需求的激增、团队规模的有限以及双方沟通效率的低下,三者叠加,使得管理层和业务部门面临排队的困境,而数据分析团队则陷入了常态化加班的窘境。在全球范围内,无论是跨国巨头还是新兴创业公司,都已被卷入由大模型引发的变革浪潮之中。经过一年的探索与论证,越来越多的企业计划在2024年将大模型落地。Gartner的报告预测,到2026年,超过80%的企业将在生产环境中采用生成式AI的API、模型,并部署启用生成式AI的应用。大模型,作为生成式AI的核心,正引领着数据分析的全新升级。大模型以其卓越的自然语义理解能力,能够理解用户的问题,并基于文本生成SQL语句,自动从数据库中提取数据并进行分析。随后,大模型还能对分析结果进行解读并生成报告。对于需求方而言,他们可以直接与大模型加持的数据分析系统对话,实现自助式数据分析。数据分析因其明显的价值和强大的落地可行性,成为大模型落地的热门场景。据爱分析的调研发现,数据分析是企业在2024年关注度最高的应用场景之一。在准备在2024年落地大模型的企业中,有78%计划在数据分析场景中应用,视其为大模型落地的重要切入点。图表1:企业2024年大模型落地场景提及率
尽管许多企业试图通过大模型直接与企业内部数据对话,但真正的落地并非仅靠Text to SQL就能解决。一些“大模型+数据分析”的项目在落地后,虽然自然语言的交互方式给人带来了新鲜感,但因体验不佳而难以真正投入使用。具体而言,纯粹的大模型方案会导致生成结果出现错、慢、呆三个方面的问题: 错误生成:大模型先天存在幻觉问题,生成内容准确度较低。CEO、COO等非技术类高管普遍重视大模型创新项目,通常会一同参与验收环节。错误的回答不仅会导致项目验收失败,而且容易使企业高管降低对大模型的信任度,进而影响后续的一系列大模型创新项目的开展。当然,大模型面对“上周xx产品的销售额是多少”等简单取数类问题,准确率很高。但在这些用例中应用大模型的价值非常有限,毕竟需求方和数据分析团队沟通或者用传统的数据分析工具来取数,都可以便捷完成。
慢速生成:数据分析时常遇到连接多张表的需求,这意味着数据库需要处理更多的数据,执行的复杂度更高。这将导致查询的执行速度变得非常缓慢,甚至应用程序无法响应。企业大多已建立数据仓库,因此普遍采用“让大模型在数据仓库宽表中进行查询”的方式,旨在提升查询速度,但因此增加的宽表建模时间不容忽视。
呆板生成:正如前文所述,企业普遍采用“让大模型在数据仓库宽表中进行查询”的方式。该方式下,企业需要通过建模生成一张宽表,以便缩小查询范围来提升查询准确率,以及提升查询效率,但由此带来的二次建模会导致交互的复杂度提升。用户与系统交互的过程中,需要一个更加灵活的数据模型,可以应对提出的任何问题,而不是制作一张宽表再去回答问题,这会导致交互过程变得呆板。
“大模型+图模型”可以解决错、慢、呆三大问题,让数据分析实现高质量升级图模型由数据和业务元素组成,其中数据源自数据库,业务元素源自知识库。大模型+图模型解决方案的核心在于,纯粹的大模型方案仅改造了交互层,而未触及数据层。通过图模型表示数据层,可以解决错、慢、呆三大问题: 准确率提升30%左右:图模型通过两个方面来缓解大模型幻觉。一是全局可视化让提问更准确。图模型采用三元组的方式来描述数据,既呈现了数据,又体现了数据之间的业务关系,可以视为企业的“数字孪生体”,用户可以非常方便地了解全局的业务逻辑(在权限允许的范围内)。因此,用户面向数据分析系统提问时,可以描述地更准确。二是向系统提供更多的prompt(提示词)。系统在理解用户问题的时候,可以从图模型中获得更多上下文信息,将其作为prompt输入大模型,便于提升准确率。图模型技术厂商欧拉智能实验数据表明,图模型可以将大模型生成结果的准确率提升 30% 左右。
即时人机对话:基于图游走技术的数据分析系统,可以避免传统关系数据库跨表分析慢和二次建模带来的时间成本。特别注意,国内外有多款图计算引擎,计算速度差异较大,商业化图计算引擎明显由于开源引擎。基于图模型,用户即使没有数据分析背景,也可以通过可视化界面自行配置业务规则,做到实时模型,无需协调数据分析团队介入,大大节省时间。
可视化实时建模:“大模型+数据仓库宽表”的处理方式导致用户仍然需要让数据分析团队通过建模制作宽表,排队问题依旧存在。出现该现象的核心原因在于用户通常不了解SQL语言,遇到任何专业技术问题都绕不开始数据分析人员。大模型+图模型解决方案一般具备可视化配置页面,业务人员自行实时建模,让交互从呆板变得灵活。
不仅如此,图模型还具备另外两项优势。一是总拥有成本低。传统的数据仓库需要投入大量人力成本进行模型开发,而图模型仅需要一次建模,后续无二次建模投入。二是有利于跨部门决策。图模型可以视为企业的“数字孪生体”,企业员工无论做重大决策还是日常决策,均可以获得全局视图。例如,企业管理层制定供应链策略时,不仅需要考虑供应链相关情况,还应考虑生成、渠道等部门可能受此产生的影响,基于全局视图有利于制定最佳策略。03
最佳实践:某大型国有企业搭建数据自服务平台,用数效率为原来的14倍
项目需求:满足业务人员开箱即用、灵活取数、实时计算的目标,助力一线精细化运营面对运营分析需求的爆发式增长,某大型国有企业的数据繁多且复杂,每个分析主题都需要单独建模,且依赖IT技术人员逐一提取工单数据。同时,该企业对一线业务人员的使用要求也很高,不仅需要学习基础的分析术语,还需要熟悉计算函数。整个数据分析过程耗时长、效率低、维护成本高,已经无法满足快速多变的业务分析需求。业务人员在分析术语和计算函数学习方面的成效不佳,且不满声音较多。该企业需对分析流程做出转变,以满足业务人员开箱即用、灵活取数、实时计算的目标。该项目的技术方为欧拉智能,一家走“大模型+图模型”技术路线的企业。欧拉智能希望将图模型作为企业的数据底座,以图计算引擎作为核心计算能力,快速串联客户内部散落在各地的数据,并释放业务价值,减少技术人员的支持和参与,减少重复建立数据模型的过程。欧拉智能的核心产品为欧拉认知智能平台,它不仅解决了纯粹大模型解决方案带来的错、慢、呆三大问题,而且通过引入Agent技术,为企业带来更大作用。欧拉认知智能平台具备多个Agent,当用户提问之后,Agent会优先任务类型,例如查询型、计算型、推荐型、预测型等,然后进行流程拆解,最后调用各种封装好的工具来解决用户问题。Agent技术让欧拉认知智能平台生成结果的可信度和准确率进一步提升。解决方案:构建数据自服务,实现实时搜索分析,提效一线客户运营欧拉智能认为以数据驱动管理是未来的发展趋势,在线自助分析工具是企业数字化转型的必备服务。该企业应该面向一线人员,提供简单易用的实时分析工具,支持指标配置化、数据可视化、分析智能化,实现一线自助个性化分析。欧拉智能解决方案技术架构分为五层,包括数据层、图模型层、智能层、配置层和应用层。通过这一架构,欧拉智能为该企业构建了包括自服务平台、网络通、业务大厅和ICT在内的多个应用。图表2:欧拉智能解决方案技术架构
数据层:盘点该企业业务数据资产,包括ERP账务、票据中心、数据中心、ICT平台、地市集中库、本地数据等,为建立图模型做准备。
图模型层:基于数据资产建立图模型,包括集团产品收入模型、集团产品订购模型、集团产品欠费模型、业务管理模型和集团产品使用模型等六个部分。在图模型层还有欧拉智能自研的图计算引擎,支持取数、计算、推荐、预测等数据分析需求。
智能层:欧拉智能综合考虑模型成本,模型推理速度等维度,为该企业匹配合适的大模型。欧拉智能在智能层构建多个Agent,用于判断问题类型、流程拆解以及调用引擎里封装的多项工具。
配置层:欧拉智能为该企业提供可视化规则配置界面,用户不仅可以看到全局视图(在权限允许的范围内),还可以进行可视化实时建模,无需再在数据分析工单队列中排队。
应用层:欧拉智能基于该企业需求,构建多个应用,包括自服务平台、网络通、业务大厅和ICT。
该企业一线业务人员的数据获取和分析时间从平均7天降低到0.5天。系统建设完成后的3个月内,快速推广至6个不同的业务部门,活跃用户从200+迅速增长至1000+,支撑了20+不同场景的实时分析、灵活用数的场景,减少内部取数、分析工单1500+,大幅提升了各业务专题分析需求的效率。该企业项目负责人评价:“欧拉认知智能平台的功能很好用,也很喜欢这种便捷式的自助查询和分析工具,确实可以提高工作效率。”当前数据分析领域正站在一个转折点上,大模型和图模型的结合预示着一场深刻的变革。这场数据革命不仅将重塑企业数据分析流程,更将推动企业决策进入一个全新的智能化时代。通过提高数据分析的准确性、速度和灵活性,企业能够更快地响应市场变化,更精准地制定战略决策,并更有效地优化运营效率。随着技术的进步和应用的深入,数据分析的未来将更加注重自助服务和实时交互,使得数据分析不再是少数专业人士的专利,而是成为企业各级员工日常工作的一部分。这不仅将极大地提升工作效率,还将促进数据文化的普及和创新思维的培养。这场由大模型和图模型共同引领的数据革命,将帮助企业在激烈的市场竞争中占据先机,实现持续的增长和发展。注:点击左下角“阅读原文”,前往爱分析官网获取更多内容。