大模型+数据分析的应用场景与实现路径

原创 爱分析ifenxi 2023-10-12 18:08






大模型能力非常契合数据分析发展趋势,且数据分析也是大模型重要落地场景,银行、证券、食品饮料、美妆、餐饮等领域都在探索将大模型和数据分析工具深度结合,通过对话等交互方式实现指标查询、报表生成等功能,降低数据分析工具使用门槛。

本次分享将围绕大模型在数据分析场景的落地应用以及应用实践路径来展开。

分享嘉宾|李喆 爱分析 合伙人兼首席分析师

内容已做精简,如获取专家完整版视频实录和课件,扫码领取


01

大模型与数据分析发展相结合

从当前数据分析的发展趋势来看,我们可以很清楚地感受到大模型的能力是自然而然的与数据分析的发展趋势相应契合,这意味着数据分析是大型模型落地应用中至关重要的场景。
关于大型模型的能力边界,我们通过调研数百家企业用户,发现问题在于企业用户(尤其是IT部门)对于大模型是否可以在哪些场景中落地,还没有明确的认知。实际上,IT部门最后还是服务于业务部门和管理层,因此当后两者对于大型模型在哪些场景下应用没有明确想法时,IT部门去推广大模型就会变得非常困难。
因此,在跟很多企业用户交流时,我们发现他们都非常想知道大型模型在哪些场景下可以应用,而数据分析天然是重要应用场景,这是由整个数据分析市场发展趋势所决定的,具体情况如下:
第一阶段,以静态报表为主,传统BI和静态报表基本上都是面向IT部门的,业务部门提出需求之后,由IT根据报表工具开发出固定的报表,然后业务部门查看报表结果。
第二阶段,我们提到的敏捷BI强调的是自助式分析,这一点实际上是指在业务部门提出需求之后,数据分析师可以基于敏捷BI的工具帮助业务部门快速获取所需的数据,帮助他们获得所需要的结果。
因此,第二阶段的真正服务对象变成了数据部门,也就是数据分析师。这个部门有时在独立的数据分析部门下,有时则在业务部门下设有专门的数据分析师。可以发现,对比第一阶段,第二阶段明显更近了一步。
第三阶段,我们看到的不管是基于大模型的AskBI还是增强分析,都是直接面向业务的,其理念是业务部门直接使用对话式BI工具就能够解决问题,获得所需的数据结果。这一过程无需像之前那样依赖IT部门开发报表,或者数据分析师基于敏捷BI再提供数据结果,而是直接由业务部门推进落地。
因此我们可以看到,在整个数据分析的发展趋势是不断地降低用户的交互门槛,让业务部门更加自如、更加容易地使用分析工具,并实现其自身的效果。
所有数据分析的需求,包括取数和用数需求,本质上都来自于业务部门。但是过去业务部门缺乏能力或者没有好的工具来满足这些需求,因此必须依赖于IT部门、数据部门来实现它们的目标。
而随着BI不断地提升交互的体验,降低用户门槛,最终使业务部门自身具备数据分析的能力,这与大模型的能力天然契合。大模型的生成能力和效力可以比较好地提升用户交互体验,因此我们认为,数据分析一定会是大模型很重要的落地场景

02

大模型在数据分析场景的落地应用
在调研中我们发现,从趋势上看,像银行、保险、证券、消费品零售、美妆等领域各个头部企业,都在落地实施大模型和数据分析工具的深度融合。
从大模型实际能力的边界来看,它在企业内部的用户落地过程中,大致分为生成类应用、决策类应用和多模态应用这三类。在数据分析场景中,它涉及到生成类应用决策类应用这两种。
2.1 生成类应用
目前,大家谈论的主要是生成类应用主要体现在以下几个方面:
第一,对话式交互,这也是最常见的应用体现,即通过自然语言取代原来拖拉的方式并自动完成整个数据分析和相关报表的生成。
第二,内容生成,就是自动地生成分析报告和相关报表。
第三,代码开发,这项应用在数据分析中非常重要,其中之一是编写SQL查询语句以查看底层宽表的数据。因此,大型模型本身可以自动地生成SQL查询语句。
第四,智能体,也就是大模型本身可以去做任务的分解。例如,你需要查询利润率,那利润率可能本身是由营收减成本来计算的,那么大模型其实要去做任务的分解和指标的分解。
这些是我们看到的生成类应用是现在比较落地比较多的场景,相对进展也跑得比较快。
2.2 决策类应用
另一类是决策类应用的。之前BI可以实现数据辅助决策,基于返回的数据结果进行一些分析和预警。例如,如果指标有异常变化,它会进行提示和执行一些简单的数据分析,基于增长率的变化进行分析。
但辅助决策实际上无法对该指标背后的结果进行深度分析,找出影响因素,智能决策我们认为是大型模型在BI和数据分析中的重点应用。具有一些理解能力后,可以对指标和结果背后的原因进行一些归因,进行下钻分析,找出深度影响因子。
2.3 未来价值
具体落实到分析场景中,一般自助分析都需要宽表,完成宽表后会涉及数据清洗和建模。由于从去年开始大家都在做指标平台,也就是去做中间指标的定义、计算、管理,然后再到交互层怎么样去实现自助式的分析。
在自助分析中,我们可以看到第一个环节是生成对话式的交互内容和任务分解,这些都是在自助分析中实现的。在指标平台中可以生成并分解指标;而在宽表中,大家通常会使用代码开发,即自动生成SQL查询语句以及生成内容,例如在定义宽表时,字段可以让大型模型先给你一版定义,然后你可以基于它持续优化。
现如今,我们所见到的应用大多都是在自助式分析层面,旨在提升用户的交互体验,让用户可以直接感受到互动的优势。然而这种方法存在一个问题:如果在数据分析的底层,也就是在宽表、数据治理、数据清洗、数据建模等方面不做足够成熟的工作,那么想要得到正确的结果是非常困难的。也就是说,数据底层如果没做好,想要进行数据提取也是非常困难的
因此,我们认为未来最大的价值在于底层,即如何更好地进行整个数据治理和数据清理工作,这无疑是我们认为最关键的切入点,这也是现在我们看到的一些实际的实践方式。
2.4 当前挑战
就目前而言,我们认为最大的挑战仍然是数据分析一直面临的一个问题:如何准确取得所需数据。业务部门的数据提取需求始终存在,但到目前为止并没有得以很好地解决。我们认为,在不同的场景下,该问题应该有一些行之有效的实践落地。
第一类场景是面向管理层的经营决策。在该场景下,问题的核心是如何确保数据的可靠性和准确性,以及如何降低信息偏差。要提高数据的可靠性和准确性,首要解决的事如何减少中间的交互次数,提升成功率。对于管理层或者经营部门而言,他们很难在持续等待很长时间后才能得到回复。我们认为,具体的实践方式是使用大模型加指标平台,这也是目前许多公司在企业内部实现的方式之一。
第二类场景是业务探索,其中一个关键点是如何能够查询到宽表中的数据。这个问题对于业务探索来说是一个非常大的挑战。
对于经营部门而言,他们只需要关注这几个指标,因此只需确保通过自然语言理解后,他们能够快速查看这些指标并反馈结果,这基本上已经满足了经营决策的需求。因为实际上经营管理部门的管理层通常只会关注一些常规指标,只要你能够满足他们的需求即可。
但是当涉及到业务部门时情况就有所不同,因为在业务探索过程中往往存在大量指标。例如,有些银行可能会有两万个指标,甚至有数千或数万人使用这些指标进行数据提取和应用。因此不光需要查询这些指标的结果,同时由于其业务持续变化,因此现有的指标可能是不足够的。我们需要获取底层宽表中的数据,以查找除指标内数据之外的宽表中的数据。这是一大应用需求。
而另一个需求则是在宽表之上构建宽表,这是可以通过自助分析来实现的。然而,当存在多个不同的宽表时,如何进行join处理和跨宽表查询,就变成了相当大的挑战。在业务探索过程中,这些都是核心问题和关注点,因此我们认为实现路径应该是使用大型模型加上知识库,再加上数据虚拟化引擎来实现。而数据虚拟化引擎在市场上尚未十分成熟。

03

大模型在数据分析场景下的实现路径
下一步将讲解如何实现这两个方面的需求,即经营决策的应用场景以及实现路径。
3.1 大模型+指标平台的实现路径
从目前看到的情况来看,决策首先需要的是确保准确性,要确保每次交互获取的数据是准确的,因此不能让大模型过于天马行空地查询数据。因此,我们通常采用的实现路径之一是直接调用GPT,结合用户输入的自然语言,使用大型模型的通用算法和功能来识别和理解用户意图,以更精准地命中关键词。
当命中关键词后会在指标平台上进行查询,这个查询过程非常严格,只能在指标平台上进行,这可以确保最终的结果一定会与指标平台中的具体指标相关。查询完成后,大模型会自动生成一段分析报告的语句,而不仅仅是简单地提供数据结果或表格,这样做可以让用户体验更加顺畅。
与此同时,大模型本身也可以解读这些数据,并给出初步的一些建议。例如,哪些指标在最近两个月内显著增长或发生了变化,需要特别关注哪些指标,而且当使用GPT3.5或GPT4时这个过程就会非常简单,不需要进行预训练。
我们现在看到,通过fine-tuning微调可以很好地发挥模型的理解能力。根据我们的调研结果,这种微调所需的数据量最多不超过1万条,通常只需要几千条就足够好训练出结果了,这是一类使用GPT的方法。
如果需要进行私有部署,使用6B、7B或13B的模型就可以很好地实现以上效果。无论是进行fine-tuning还是进行简单的预训练,都可以实现接近GPT3.5的效果。因为最终的查询是针对指标进行限定,这是一个相对较小的范围,而且整个推理的成本也不高。
根据我们的调研,使用两张3090显卡在几周的时间内进行微调是可以很好地实现结果的,这也是目前可以使用的比较好的实现方式。其优势在于,可以显著增强对话式交互能力,降低 BI 使用门槛,让管理层和经营分析部门能够快速获取所需数据
当然缺点也同时存在,即非常依赖于所关注的指标范围,如果指标涵盖的范围非常准确,那么它就可以很好地回答和解答相关的问题,可一旦超出了这个指标平台的范围之后,它的回答准确率和各方面就会有非常显著的下降。
另外,所有指标平台里面的指标是提前开发好,要做好开发就需要基于你的数据源,或者你的层面的宽表或数仓。因此当你的指标快速变化,比如说你每个月或者每几个月你的指标都会调整一次,那就意味着你的开发成本整体是相对较高的。
以上我们目前看到的大模型+指标平台的较多使用的场景以及实际的路径。
3.2 大模型+知识库+数据虚拟化的业务探索路径
在业务探索层面,目前我们看到的比较常见的方式是生成SQL,但传统的NLP to SQL的准确率相对较低,现在真正能够将准确率提高的就是GPT4,能做到约90%的准确率。同时,国内的其他大模型目前在这方面能力上相对较有限,所以,直接生成SQL是现在的一个比较大的挑战。
这一块实现路径是在提出需求后直接查询宽表,不只是通过指标平台去查,而是去查底层的宽表。对于生成SQL的准确度的要求而言,现在国内的大模型能力都不能达到。许多大型企业要做私有部署,如果使用了百亿级别的模型尺寸,它本身的理解能力和交互能力与通用模型的差距会更大。
因此,我们目前看到的一种较好的方式是使用GPT4,但其中有一种方式是并不一定要将所有数据都挂进去,只需提供与GP4相关的一些Schema,就能帮你自动生成。如果只需要做这一层,它实际上可以很好地满足你的需求。
但如果下一步计划是进行更多的归因分析,并进行一些有关预测的深入挖掘分析时,就需要使用到知识库。这其中会存在以下两点问题:
第一,数据跨境合规风险。针对跨境输送,国内政策对于数据出境方面有严格的要求,其中有提到,数据量超过一定限制时可能会引发法律风险,甚至可能涉及刑事风险。因此,合规是一个相当大的问题。
第二,企业数据泄露。对于一些头部企业,因为GPT4不断基于一些优质语料进行重新训练,一些回答和最佳实践可能被用于GPT4内部语料的训练。虽然Open AI还是公开表示不会去动数据,但是如果想要不断优化模型,他们必然需要大量高价值的语料,这些语料大量来自用户的交互场景。
因此,如果使用GPT4的方法去做外挂的话,这两点仍然存在较大的风险。而要解决以上问题,当前阶段最大的挑战是受制于模型的能力,无论是通用国产大模型还是未来的私有化部署模型,这两种能力现在都不足够。
此外,在查找宽表时仍然会受到本身的限制,也就是说当业务部门希望进行更多更灵活的自助式分析时,可能需要的数据不在单个宽表中,或者需要通过连接多个宽表来获得数据。在这种情况下,我们认为这条路可能并不可行,因为仍然需要依赖于宽表之间的连接。因此,未来的另一个方向是基于数据化虚拟化引擎。
数据虚拟化引擎本质上是在数据湖之上通过物理引擎形成的逻辑性数仓,通过数据虚拟化引擎实现整个数据资产管理后,再进行SQL的生成。然而,我们目前看到的案例相对较少,有大型银行在做POC和相关尝试,但目前没有走通的。不过我们认为,数据虚拟化引擎在未来会是一个比较好地去解决业务探索问题的方向。
以上就是本次的分享内容,如获取专家完整版视频实录和课件可扫码领取

长按二维码,领取完整版视频实录和课件
注:点击左下角“阅读原文”,领取专家完整版视频实录和分享课件



爱分析ifenxi 爱分析是一家中国领先的数字化市场研究与咨询机构。
评论
  • 智能汽车可替换LED前照灯控制运行的原理涉及多个方面,包括自适应前照灯系统(AFS)的工作原理、传感器的应用、步进电机的控制以及模糊控制策略等。当下时代的智能汽车灯光控制系统通过车载网关控制单元集中控制,表现特殊点的有特斯拉,仅通过前车身控制器,整个系统就包括了灯光旋转开关、车灯变光开关、左LED前照灯总成、右LED前照灯总成、转向柱电子控制单元、CAN数据总线接口、组合仪表控制单元、车载网关控制单元等器件。变光开关、转向开关和辅助操作系统一般连为一体,开关之间通过内部线束和转向柱装置连接为多,
    lauguo2013 2024-12-10 15:53 85浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 141浏览
  •         在有电流流过的导线周围会感生出磁场,再用霍尔器件检测由电流感生的磁场,即可测出产生这个磁场的电流的量值。由此就可以构成霍尔电流、电压传感器。因为霍尔器件的输出电压与加在它上面的磁感应强度以及流过其中的工作电流的乘积成比例,是一个具有乘法器功能的器件,并且可与各种逻辑电路直接接口,还可以直接驱动各种性质的负载。因为霍尔器件的应用原理简单,信号处理方便,器件本身又具有一系列的du特优点,所以在变频器中也发挥了非常重要的作用。  &nb
    锦正茂科技 2024-12-10 12:57 76浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 71浏览
  • 【萤火工场CEM5826-M11测评】OLED显示雷达数据本文结合之前关于串口打印雷达监测数据的研究,进一步扩展至 OLED 屏幕显示。该项目整体分为两部分: 一、框架显示; 二、数据采集与填充显示。为了减小 MCU 负担,采用 局部刷新 的方案。1. 显示框架所需库函数 Wire.h 、Adafruit_GFX.h 、Adafruit_SSD1306.h . 代码#include #include #include #include "logo_128x64.h"#include "logo_
    无垠的广袤 2024-12-10 14:03 71浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 79浏览
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 51浏览
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 88浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-10 16:13 109浏览
  • 概述 通过前面的研究学习,已经可以在CycloneVGX器件中成功实现完整的TDC(或者说完整的TDL,即延时线),测试结果也比较满足,解决了超大BIN尺寸以及大量0尺寸BIN的问题,但是还是存在一些之前系列器件还未遇到的问题,这些问题将在本文中进行详细描述介绍。 在五代Cyclone器件内部系统时钟受限的情况下,意味着大量逻辑资源将被浪费在于实现较大长度的TDL上面。是否可以找到方法可以对此前TDL的长度进行优化呢?本文还将探讨这个问题。TDC前段BIN颗粒堵塞问题分析 将延时链在逻辑中实现后
    coyoo 2024-12-10 13:28 102浏览
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 50浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 83浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦