轻松实现数据分析洞察的GenBI落地实操【内附开源项目资料】

原创 爱分析ifenxi 2024-10-12 12:02




随着大模型技术的快速更迭,企业内的落地场景逐渐丰富,智能数据分析则是重点关注和落地的场景之一。本次专家将会从数据分析的痛点与挑战、GenBI的落地路径、真实客户落地案例分享三方面进行展开。

分享嘉宾|于涛 亚马逊云科技解决方案架构师

内容已做精简,如需获取专家完整版视频实录和课件,请扫码领取。


01

数据分析痛点与挑战
基于零售行业的数据分析场景,有7个典型的分析阶段,首先是业务仪表盘的呈现,基本上是每个企业都会做的智慧大屏或智慧报表,用来体现业务发展概况。接下来就是数据的洞察和挖掘阶段,也是每个企业最难做的部分。例如每个不同区域、不同行业的绩效分析,每个不同的 BU 、业务线下的 SKU 如何进行合理有效的定位及产品未来走向的分析等等。同时在这个基础上还可以增加行业化的建模,包括数据血缘、数据打通等等,利用外部的数据进行整合,或者通过 what-if 模拟情况进行分析和预测。
而实际公司需要的 BI 不仅是仪表盘或者报表。
传统的 BI 分析有非常多的问题和挑战,比如 BI 报表和仪表盘,虽然是可视化呈现,但本质反馈的是静态数据,缺少灵活性和归因。
而对于数据的应用,则需要 IT 团队和业务团队紧密地配合,比如在进行数据集成的时候,数据运维工程师会通过 ETL 工具进行数据抓取,数据分析师会通过数仓、数据湖的工具进行数据血缘关系的建立,以及建立整个公司的数据网格,业务端也需要基于 SQL 生成后的结果进行最后的归因分析和统计。
所以对企业而言,面临着如何快速进行数据清洗和数据分析?如何编写企业周报/日报?如何在尽可能少的人手实现业务洞察和决策?对于员工而言,每个人的专业水平参差不齐,如何在不了解 SQL 的情况下进行数据分析?如何在没有专业能力的前提下进行数据解读?不少企业尝试在数据平台中,加入大模型能力,实现自然语言的问数和数据的编辑处理。
02
落地路径与关键技术分享
没有大模型能力之前,大部分企业会使用 BI 工具进行数据的可视化和数据分析,往往需要通过数据分析师来生成相应的 SQL 语句,实现内容的查找、归因、可视化仪表盘的建立。
有了大模型能力后,不再要求数据需求人员会写 SQL ,现在可以利用生成式 AI 能力进行对话式的 BI 分析。比如举三个数据分析常见的例子:“上个月的浏览量有多少?”“同比/环比增长是多少?”“浏览量上升或者下降的原因是什么?”按照传统的 BI 分析方式,这三个问题就需要用到一些复杂的 SQL 才能实现,对于数据分析人员有一定的要求。如何实现对话式的大模型数据分析呢?关于建设路径中,最重要的是准备好原始的数据和原始的信息,这部分和最后的查询结果息息相关。
从上图中可以看到,在最上层需要数据分析师进行前置的输入,包括标准数据分析思路、归因推理思路、 SQL 书写规范等等,能更好的衔接每家企业的技术基础和分析要求。
再是大语言模型,它的底层的能力随着国内外各种模型的加速迭代,模型的参数逐渐更高和模型回答的结果逐渐更好,大模型的选择和模型的适配必须要考虑因地适宜。
最后再通过用户的输入,实现自然语言的方式进行 SQL 的生成、运营诊断、数据规律总结、运营建议。这就是整体的构建结构和路径。
从数据分析实践的角度来看,通过自然语言的方式,可以很轻松的实现 SQL 查询语句的生成,但随着企业数据越来越多,企业数据表关联的信息越来越多,很难通过一句简单的自然语句实现较好的查询效果。
所以在大模型实际落地中也正面临着一些挑战。
在实际经验中我们总结发现,利用大模型的推理能力和通用的知识理解,辅以外部的知识体系(RAG)和执行规则来达到比较好的生成效果。
对于元数据过于庞大复杂:可以通过数据 ETL 的清洗,把多表拼接成单表来减少表的数量,进一步提升效果。
大模型缺少数据库表结构和表字段的理解:可以通过提示词工程,对表结构和字段的含义做详细说明。
大模型对专业名词缺乏理解:比如苹果是指 iPhone 还是 Apple ,可以添加实体识别功能,增加实体的检索,来补充对应的知识。
关于大模型训练语料不全:可以在大模型中加入 SQL 样本检索,增加学习样本,来激活模型的迁移学习能力。
大模型没有反馈机制:可以在使用中加入反馈的机制,通过点赞、点踩的方式来提高系统生成的准确率。
针对思维链问题,如果没有业务知识无法直接生成 SQL :可以在大模型中加入意图识别,或者 Agent 功能,实现对思维链问题进行任务拆分,通过设置不同的步骤,帮助大模型进行理解。
如何根据 SQL 快速生成数据看板指标:可以通过 API 与 Metabase 集成,生成对应的 SQL 之后,就可以快速生成看板指标。
最后再看下整体的框架,分为数据预处理、业务知识库搭建、Query 改写、意图识别与实体识别、知识召回、 SQL 生成、数据总结和可视化 7 个环节。
接下来会从如何落地的角度,详细展开几个关键步骤。
步骤一:数据 ETL
关于数据 ETL 处理层,我们会对数据的表格进行清洗,构建指标层,这能很好的提高 SQL 的生成效率。例如在真实的数仓或数据库中,会有非常多的订单表、订单库和订单信息,如果把对应的表进行 join ,来生成对应的产品数据统计表和产品订单表,就从 5 个表变成了 2 个表,就能减少不同表 join 的情况。对于前期的数据处理和数据准备是非常重要的一环。
步骤二:提示词工程
提示词工程也是非常重要的一个环节。对于大模型来说,它并不知道企业实际的数据是什么,也不知道表的信息是什么,所以需要提前把数据和字段进行定义和配置。
步骤三:知识检索-实体识别与实体检索
通过识别 Query 中的实体,增加实体信息,可以提高大模型对专业名词的理解能力,提升生成 SQL 的准确率。
以查询产品 A 在 2023 年 12 月份订单环比增长为例,首先会进行实体的识别,识别到【产品 A】【订单量】【环比】三个信息,此时触发下一个流程- embedding ,再进行一些向量检索就可以找到对应的表信息、列信息、实体信息等,最后拼接成对应对 prompt ,进行 SQL 语句生成,这就是背后的原理。
步骤四:知识检索- SQL样本检索
通过增加样本,提高大模型推理能力和大模型对SQL任务生成的理解能力。
以上图为例,最右侧匹配到【 0.67688006 0.10631783】对应的信息是“产品 B 今年 1 月北美的环比增长?”,它其实已经有预置的 slack 的条件语句或 SQL 语句,如果其他的运营人员在问相似问题的时候,大模型其实会检索对应的一些样本实现生成,这样也会提高 SQL 生成的准确度。
步骤五:负反馈机制
在知识库检索的时候,针对生成的 badcase,可以在前端或在应用里面加入点赞和点踩的反馈机制。通过点赞的方式把 goodcase 的权重拉高,通过点踩的方式把 badcase 记录对应的表里,帮助数据分析师来进行后续的迭代和优化,所以在生成式 BI 的项目里面,并不是一次性的项目,需要按照飞轮的方式进行快速的迭代。
步骤六:意图识别
关于意图识别,比如用户在提问的时候,大模型需要去识别对应的意图,并区分不同的意图是什么含义。比如拒绝意图,如果用户提出“帮我删除对应表里所有的数据”,这个操作对于整个系统和数据的安全是致命的打击,所以需要对于一些意图进行有效的判断。
还有思维链的查询意图,需要调用多个 Agent ,进行任务拆分,比如说“ 5 月份的订单量为什么下降了?”可以拆分到用户维度、城市维度,最后将对应的内容进行综合的思考。

03

客户案例分享
德比软件主要是针对旅游业做营销系统的技术服务,他们在数据分析场景的痛点有三个。
第一是面对业务决策人的数据分析及查询需求,可能在月初或月末时,对于需求的响应不够及时。
第二是很难通过报表以外的地方,准确地查询到对应的订单、销售数据等等。
第三是每个部门的数据结构不一样,不能很好的理解数据,通过执行 、Chat BI 或 GenBI 的项目也可以很好地进行数据规范和数据结构化的打通,实现跨平台或跨资产或跨产品的数据查询。
ChatBI用户端操作演示
这是在亚马逊云科技 ECS 容器化服务里面构建的一个应用,对于用户操作端的使用界面。右侧可以选择集成不同的大模型,底部的输入框可以进行提问。在亚马逊云科技与德比软件的合作案例中,实现了打通 AI 和 BI 平台数据隔离,可以更好的利用企业知识,快速地进行经验的赋能,通过自然语言进行对话分析,生成对应的结果,同时有效进行降本增效。
🎁特别福利:亚马逊云科技 GenBI 支持开源,扫码获取开源项目文档。

负责亚马逊云科技云计算方案咨询和设计。目前主要专注在现代化应用改造和机器学习领域的技术研究和实践。加入 亚马逊云科技之前曾服务于大型运营商及 IT 解决方案供应商,积累了丰富的跨境电商/快消行业项目经验。

注:点击左下角“阅读原文”,领取专家完整版实录和分享课件


爱分析ifenxi 爱分析是一家中国领先的数字化市场研究与咨询机构。
评论
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 63浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 103浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 113浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 125浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 141浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 40浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 83浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 98浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 80浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 167浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 66浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 87浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦