轻松实现数据分析洞察的GenBI落地实操【内附开源项目资料】

原创 爱分析ifenxi 2024-10-12 12:02




随着大模型技术的快速更迭,企业内的落地场景逐渐丰富,智能数据分析则是重点关注和落地的场景之一。本次专家将会从数据分析的痛点与挑战、GenBI的落地路径、真实客户落地案例分享三方面进行展开。

分享嘉宾|于涛 亚马逊云科技解决方案架构师

内容已做精简,如需获取专家完整版视频实录和课件,请扫码领取。


01

数据分析痛点与挑战
基于零售行业的数据分析场景,有7个典型的分析阶段,首先是业务仪表盘的呈现,基本上是每个企业都会做的智慧大屏或智慧报表,用来体现业务发展概况。接下来就是数据的洞察和挖掘阶段,也是每个企业最难做的部分。例如每个不同区域、不同行业的绩效分析,每个不同的 BU 、业务线下的 SKU 如何进行合理有效的定位及产品未来走向的分析等等。同时在这个基础上还可以增加行业化的建模,包括数据血缘、数据打通等等,利用外部的数据进行整合,或者通过 what-if 模拟情况进行分析和预测。
而实际公司需要的 BI 不仅是仪表盘或者报表。
传统的 BI 分析有非常多的问题和挑战,比如 BI 报表和仪表盘,虽然是可视化呈现,但本质反馈的是静态数据,缺少灵活性和归因。
而对于数据的应用,则需要 IT 团队和业务团队紧密地配合,比如在进行数据集成的时候,数据运维工程师会通过 ETL 工具进行数据抓取,数据分析师会通过数仓、数据湖的工具进行数据血缘关系的建立,以及建立整个公司的数据网格,业务端也需要基于 SQL 生成后的结果进行最后的归因分析和统计。
所以对企业而言,面临着如何快速进行数据清洗和数据分析?如何编写企业周报/日报?如何在尽可能少的人手实现业务洞察和决策?对于员工而言,每个人的专业水平参差不齐,如何在不了解 SQL 的情况下进行数据分析?如何在没有专业能力的前提下进行数据解读?不少企业尝试在数据平台中,加入大模型能力,实现自然语言的问数和数据的编辑处理。
02
落地路径与关键技术分享
没有大模型能力之前,大部分企业会使用 BI 工具进行数据的可视化和数据分析,往往需要通过数据分析师来生成相应的 SQL 语句,实现内容的查找、归因、可视化仪表盘的建立。
有了大模型能力后,不再要求数据需求人员会写 SQL ,现在可以利用生成式 AI 能力进行对话式的 BI 分析。比如举三个数据分析常见的例子:“上个月的浏览量有多少?”“同比/环比增长是多少?”“浏览量上升或者下降的原因是什么?”按照传统的 BI 分析方式,这三个问题就需要用到一些复杂的 SQL 才能实现,对于数据分析人员有一定的要求。如何实现对话式的大模型数据分析呢?关于建设路径中,最重要的是准备好原始的数据和原始的信息,这部分和最后的查询结果息息相关。
从上图中可以看到,在最上层需要数据分析师进行前置的输入,包括标准数据分析思路、归因推理思路、 SQL 书写规范等等,能更好的衔接每家企业的技术基础和分析要求。
再是大语言模型,它的底层的能力随着国内外各种模型的加速迭代,模型的参数逐渐更高和模型回答的结果逐渐更好,大模型的选择和模型的适配必须要考虑因地适宜。
最后再通过用户的输入,实现自然语言的方式进行 SQL 的生成、运营诊断、数据规律总结、运营建议。这就是整体的构建结构和路径。
从数据分析实践的角度来看,通过自然语言的方式,可以很轻松的实现 SQL 查询语句的生成,但随着企业数据越来越多,企业数据表关联的信息越来越多,很难通过一句简单的自然语句实现较好的查询效果。
所以在大模型实际落地中也正面临着一些挑战。
在实际经验中我们总结发现,利用大模型的推理能力和通用的知识理解,辅以外部的知识体系(RAG)和执行规则来达到比较好的生成效果。
对于元数据过于庞大复杂:可以通过数据 ETL 的清洗,把多表拼接成单表来减少表的数量,进一步提升效果。
大模型缺少数据库表结构和表字段的理解:可以通过提示词工程,对表结构和字段的含义做详细说明。
大模型对专业名词缺乏理解:比如苹果是指 iPhone 还是 Apple ,可以添加实体识别功能,增加实体的检索,来补充对应的知识。
关于大模型训练语料不全:可以在大模型中加入 SQL 样本检索,增加学习样本,来激活模型的迁移学习能力。
大模型没有反馈机制:可以在使用中加入反馈的机制,通过点赞、点踩的方式来提高系统生成的准确率。
针对思维链问题,如果没有业务知识无法直接生成 SQL :可以在大模型中加入意图识别,或者 Agent 功能,实现对思维链问题进行任务拆分,通过设置不同的步骤,帮助大模型进行理解。
如何根据 SQL 快速生成数据看板指标:可以通过 API 与 Metabase 集成,生成对应的 SQL 之后,就可以快速生成看板指标。
最后再看下整体的框架,分为数据预处理、业务知识库搭建、Query 改写、意图识别与实体识别、知识召回、 SQL 生成、数据总结和可视化 7 个环节。
接下来会从如何落地的角度,详细展开几个关键步骤。
步骤一:数据 ETL
关于数据 ETL 处理层,我们会对数据的表格进行清洗,构建指标层,这能很好的提高 SQL 的生成效率。例如在真实的数仓或数据库中,会有非常多的订单表、订单库和订单信息,如果把对应的表进行 join ,来生成对应的产品数据统计表和产品订单表,就从 5 个表变成了 2 个表,就能减少不同表 join 的情况。对于前期的数据处理和数据准备是非常重要的一环。
步骤二:提示词工程
提示词工程也是非常重要的一个环节。对于大模型来说,它并不知道企业实际的数据是什么,也不知道表的信息是什么,所以需要提前把数据和字段进行定义和配置。
步骤三:知识检索-实体识别与实体检索
通过识别 Query 中的实体,增加实体信息,可以提高大模型对专业名词的理解能力,提升生成 SQL 的准确率。
以查询产品 A 在 2023 年 12 月份订单环比增长为例,首先会进行实体的识别,识别到【产品 A】【订单量】【环比】三个信息,此时触发下一个流程- embedding ,再进行一些向量检索就可以找到对应的表信息、列信息、实体信息等,最后拼接成对应对 prompt ,进行 SQL 语句生成,这就是背后的原理。
步骤四:知识检索- SQL样本检索
通过增加样本,提高大模型推理能力和大模型对SQL任务生成的理解能力。
以上图为例,最右侧匹配到【 0.67688006 0.10631783】对应的信息是“产品 B 今年 1 月北美的环比增长?”,它其实已经有预置的 slack 的条件语句或 SQL 语句,如果其他的运营人员在问相似问题的时候,大模型其实会检索对应的一些样本实现生成,这样也会提高 SQL 生成的准确度。
步骤五:负反馈机制
在知识库检索的时候,针对生成的 badcase,可以在前端或在应用里面加入点赞和点踩的反馈机制。通过点赞的方式把 goodcase 的权重拉高,通过点踩的方式把 badcase 记录对应的表里,帮助数据分析师来进行后续的迭代和优化,所以在生成式 BI 的项目里面,并不是一次性的项目,需要按照飞轮的方式进行快速的迭代。
步骤六:意图识别
关于意图识别,比如用户在提问的时候,大模型需要去识别对应的意图,并区分不同的意图是什么含义。比如拒绝意图,如果用户提出“帮我删除对应表里所有的数据”,这个操作对于整个系统和数据的安全是致命的打击,所以需要对于一些意图进行有效的判断。
还有思维链的查询意图,需要调用多个 Agent ,进行任务拆分,比如说“ 5 月份的订单量为什么下降了?”可以拆分到用户维度、城市维度,最后将对应的内容进行综合的思考。

03

客户案例分享
德比软件主要是针对旅游业做营销系统的技术服务,他们在数据分析场景的痛点有三个。
第一是面对业务决策人的数据分析及查询需求,可能在月初或月末时,对于需求的响应不够及时。
第二是很难通过报表以外的地方,准确地查询到对应的订单、销售数据等等。
第三是每个部门的数据结构不一样,不能很好的理解数据,通过执行 、Chat BI 或 GenBI 的项目也可以很好地进行数据规范和数据结构化的打通,实现跨平台或跨资产或跨产品的数据查询。
ChatBI用户端操作演示
这是在亚马逊云科技 ECS 容器化服务里面构建的一个应用,对于用户操作端的使用界面。右侧可以选择集成不同的大模型,底部的输入框可以进行提问。在亚马逊云科技与德比软件的合作案例中,实现了打通 AI 和 BI 平台数据隔离,可以更好的利用企业知识,快速地进行经验的赋能,通过自然语言进行对话分析,生成对应的结果,同时有效进行降本增效。
🎁特别福利:亚马逊云科技 GenBI 支持开源,扫码获取开源项目文档。

负责亚马逊云科技云计算方案咨询和设计。目前主要专注在现代化应用改造和机器学习领域的技术研究和实践。加入 亚马逊云科技之前曾服务于大型运营商及 IT 解决方案供应商,积累了丰富的跨境电商/快消行业项目经验。

注:点击左下角“阅读原文”,领取专家完整版实录和分享课件


爱分析ifenxi 爱分析是一家中国领先的数字化市场研究与咨询机构。
评论
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 111浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 101浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 84浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 68浏览
  • TOF多区传感器: ND06   ND06是一款微型多区高集成度ToF测距传感器,其支持24个区域(6 x 4)同步测距,测距范围远达5m,具有测距范围广、精度高、测距稳定等特点。适用于投影仪的无感自动对焦和梯形校正、AIoT、手势识别、智能面板和智能灯具等多种场景。                 如果用ND06进行手势识别,只需要经过三个步骤: 第一步&
    esad0 2024-12-04 11:20 50浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 120浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 106浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 71浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 100浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 119浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦