轻松实现数据分析洞察的GenBI落地实操【内附开源项目资料】

原创 爱分析ifenxi 2024-10-12 12:02




随着大模型技术的快速更迭,企业内的落地场景逐渐丰富,智能数据分析则是重点关注和落地的场景之一。本次专家将会从数据分析的痛点与挑战、GenBI的落地路径、真实客户落地案例分享三方面进行展开。

分享嘉宾|于涛 亚马逊云科技解决方案架构师

内容已做精简,如需获取专家完整版视频实录和课件,请扫码领取。


01

数据分析痛点与挑战
基于零售行业的数据分析场景,有7个典型的分析阶段,首先是业务仪表盘的呈现,基本上是每个企业都会做的智慧大屏或智慧报表,用来体现业务发展概况。接下来就是数据的洞察和挖掘阶段,也是每个企业最难做的部分。例如每个不同区域、不同行业的绩效分析,每个不同的 BU 、业务线下的 SKU 如何进行合理有效的定位及产品未来走向的分析等等。同时在这个基础上还可以增加行业化的建模,包括数据血缘、数据打通等等,利用外部的数据进行整合,或者通过 what-if 模拟情况进行分析和预测。
而实际公司需要的 BI 不仅是仪表盘或者报表。
传统的 BI 分析有非常多的问题和挑战,比如 BI 报表和仪表盘,虽然是可视化呈现,但本质反馈的是静态数据,缺少灵活性和归因。
而对于数据的应用,则需要 IT 团队和业务团队紧密地配合,比如在进行数据集成的时候,数据运维工程师会通过 ETL 工具进行数据抓取,数据分析师会通过数仓、数据湖的工具进行数据血缘关系的建立,以及建立整个公司的数据网格,业务端也需要基于 SQL 生成后的结果进行最后的归因分析和统计。
所以对企业而言,面临着如何快速进行数据清洗和数据分析?如何编写企业周报/日报?如何在尽可能少的人手实现业务洞察和决策?对于员工而言,每个人的专业水平参差不齐,如何在不了解 SQL 的情况下进行数据分析?如何在没有专业能力的前提下进行数据解读?不少企业尝试在数据平台中,加入大模型能力,实现自然语言的问数和数据的编辑处理。
02
落地路径与关键技术分享
没有大模型能力之前,大部分企业会使用 BI 工具进行数据的可视化和数据分析,往往需要通过数据分析师来生成相应的 SQL 语句,实现内容的查找、归因、可视化仪表盘的建立。
有了大模型能力后,不再要求数据需求人员会写 SQL ,现在可以利用生成式 AI 能力进行对话式的 BI 分析。比如举三个数据分析常见的例子:“上个月的浏览量有多少?”“同比/环比增长是多少?”“浏览量上升或者下降的原因是什么?”按照传统的 BI 分析方式,这三个问题就需要用到一些复杂的 SQL 才能实现,对于数据分析人员有一定的要求。如何实现对话式的大模型数据分析呢?关于建设路径中,最重要的是准备好原始的数据和原始的信息,这部分和最后的查询结果息息相关。
从上图中可以看到,在最上层需要数据分析师进行前置的输入,包括标准数据分析思路、归因推理思路、 SQL 书写规范等等,能更好的衔接每家企业的技术基础和分析要求。
再是大语言模型,它的底层的能力随着国内外各种模型的加速迭代,模型的参数逐渐更高和模型回答的结果逐渐更好,大模型的选择和模型的适配必须要考虑因地适宜。
最后再通过用户的输入,实现自然语言的方式进行 SQL 的生成、运营诊断、数据规律总结、运营建议。这就是整体的构建结构和路径。
从数据分析实践的角度来看,通过自然语言的方式,可以很轻松的实现 SQL 查询语句的生成,但随着企业数据越来越多,企业数据表关联的信息越来越多,很难通过一句简单的自然语句实现较好的查询效果。
所以在大模型实际落地中也正面临着一些挑战。
在实际经验中我们总结发现,利用大模型的推理能力和通用的知识理解,辅以外部的知识体系(RAG)和执行规则来达到比较好的生成效果。
对于元数据过于庞大复杂:可以通过数据 ETL 的清洗,把多表拼接成单表来减少表的数量,进一步提升效果。
大模型缺少数据库表结构和表字段的理解:可以通过提示词工程,对表结构和字段的含义做详细说明。
大模型对专业名词缺乏理解:比如苹果是指 iPhone 还是 Apple ,可以添加实体识别功能,增加实体的检索,来补充对应的知识。
关于大模型训练语料不全:可以在大模型中加入 SQL 样本检索,增加学习样本,来激活模型的迁移学习能力。
大模型没有反馈机制:可以在使用中加入反馈的机制,通过点赞、点踩的方式来提高系统生成的准确率。
针对思维链问题,如果没有业务知识无法直接生成 SQL :可以在大模型中加入意图识别,或者 Agent 功能,实现对思维链问题进行任务拆分,通过设置不同的步骤,帮助大模型进行理解。
如何根据 SQL 快速生成数据看板指标:可以通过 API 与 Metabase 集成,生成对应的 SQL 之后,就可以快速生成看板指标。
最后再看下整体的框架,分为数据预处理、业务知识库搭建、Query 改写、意图识别与实体识别、知识召回、 SQL 生成、数据总结和可视化 7 个环节。
接下来会从如何落地的角度,详细展开几个关键步骤。
步骤一:数据 ETL
关于数据 ETL 处理层,我们会对数据的表格进行清洗,构建指标层,这能很好的提高 SQL 的生成效率。例如在真实的数仓或数据库中,会有非常多的订单表、订单库和订单信息,如果把对应的表进行 join ,来生成对应的产品数据统计表和产品订单表,就从 5 个表变成了 2 个表,就能减少不同表 join 的情况。对于前期的数据处理和数据准备是非常重要的一环。
步骤二:提示词工程
提示词工程也是非常重要的一个环节。对于大模型来说,它并不知道企业实际的数据是什么,也不知道表的信息是什么,所以需要提前把数据和字段进行定义和配置。
步骤三:知识检索-实体识别与实体检索
通过识别 Query 中的实体,增加实体信息,可以提高大模型对专业名词的理解能力,提升生成 SQL 的准确率。
以查询产品 A 在 2023 年 12 月份订单环比增长为例,首先会进行实体的识别,识别到【产品 A】【订单量】【环比】三个信息,此时触发下一个流程- embedding ,再进行一些向量检索就可以找到对应的表信息、列信息、实体信息等,最后拼接成对应对 prompt ,进行 SQL 语句生成,这就是背后的原理。
步骤四:知识检索- SQL样本检索
通过增加样本,提高大模型推理能力和大模型对SQL任务生成的理解能力。
以上图为例,最右侧匹配到【 0.67688006 0.10631783】对应的信息是“产品 B 今年 1 月北美的环比增长?”,它其实已经有预置的 slack 的条件语句或 SQL 语句,如果其他的运营人员在问相似问题的时候,大模型其实会检索对应的一些样本实现生成,这样也会提高 SQL 生成的准确度。
步骤五:负反馈机制
在知识库检索的时候,针对生成的 badcase,可以在前端或在应用里面加入点赞和点踩的反馈机制。通过点赞的方式把 goodcase 的权重拉高,通过点踩的方式把 badcase 记录对应的表里,帮助数据分析师来进行后续的迭代和优化,所以在生成式 BI 的项目里面,并不是一次性的项目,需要按照飞轮的方式进行快速的迭代。
步骤六:意图识别
关于意图识别,比如用户在提问的时候,大模型需要去识别对应的意图,并区分不同的意图是什么含义。比如拒绝意图,如果用户提出“帮我删除对应表里所有的数据”,这个操作对于整个系统和数据的安全是致命的打击,所以需要对于一些意图进行有效的判断。
还有思维链的查询意图,需要调用多个 Agent ,进行任务拆分,比如说“ 5 月份的订单量为什么下降了?”可以拆分到用户维度、城市维度,最后将对应的内容进行综合的思考。

03

客户案例分享
德比软件主要是针对旅游业做营销系统的技术服务,他们在数据分析场景的痛点有三个。
第一是面对业务决策人的数据分析及查询需求,可能在月初或月末时,对于需求的响应不够及时。
第二是很难通过报表以外的地方,准确地查询到对应的订单、销售数据等等。
第三是每个部门的数据结构不一样,不能很好的理解数据,通过执行 、Chat BI 或 GenBI 的项目也可以很好地进行数据规范和数据结构化的打通,实现跨平台或跨资产或跨产品的数据查询。
ChatBI用户端操作演示
这是在亚马逊云科技 ECS 容器化服务里面构建的一个应用,对于用户操作端的使用界面。右侧可以选择集成不同的大模型,底部的输入框可以进行提问。在亚马逊云科技与德比软件的合作案例中,实现了打通 AI 和 BI 平台数据隔离,可以更好的利用企业知识,快速地进行经验的赋能,通过自然语言进行对话分析,生成对应的结果,同时有效进行降本增效。
🎁特别福利:亚马逊云科技 GenBI 支持开源,扫码获取开源项目文档。

负责亚马逊云科技云计算方案咨询和设计。目前主要专注在现代化应用改造和机器学习领域的技术研究和实践。加入 亚马逊云科技之前曾服务于大型运营商及 IT 解决方案供应商,积累了丰富的跨境电商/快消行业项目经验。

注:点击左下角“阅读原文”,领取专家完整版实录和分享课件


爱分析ifenxi 爱分析是一家中国领先的数字化市场研究与咨询机构。
评论 (0)
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 234浏览
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 624浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 378浏览
  • 飞凌嵌入式作为龙芯合作伙伴,隆重推出FET-2K0300i-S全国产自主可控工业级核心板!FET-2K0300i-S核心板基于龙芯2K0300i工业级处理器开发设计,集成1个64位LA264处理器,主频1GHz,提供高效的计算能力;支持硬件ECC;2K0300i还具备丰富的连接接口USB、SDIO、UART、SPI、CAN-FD、Ethernet、ADC等一应俱全,龙芯2K0300i支持四路CAN-FD接口,具备良好的可靠性、实时性和灵活性,可满足用户多路CAN需求。除性价比超高的国产处理器外,
    飞凌嵌入式 2025-05-07 11:54 113浏览
  • 文/郭楚妤编辑/cc孙聪颖‍相较于一众措辞谨慎、毫无掌舵者个人风格的上市公司财报,利亚德的财报显得尤为另类。利亚德光电集团成立于1995年,是一家以LED显示、液晶显示产品设计、生产、销售及服务为主业的高新技术企业。自2016年年报起,无论业绩优劣,董事长李军每年都会在财报末尾附上一首七言打油诗,抒发其对公司当年业绩的感悟。从“三年翻番顺大势”“智能显示我第一”“披荆斩棘幸从容”等词句中,不难窥见李军的雄心壮志。2012年,利亚德(300296.SZ)在深交所创业板上市。成立以来,该公司在细分领
    华尔街科技眼 2025-05-07 19:25 497浏览
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 676浏览
  • 在印度与巴基斯坦的军事对峙情境下,歼10C的出色表现如同一颗投入平静湖面的巨石,激起层层涟漪,深刻印证了“质量大于数量”这一铁律。军事领域,技术优势就是决定胜负的关键钥匙。歼10C凭借先进的航电系统、强大的武器挂载能力以及卓越的机动性能,在战场上大放异彩。它能够精准捕捉目标,迅速发动攻击,以一敌多却毫不逊色。与之形成鲜明对比的是,单纯依靠数量堆砌的军事力量,在面对先进技术装备时,往往显得力不从心。这一现象绝非局限于军事范畴,在当今社会的各个领域,“质量大于数量”都已成为不可逆转的趋势。在科技行业
    curton 2025-05-11 19:09 22浏览
  • 在过去的很长一段时间里,外卖市场呈现出美团和饿了么双寡头垄断的局面。美团凭借先发优势、强大的地推团队以及精细化的运营策略,在市场份额上长期占据领先地位。数据显示,截至2024年上半年,美团外卖以68.2%的市场份额领跑外卖行业,成为当之无愧的行业老大。其业务广泛覆盖,从一线城市的繁华商圈到二三线城市的大街小巷,几乎无处不在,为无数消费者提供便捷的外卖服务。饿了么作为阿里本地生活服务的重要一环,依托阿里强大的资金和技术支持,也在市场中站稳脚跟,以25.4%的份额位居第二。尽管市场份额上与美团有一定
    用户1742991715177 2025-05-06 19:43 124浏览
  • 温度传感器的工作原理依据其类型可分为以下几种主要形式:一、热电阻温度传感器利用金属或半导体材料的电阻值随温度变化的特性实现测温:l ‌金属热电阻‌(如铂电阻 Pt100、Pt1000):高温下电阻值呈线性增长,稳定性高,适用于工业精密测温。l ‌热敏电阻‌(NTC/PTC):NTC 热敏电阻阻值随温度升高而下降,PTC 则相反;灵敏度高但线性范围较窄,常用于电子设备温控。二、热电偶传感器基于‌塞贝克效应‌(Seebeck effect):两种不同
    锦正茂科技 2025-05-09 13:31 280浏览
  • 后摄像头是长这个样子,如下图。5孔(D-,D+,5V,12V,GND),说的是连接线的个数,如下图。4LED,+12V驱动4颗LED灯珠,给摄像头补光用的,如下图。打开后盖,发现里面有透明白胶(防水)和白色硬胶(固定),用合适的工具,清理其中的胶状物。BOT层,AN3860,Panasonic Semiconductor (松下电器)制造的,Cylinder Motor Driver IC for Video Camera,如下图。TOP层,感光芯片和广角聚焦镜头组合,如下图。感光芯片,看着是玻
    liweicheng 2025-05-07 23:55 533浏览
  • Matter协议是一个由Amazon Alexa、Apple HomeKit、Google Home和Samsung SmartThings等全球科技巨头与CSA联盟共同制定的开放性标准,它就像一份“共生契约”,能让原本相互独立的家居生态在应用层上握手共存,同时它并非另起炉灶,而是以IP(互联网协议)为基础框架,将不同通信协议下的家居设备统一到同一套“语义规则”之下。作为应用层上的互通标准,Matter协议正在重新定义智能家居行业的运行逻辑,它不仅能向下屏蔽家居设备制造商的生态和系统,让设备、平
    华普微HOPERF 2025-05-08 11:40 424浏览
  • 硅二极管温度传感器是一种基于硅半导体材料特性的测温装置,其核心原理是利用硅二极管的电学参数(如正向压降或电阻)随温度变化的特性实现温度检测。以下是其工作原理、技术特点及典型应用:一、工作原理1、‌PN结温度特性‌硅二极管由PN结构成,当温度变化时,其正向电压 VF与温度呈线性负相关关系。例如,温度每升高1℃,VF约下降2 mV。2、‌电压—温度关系‌通过jing确测量正向电压的微小变化,可推算出环境温度值。部分型号(如SI410)在宽温域内(如1.4 K至475 K)仍能保持高线性度。
    锦正茂科技 2025-05-09 13:52 310浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦