干货:标准RAG架构和落地实践

智能计算芯世界 2024-11-08 07:40

ChatGPT 的面世改变了 AI 的发展格局。企业争相利用这项新技术打造新产品,提高竞争优势和生产力,实现更加经济高效的运营。生成式 AI (GenAI) 模型,如 Grok-1(逾 3,000 亿参数)和 GPT-4(数万亿参数),利用来自互联网等文本来源的海量数据进行训练。这些第三方大语言模型适用于通用用例。

虽然企业可以用自有的数据对模型进行调优,但重新训练模型需要额外的时间和资源。好在现在有了一种颇受欢迎的技术,即检索增强生成 (RAG),它可以利用企业专有的数据来增强开源预训练模型,从而创建特定领域的 LLM,得出针对具体业务的结果。此外,RAG 无需与第三方大型基础模型共享数据,因此能够让企业更好地保护数据安全。

将介绍 RAG 如何与英特尔多种优化技术和平台搭配使用,为 GenAI 系统带来出色的价值和性能。
知识全解系列
存储系统基础知识全解(PDF)
存储系统基础知识全解(PPT版)
服务器基础知识全解(终极版)
SSD闪存技术基础知识全解(PPT终极版
SSD闪存技术基础知识全解(PDF终极版

800+份重磅ChatGPT专业报告


检索增强生成 (RAG) 是什么?

RAG 技术将动态、依赖查询的数据添加到模型的提示流中,再从存储在矢量数据库中的专有知识库中检索相关数据。提示和检索到的上下文可以丰富模型的输出,从而带来更加相关和准确的结果。因为数据不会被发送给管理模型的第三方,因此,RAG 可让企业在保护数据隐私性和完整性的同时更好地通过 LLM 充分利用数据。RAG 工作流程的关键构成可简单分为四个步骤:用户查询处理、检索、上下文整合和输出生成。下图展示了这一基本流程。

RAG 的实用性不仅限于文本,它还可以极大地改变视频搜索和交互式文档探索的方式,甚至使聊天机器人能够利用 PDF 内容来回答问题。

RAG 的应用过程通常被称为“RAG 管线”,因其从用户提示开始,整个数据处理流程都是一致的。用户提示首先进入关键步骤“检索机制”中。在这一步,相关提示会被转换为矢量嵌入,接着使用矢量搜索在预先构建的矢量数据库(如 PDF、日志、转录文本等)中找到相似的内容。检索到最相关的数据后,RAG 会将其与用户提示整合,然后传送给模型用于推理服务和最终输出生成。这种上下文整合为模型提供了在预训练阶段无法获得的额外信息,使模型能够更好地契合用户的任务或兴趣领域。由于 RAG 无需重新训练或调优模型,因此能够高效地添加数据来为 LLM 提供上下文。

标准RAG解决方案的架构

下图所示的 RAG 解决方案架构展示了标准 RAG 实施方案的构建模块。RAG 实施流程主要包括构建知识库、查询和上下文检索、响应生成和跨应用产出监控几个核心部分。

1、构建知识库:

• 数据收集:从基于文本的来源(如转录文本、PDF 和数字化文档)中收集数据建立私有知识库。
• 数据处理管线:利用特定 RAG 管线来提取文本、格式化内容以进行处理,并将数据分块成可管理的大小。
• 矢量化:通过嵌入模型处理数据块,将文本转换为矢量,可包括用于丰富上下文的元数据。

• 矢量数据库存储:将矢量化数据存储在可扩展的矢量数据库中,以便进行高效检索。

2、查询和上下文检索:

• 查询提交:用户或子系统通过聊天式界面或 API 调用提交查询,并通过安全服务进行身份验证。
• 查询处理:采取输入保护措施来确保安全性和合规性,然后进行查询矢量化。

• 矢量搜索和重排序:进行初始矢量搜索以检索相关矢量,然后使用更复杂的模型重排序以优化结果。

3、响应生成:

• LLM 推理和响应生成:将顶层上下文与用户查询结合,再通过预训练或调优的 LLM 进行处理,然后再进行后处理以提升质量和增强安全性。

• 响应交付:通过界面将最终响应返回给用户或子系统,确保答案的连贯性和上下文准确性。

4、产出监控:

• 检索性能:监控检索过程的时延和准确性,并保留记录以用于审核。
• 重排序的效率:跟踪重排序的表现,确保上下文相关性和速度。
• 推理服务质量:观察 LLM 推理的时延和质量,维护日志以便审核和改进。

• 安全防护有效性:监控输入和输出处理的安全防护 (guardrail),确保合规性和内容安全性。

RAG相关技术

开发 RAG 应用通常会从集成 RAG 框架开始,例如 Haystack、LlamaIndex、LangChain 和英特尔研究院的fastRAG。这些框架可通过提供优化和集成关键的 AI 工具链来简化开发过程。目的是减少开发人员对大量低级别编程的需求。这种抽象使得开发人员能够利用增强的性能和针对其特定用例量身定制的解决方案,专注于高效构建 RAG 应用。

我们从知识库构建、查询和上下文检索以及响应生成这三个关键步骤来考量 RAG 工具链。通常,RAG 框架提供涵盖整个工具链的 API。不管是选择使用这些抽象,还是选择利用独立组件,都需要深思熟虑并从工程角度慎重考虑。

1、构建知识库+上下文检索:

• 集成框架:Haystack 和 LangChain 作为常见 RAG 框架,为矢量数据库和搜索算法提供了高级抽象,使得开发人员能够在基于 Python 的环境中管理复杂的过程。
• 矢量数据库技术:Pinecone、Redis 和 Chroma 是支持主流搜索算法的关键矢量数据库解决方案。英特尔研究院提供的可扩展矢量搜索 (Scalable Vector Search, SVS) 技术也很有发展前景,预计将在 2024 年初与各大矢量数据库集成。

• 嵌入和模型可访问性:通过 Hugging Face API 进行集成的嵌入模型往往可无缝整合到 RAG 框架中。这大大提升了纳入先进自然语言处理 (NLP)的简便性。

2、响应生成:

• 低级别优化:oneAPI 高性能库可以优化 PyTorch、TensorFlow 和 ONNX等主流 AI 框架,因此您可以使用熟悉的开源工具,因为它们已针对英特尔硬件进行了优化。

• 高级推理优化:英特尔 Extension for PyTorch 等扩展添加了高级量化推理技术,可助力提升了大语言模型的性能。

RAG应用与落地

RAG 管线的许多步骤需要耗费大量计算资源,而同时,终端用户又对低时延响应有着较高要求。此外,由于 RAG经常用于处理机密数据,因此整个管线的安全性都至关重要。

计算需求

一般来说,LLM 推理是 RAG 管线计算最密集的阶段,特别是在实时应用环境中。然而,创建初始知识库(处理数据和生成嵌入)对计算的需求同样可能很高(取决于数据的复杂性和体量)。英特尔在通用计算技术、AI 加速器和机密计算方面的进步为应对整个 RAG 管线的计算挑战提供了重要基石,同时还能提高数据隐私和安全性。

和大多数软件应用一样,RAG 也能从专为满足终端用户事务需求而量身定制的可扩展基础设施中受益。随着事务需求的增加,开发人员可能会因计算基础设施负载过重而面临时延增加,且基础设施还会因矢量数据库查询和推理计算而趋于饱和。因此,获得随时可用的计算资源来扩展系统和快速处理新增需求对企业至关重要。另外,实施关键优化以提升诸如嵌入生成、矢量搜索与推理等关键步骤的性能也非常重要。

数据隐私和安全性

• 安全 AI 处理:英特尔软件防护扩展SGXTDX在处理过程中在 CPU 内存中进行机密计算和数据加密,提高了数据安全性。这些技术对于处理敏感信息至关重要,有助于利用管线各部分的加密数据创建更安全的 RAG 应用。

对于需要在矢量嵌入生成、检索或推理过程中更安全地处理敏感数据的 RAG 应用来说,这是一个重要特性。

• 采取适当防护: RAG 应用中,防护涉及采取措施来管理 LLM RAG 系统内的行为。这包括监控模型的响应、帮助遵守指导原则和最佳实践,以及控制其输出来降低毒性、不公平偏见和隐私泄露的风险。在 RAG 应用中采取防护措施有助于 LLM 得到用户的信任和负责任的运用,同时符合系统的整体目标和要求。

开源优化

嵌入优化

• 量化嵌入模型:英特尔® 至强® 处理器可以利用量化嵌入模型来优化从文档中生成矢量嵌入的过程。例如,bge-small-en-v1.5-rag-int8-static 是一个使用英特尔 Neural Compressor 进行量化的 BAAI/BGE-smallen-v1.5 版本,与 Optimum-Intel 兼容。按照 Massive Text Embedding Benchmark (MTEB) 性能指标计算,使用量化模型进行检索和重排序任务时,浮点 (FP32) 和量化 INT8 版本之间的差异小于 2%,同时提高了吞吐量。

矢量搜索优化

• 针对 CPU 优化的工作负载:在英特尔处理器上,矢量搜索操作得到了高度优化,特别是在第三代及以后的处理器中引入了英特尔高级矢量扩展 512(英特尔AVX-512)之后。AVX-512 利用融合乘加 (FMA) 指令,将乘法和加法合并为一个运算,从而增强了内积计算,这是矢量搜索中的一个基本运算。这一功能减少了计算所需的指令数量,显著提高了吞吐量和性能。

• 可扩展矢量搜索 (SVS)可扩展矢量搜索 (SVS) 技术提供快速的矢量搜索能力,可助力优化检索时间并提升整体系统性能。它通过使用局部自适应矢量量化 (LVQ) 来优化基于图形的相似度搜索,在保持准确性的同时尽可能降低内存带宽要求。其结果是显著减少了距离计算时延,并在吞吐量和内存要求方面获得了更好的表现。

推理优化

RAG 主要涉及推理运算,这一过程可由英特尔® 至强® 处理器通过先进的模型压缩技术提供支持。这些技术支持在较低精度(BF16  INT8)下进行运算,并且不会造成明显的性能损失。在本节中,我们将简要介绍各种针对推理的优化和机会。

• 英特尔高级矩阵扩展(AMX):第四代和第五代英特尔可扩展处理器内置英特尔AMX能够提高矩阵运算的效率并优化内存管理。


• 先进的开源推理优化工具:英特尔贡献并扩展了主流深度学习框架,如PyTorchTensorFlowHugging FaceDeepSpeed 等。对于 RAG工作流程,英特尔关注的是通过实施量化等模型压缩技术来优化 LLM 的机会。

下载链接:
800+份重磅ChatGPT专业报告
半导体行业研究框架专题报告(2024)
沙利文:2024年中国生成式AI行业最佳应用实践
AI市场趋势洞察(2024年)
AR洞察与应用实践白皮书
《2024 OCP全球峰会合集(Chiplets篇)》
《2024 OCP全球峰会合集(Server篇)》
《2024 OCP全球峰会合集(Security篇)》
《2024 OCP全球峰会合集(Composable Memory Systems篇)》
《2024 OCP全球峰会合集(HPC/NIC/OAI篇)》
《2024 OCP全球峰会合集(MHS篇)》
智能化软件开发落地实践指南报告(2024年)
《2024全球人工智能开发与应用大会》
《2024 ODCC大会技术研究合集》
《2024全球人工智能开发与应用大会(下)》
《2024全球人工智能开发与应用大会(上)》
大规模智算集群的管理与性能调优实践
计算机自主可控系列:国产AI算力万卡集群,多芯混合时代来临
2024年AI原生路由器白皮书
端侧AI行业:引领边缘智能革命,激发数据潜能
2024全球AI芯片研究报告
大模型时代的AI能力工程化
大模型时代的工业质检方法论
大模型时代数据库技术创新
大模型在融合通信中的应用实践
《大模型实践案例合集集》
1、2024大模型典型示范应用案例集 2、2023大模型落地应用案例集

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 65浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 41浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 83浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 98浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 102浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 66浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 86浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 51浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 37浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 70浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦