干货：检索增强生成（RAG）技术

智能计算芯世界 2024-10-17 07:46 747浏览 0评论 0点赞

汽车照明的秘密武器，竟然是…… 汽车智能照明背后的“黑科技”传感器，你知道吗？

在自然语言处理领域，大型语言模型（LLM）如GPT-3、BERT等已经取得了显著的进展，它们能够生成连贯、自然的文本，回答问题，并执行其他复杂的语言任务。然而，这些模型存在一些固有的局限性，如“模型幻觉问题”、“时效性问题”和“数据安全问题”。为了克服这些限制，检索增强生成（RAG）技术应运而生。

RAG技术结合了大型语言模型的强大生成能力和检索系统的精确性。它允许模型在生成文本时，从外部知识库中检索相关信息，从而提高生成内容的准确性、相关性和时效性。这种方法不仅增强了模型的回答能力，还减少了生成错误信息的风险。

下载链接：

大模型技术的重要特性与发展趋势

权威科普：CPU处理器通识课

《AI系列深度报告合集》

大模型领域适配原理与实战

万卡级超大规模智算集群网络运维挑战及实战

《2024年中国信创产业发展白皮书合集》

1、艾媒咨询：2024年中国信创产业发展白皮书（精简版） 2、艾媒咨询：2023年中国信创产业发展白皮书（精简版）

中国AIOps现状调查报告（2024）

中国算力中心服务商分析报告（2024）

分布式异构智能算力的管理和调度技术研究报告

《大模型实践案例合集集》

1、2024大模型典型示范应用案例集 2、2023大模型落地应用案例集

2024人形机器人研究报告

2024亚太不同国家和区域对生成式AI的反应白皮书

大规模智算集群的管理与性能调优实践

计算机自主可控系列：国产AI算力万卡集群，多芯混合时代来临

2024年AI原生路由器白皮书

端侧AI行业：引领边缘智能革命，激发数据潜能

2024全球AI芯片研究报告

大模型时代的AI能力工程化

大模型时代的工业质检方法论

大模型时代数据库技术创新

大模型在融合通信中的应用实践

2024车载SoC芯片产业分析报告

中国智能汽车车载计算芯片产业报告

中国车规级芯片产业白皮书

计算机行业深度：从技术路径，纵观国产大模型逆袭之路

大模型的局限性

大型语言模型在自然语言处理领域展示了显著的能力，但它们也存在一系列固有的缺点。首先，虽然这些模型在掌握大量信息方面非常有效，但它们的结构和参数数量使得对其进行修改、微调或重新训练变得异常困难，且相关成本相当可观。

其次，大型语言模型的应用往往依赖于构建适当的提示（prompt）来引导模型生成所需的文本。这种方法通过将信息嵌入到提示中，从而引导模型按照特定的方向生成文本。然而，这种基于提示的方法可能使模型过于依赖先前见过的模式，而无法真正理解问题的本质。

大模型现存问题	大型语言模型的局限性
问题1.1	模型幻觉问题：生成内容可能不准确或不一致
问题1.2	时效性问题：生成的内容不具有当前时效性
问题1.3	数据安全问题：可能存在敏感信息泄露风险

在自然语言处理领域，幻觉（Hallucination）被定义为生成的内容与提供的源内容无关或不忠实，具体而言，是一种虚假的感知，但在表面上却似乎是真实的。在一般语境中，幻觉是一个心理学术语，指的是一种特定类型的感知。在自然语言处理或大型语言模型的语境下，这种感知即为一种虚假的、不符合实际的信息。

造成幻觉的原因主要可以归结为数据驱动原因、表示和解码的不完善以及参数知识偏见。首先，数据对不齐或不匹配可能导致幻觉，因为模型在训练中未能准确地理解源内容与参考内容之间的关系。

知识库问答（Knowledge Base Question Answering，KBQA）

知识库问答（Knowledge Base Question Answering，简称KBQA）是一种早期的对话系统方法，旨在利用结构化的知识库进行自然语言问题的回答。这种方法基于一个存储在图数据库中的知识库，通常以三元组的形式表示为<主题，关系，对象>，其中每个三元组都附带相关的属性信息。

知识库问答早期是对话系统中的有效方法，其基于知识图谱的结构为系统提供了丰富的语义信息，使得系统能够更深入地理解用户提出的问题，并以结构化的形式回答这些问题。随着技术的不断发展，KBQA方法也在不断演进，为对话系统的进一步提升奠定了基础。

在KBQA中，有两种主流方法用于处理自然语言问题：

主题识别与实体链接：该方法从识别问题中的主题开始，将其链接到知识库中的实体（称为主题实体）。通过主题实体，系统能够在知识库中查找相关的信息并回答问题。
多跳查询：基于图数据库的优势，KBQA能够进行多跳查询，即通过多个关系跨越多个实体来获取更深层次的信息。这种灵活性使得系统能够更全面地理解和回答用户的复杂问题。

RAG介绍

检索增强生成（RAG）技术在弥补大型语言模型（LLM）的局限性方面取得了显著进展，尤其是在解决幻觉问题和提升实效性方面。在之前提到的LLM存在的问题中，特别是幻觉问题和时效性问题，RAG技术通过引入外部知识库的检索机制，成功提升了生成内容的准确性、相关性和时效性。

RAG技术通过检索外部知识库，避免了幻觉问题的困扰。相较于单纯依赖大型语言模型对海量文本数据的学习，RAG允许模型在生成文本时从事实丰富的外部知识库中检索相关信息。
RAG技术的时效性优势使其在处理实效性较强的问题时更为可靠。通过与外部知识库的连接，RAG确保了模型可以获取最新的信息，及时适应当前的事件和知识。
与传统的知识库问答（KBQA）相比，RAG技术在知识检索方面更加灵活，不仅能够从结构化的知识库中检索信息，还能够应对非结构化的自然语言文本。

RAG优点	描述
优点1.1	提高准确性和相关性
优点1.2	改善时效性，使模型适应当前事件和知识
优点1.3	降低生成错误风险，依赖检索系统提供的准确信息

RAG被构建为一个应用于大型语言模型的框架，其目标是通过结合大模型的生成能力和外部知识库的检索机制，提升自然语言处理任务的效果。 RAG并非旨在取代已有的知识库问答（KBQA）系统，而是作为一种补充，利用检索机制强调实时性和准确性，从而弥补大型语言模型固有的局限性。

RAG框架的最终输出被设计为一种协同工作模式，将检索到的知识融合到大型语言模型的生成过程中。在应对任务特定问题时，RAG会生成一段标准化的句子，引导大模型进行回答。

RAG和SFT对比

在更新大型语言模型的知识方面，微调模型和使用RAG这两种方法有着各自的优缺点。微调模型优势在于能够通过有监督学习的方式，通过对任务相关数据的反复迭代调整，使得模型更好地适应特定领域的知识和要求。RAG能够从外部知识库中检索最新、准确的信息，从而提高了答案的质量和时效性。其优势在于可以利用最新的外部信息，从而更好地适应当前事件和知识。

	微调模型	RAG
优点	针对特定任务调整预训练模型。优点是可针对特定任务优化；	结合检索系统和生成模型。优点是能利用最新信息，提高答案质量，具有更好的可解释性和适应性：
缺点	但缺点是更新成本高，对新信息适应性较差；	是可能面临检索质量问题和曾加额外计算资源需求;

特性	RAG技术	SFT模型微调
知识更新	实时更新检索库，适合动态数据，无需频繁重训	存储静态信息，更新知识需要重新训练
外部知识	高效利用外部资源，适合各类数据库	可对齐外部知识，但对动态数据源不够灵活
数据处理	数据处理需求低	需构建高质量数据集，数据限制可能影响性能
模型定制化	专注于信息检索和整合，定制化程度低	可定制行为，风格及领域知识
可解释性	答案可追溯，解释性高	解释性相对低
计算资源	需要支持检索的计算资源，维护外部数据源	需要训练数据集和微调资源
延迟要求	数据检索可能增加延迟	微调后的模型反应更快
减少幻觉	基于实际数据，幻觉减少	通过特定域训练可减少幻觉，但仍然有限
道德和隐私	处理外部文本数据时需要考虑隐私和道德问题	训练数据的敏感内容可能引发隐私问题

RAG实现流程

如果使用RAG，主要包括信息检索和大型语言模型调用两个关键过程。信息检索通过连接外部知识库，获取与问题相关的信息；而大型语言模型调用则用于将这些信息整合到自然语言生成的过程中，以生成最终的回答。

RAG流程	描述
步骤1：问题理解	准确把握用户的意图
步骤2：知识检索	从知识库中相关的知识检索
步骤3：答案生成	将检索结果与问题

RAG每个步骤都面临一些挑战，这些挑战使得RAG的实现变得复杂而困难。在问题理解阶段，系统需要准确把握用户的意图。用户提问往往是短文本，而知识库中的信息可能是长文本。将用户提问与知识库中的知识建立有效的关联是一个难点，特别是考虑到用户提问可能模糊，用词不规范，难以直接找到相关的知识。

知识检索是RAG流程中的关键步骤，但也是面临挑战的步骤之一。用户提问可能以多种方式表达，而知识库的信息来源可能是多样的，包括PDF、PPT、Neo4j等格式。

此外用户的意图可能非常灵活，可能是提问，也可能需要进行闲聊。在这个阶段，需要确保生成的答案与用户的意图一致，同时保持自然、连贯的文本。此外，大型模型的输出可能存在幻觉问题，即生成的内容可能与问题不相关，增加了生成准确回答的难度。

技术类型	描述
Naive RAG	Naive RAG是RAG技术的最基本形式，也被称为经典RAG。包括索引、检索、生成三个基本步骤。索引阶段将文档库分割成短的Chunk，并构建向量索引。检索阶段根据问题和Chunks的相似度检索相关文档片段。生成阶段以检索到的上下文为条件，生成问题的回答。
Advanced RAG	Advanced RAG在Naive RAG的基础上进行优化和增强。包含额外处理步骤，分别在数据索引、检索前和检索后进行。包括更精细的数据清洗、设计文档结构和添加元数据，以提升文本一致性、准确性和检索效率。在检索前使用问题的重写、路由和扩充等方式对齐问题和文档块之间的语义差异。在检索后通过重排序避免“Lost in the Middle”现象，或通过上下文筛选与压缩缩短窗口长度。
Modular RAG	Modular RAG引入更多具体功能模块，例如查询搜索引擎、融合多个回答等。技术上融合了检索与微调、强化学习等。流程上对RAG模块进行设计和编排，出现多种不同RAG模式。提供更大灵活性，系统可以根据应用需求选择合适的功能模块组合。模块化RAG的引入使得系统更自由、灵活，适应不同场景和需求。

在RAG技术流程中，涉及多个关键模块，每个模块承担着特定的任务，协同工作以实现准确的知识检索和生成自然语言回答。

技术模块	描述
意图理解	意图理解模块负责准确把握用户提出的问题，确定用户的意图和主题。处理用户提问的模糊性和不规范性，为后续流程提供清晰的任务目标。
文档解析	文档解析模块用于处理来自不同来源的文档，包括PDF、PPT、Neo4j等格式。该模块负责将文档内容转化为可处理的结构化形式，为知识检索提供合适的输入。
文档索引	文档索引模块将解析后的文档分割成短的Chunk，并构建向量索引。或通过全文索引进行文本检索，使得系统能够更快速地找到与用户问题相关的文档片段。
向量嵌入	向量嵌入模块负责将文档索引中的内容映射为向量表示，以便后续的相似度计算。这有助于模型更好地理解文档之间的关系，提高知识检索的准确性。
知识检索	知识检索模块根据用户提问和向量嵌入计算的相似度检索或文本检索打分。这一步骤需要解决问题和文档之间的语义关联，确保检索的准确性。
重排序	重排序模块在知识检索后对文档库进行重排序，以避免“Lost in the Middle”现象，确保最相关的文档片段在前面。
大模型回答	大模型回答模块利用大型语言模型生成最终的回答。该模块结合检索到的上下文，以生成连贯、准确的文本回答。
其他功能模块	可根据具体应用需求引入其他功能模块，如查询搜索引擎、融合多个回答等。模块化设计使得系统更加灵活，能够根据不同场景选择合适的功能模块组合。

两个大模型介绍

ChatGPT是OpenAI开发的聊天生成预训练转换器，基于GPT-3.5和GPT-4架构。该模型通过强化学习训练，具有出色的语言生成能力。ChatGPT支持文字方式的交互，用户可以使用自然语言对话的方式与ChatGPT进行通信。API的引入使得开发者能够将ChatGPT整合到自己的应用中，实现自动文本生成、自动问答等功能。

GLM是智谱AI推出的新一代基座大模型，相比上一代有着显著提升的性能，逼近GPT-4。GLM支持更长的上下文（128k），具备强大的多模态能力，并且推理速度更快，支持更高的并发。GLM的API接口为开发者提供了在自己应用中利用GLM进行语言生成的机会，为多种领域的任务提供了新的解决方案。

虽然这两个大模型都非常有效，但我们希望所有的学习者都需要学会对应的API调用。如果在本地使用ChatGLM3-6B等开源模型，也可以完成类似功能，但整体效果肯定不如这些费用的API。在任务2中，为了方便所有同学参与，我们将使用在线的ChatGPT/GLM API进行开发。这为没有本地GPU资源的同学提供了更便捷的方式。

来源：http://discussion.coggle.club/t/topic/30

下载链接：

700+份重磅ChatGPT专业报告

《2024世界机器人大会：人形机器人十大趋势展望》

《AI时代的网络：网络定义数据中心》

2024年中国智算产业生态图谱

《HotChips 2024大会技术合集（1）》

《HotChips 2024大会技术合集（2）》

《HotChips 2024大会技术合集（3）》

《HotChips 2024大会技术合集（4）》

《HotChips 2024大会技术合集（5）》

《HotChips 2024大会技术合集（6）》

《HotChips 2024大会技术合集（7）》

《HotChips 2024大会技术合集（8）》

机器人专题研究：产业发展概览（2024）

国产AI算力行业报告：浪潮汹涌，势不可挡（2024）

机器人专题研究：产业发展概览（2024）

《算力网络：光网络技术合集（1）》

1、面向算力网络的新型全光网技术发展及关键器件探讨

2、面向算力网络的光网络智能化架构与技术白皮书

3、2023开放光网络系统验证测试规范

4、面向通感算一体化光网络的光纤传感技术白皮书

2024中国服务器CPU行业概览：信创带动服务器CPU国产化

《AI算力“卖水人”系列报告合集》

1、AI算力卖水人系列（1）：2024年互联网AI开支持续提升 2、AI算力卖水人系列（2）：芯片散热从风冷到液冷，AI驱动产业革新

《算力网络：光网络技术合集（2）》

1、数据中心互联开放光传输系统设计

2、确定性光传输支撑广域长距算力互联

3、面向时隙光交换网络的纳秒级时间同步技术

4、数据中心光互联模块发展趋势及新技术研究

面向超万卡集群的新型智算技术白皮书

面向AI大模型的智算中心网络演进白皮书

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1677篇粉丝：208人

关注  私信

干货：检索增强生成（RAG）技术

最近文章

热门文章

推荐

最新资讯