穿过幻觉荒野，大模型RAG越野赛

原创脑极体 2025-01-27 14:58

【直播】创新芯片重塑机器人未来 构建AI未来，Arm计算平台无处不在

2025年初，大模型赛场热度不减，有拼成本优势，拼Tokens调用量的短跑赛；有比慢思考，比大模型推理能力的长跑赛。但在观看这些“经典赛事”的同时，我们还需要注意另一场正在举行中，并且对大模型行业未来至关重要的比赛——RAG越野赛。

所谓RAG，是指Retrieval-Augmented Generation检索增强生成。顾名思义，RAG是将大语言模型的生成能力与搜索引擎的信息检索能力进行结合，这已经成为目前主流大模型的标配。

之所以说RAG是一场越野赛，是因为大模型最被人质疑的问题，就是生成内容时经常会出现有明显讹误的大模型幻觉。这些幻觉就像崇山峻岭，遮挡了大模型的进化之路。

而RAG的战略价值，就在于它是克服大模型幻觉的核心方案。换言之，谁能赢得RAG越野赛，谁就能解决大模型的核心痛点，将AI带到下一个时代。

让我们进入大模型RAG的赛道，看看这场越野将把AI带向何方。

让我们先把时针调回到你第一次接触大语言模型的时候。初次尝试与大模型聊天，惊艳之外，是不是感觉好像有哪里不对？

这种不适感，很可能来自大模型的三个问题：

1.胡言乱语。对话过程中，我们经常会发现大模型说一些明显不符合常识的话，比如“林黛玉的哥哥是林冲”“鲁智深是法国文学家”之类的。这就是LLM模型的运行原理，导致其在内容生成过程中会为了生成而生成，不管信息正确与否。这也就是广受诟病的大模型幻觉。业内普遍认为，幻觉不除，大模型就始终是玩具而非工具。

2.信息落后。大模型还有一个问题，就是知识库更新较慢，从而导致如果我们问近期发生的新闻与实时热点它都无法回答。但问题在于，我们工作生活中的主要问题都具有时效性，这导致大模型的实用价值大打折扣。

3.缺乏根据。另一种情况是，大模型给出了回答，但我们无法判断这些回答的真伪和可靠性。毕竟我们知道有大模型幻觉的存在，进而会对AGIC产生疑虑。我们更希望能够让大模型像论文一样标注每条信息的来源，从而降低辨别成本。

这些问题可以被统称为“幻觉荒野”。而想要穿越这片荒野，最佳途径就是将大模型的理解、生成能力，与搜索引擎的信息检索融合在一起。

因为信息检索能够给大模型提供具有时效性的信息，并且指明每条信息的来源。在检索带来的信息库加持下，大模型也可以不再“胡言乱语”。

检索是方法，生成是目的，通过高质量的检索系统，大模型有望克服幻觉这个最大挑战。

于是，RAG技术应运而生。

在RAG赛道上，检索的优劣将很大程度上影响生成模型最终生成结果的优劣。比如说，百度在中文搜索领域的积累，带来了语料、语义理解、知识图谱等方面的积淀。这些积淀有助于提升中文RAG的质量，从而让RAG技术更快在中文大模型中落地。在搜索引擎领域，百度构建了庞大的知识库与实时数据体系，在众多需要专业检索的垂直领域进行了重点布局。

其实，把搜索领域的积累，第一时间带到大模型领域，这一点并不容易。因为我们都知道，面向人类的搜索结果并不适合大模型来阅读理解。想要实现高质量的RAG，就需要寻找能够高效支持搜索业务场景和大模型生成场景的架构解决方案。

百度早在2023年3月发布文心一言时就提出了检索增强，大模型发展到今天，检索增强也早成为业界共识。百度检索增强融合了大模型能力和搜索系统，构建了“理解－检索－生成”的协同优化技术，提升了模型技术及应用效果。通俗来看，理解阶段，基于大模型理解用户需求，对知识点进行拆解；检索阶段，面向大模型进行搜索排序优化，并将搜索返回的异构信息统一表示，送给大模型；生成阶段，综合不同来源的信息做出判断，并基于大模型逻辑推理能力，解决信息冲突等问题，从而生成准确率高、时效性好的答案。

就这样，RAG成为百度文心大模型的核心差异化技术路径。可以说，检索增强成为文心大模型的一张名片。

让我们随便问个问题，测测。

如今，基本主流大模型都会提供RAG体验，比如告知用户模型调用了多少个网页，检索信息的出处在哪里等。但RAG这场越野赛依旧有着鲜明的身位差距，想要知道这个排位方法也非常简单，随便问各款大模型一个相同的问题就可以。

比如说，春节将至，逛庙会是北京春节必不可少的一部分。但北京春节庙会众多，小伙伴们肯定会想知道哪个庙会更适合自己，以及他们的营业时间是怎么样的。

于是，我把“北京春节庙会哪个更推荐？它们的营业时间是什么？”分别提问给百度文心一言、豆包、Kimi、DeepSeek等。在这里，文心一言我们使用的是付费版，文心大模型4.0 Turbo。

文心一言的答案是这样的，首先它结合检索到的信息，推荐了数十个北京的春节庙会，并且列出了每个庙会的地点、时间等信息。