RAG2.0来了

今天,我们宣布推出 RAG 2.0,这是我们为实现企业级性能而开发强大可靠的 AI 的方法。与上一代 RAG(将冻结模型、矢量数据库和质量较差的嵌入拼接在一起)不同,我们的系统进行了端到端优化。

使用 RAG 2.0,我们创建了第一组上下文语言模型 (CLM),这些模型在各种行业基准上都实现了最先进的性能。根据我们的研究和客户,CLM 的表现远远优于基于 GPT-4 的强大 RAG 基线和最佳开源模型。

RAG2.0来了

使用 RAG 2.0 训练的上下文语言模型在我们所有基准测试中的表现都明显优于现有的 RAG 系统。

 自然问题 (NQ)、HotpotQA (HPQA) 和 TriviaQA 使用精确匹配指标。由于 HaluEvalQA 和 TruthfulQA 需要 logits,因此无法直接在这些任务上评估 GPT-4。Vanilla RAG 是零样本的;我们所说的 RAG 包括少量样本演示、仔细分块和手动提示工程。我们投入了大量精力来加强基线。

在这篇博文中,我们分享了我们在构建生成式 AI 系统方面的进展,该系统已超越演示阶段,成为真正的生产级系统:

  • 我们介绍了使用冻结的现成模型的 RAG 与 RAG 2.0 之间的区别,RAG 2.0 将语言模型和检索器作为单一系统进行端到端优化。
  • 我们证明,RAG 2.0 在从开放领域问答到忠诚度等各种基准测试中都实现了最先进的性能,远远优于现有的 RAG 方法。
  • 我们重点介绍了 RAG 2.0 在实际客户工作负载方面取得的更大进步,并讨论了其在生产中的可行性。

为什么是 RAG 2.0?

语言模型很难完成知识密集型任务,因为它们受到训练期间接触到的信息的限制。

2020 年,我们的联合创始人兼首席执行官 Douwe Kiela 及其 Facebook AI Research 团队引入了检索增强生成 (RAG) 来缓解这一问题,通过使用检索器增强语言模型来访问来自外部来源(例如 Wikipedia、Google、公司内部文档)的数据。 

如今,典型的 RAG 系统使用现成的模型进行嵌入,使用矢量数据库进行检索,使用黑盒语言模型进行生成,并通过提示或编排框架将它们拼接在一起。这导致了生成式人工智能的“弗兰肯斯坦怪物”:各个组件在技术上可以工作,但整体远非最佳。这些系统很脆弱,缺乏任何机器学习或针对其部署领域的专业化,需要大量提示,并且容易出现级联错误。因此,RAG 系统很少通过生产标准。 

RAG 2.0 方法将所有组件作为单个集成系统进行预训练、微调和调整,并通过语言模型和检索器进行反向传播以最大限度地提高性能:

RAG2.0来了

深度学习的历史一再表明,端到端优化比手动调整的系统表现更好。我们采用这种方法来突破 RAG 的限制,并开发了 RAG 2.0。总结一下:如果你知道你将要进行 RAG,那么你就应该训练系统进行 RAG 训练。

RAG 2.0 基准

我们从多个维度对上下文语言模型 (CLM) 与冻结 RAG 系统进行了比较: 

  • 开放领域问答:我们使用经典的自然问题 (NQ) 和 TriviaQA 数据集来测试每个模型正确检索相关知识并准确生成答案的能力。我们还在单步检索设置中对 HotpotQA (HPQA) 数据集上的模型进行了评估。所有数据集均使用精确匹配 (EM) 指标。
  • 忠诚度:HaluEvalQA 和 TruthfulQA 用于衡量每个模型在检索到的证据和幻觉中保持扎根的能力。
  • 新鲜度:我们使用网络搜索索引来衡量每个 RAG 系统推广到快速变化的世界知识的能力,并显示最近的 FreshQA 基准的准确性。

这些轴中的每一个对于构建生产级 RAG 系统都很重要。我们表明,与使用 GPT-4 或 Mixtral 等最先进的开源模型构建的各种强冻结 RAG 系统相比,CLM 显著提高了性能。

RAG2.0来了

知识密集型基准测试的结果。 我们的 vanilla RAG 和标准 RAG 基线都使用冻结搜索索引、重新排序和现成的语言模型。对于我们的 RAG 基线,我们使用带有手动调整提示的少量样本设置来展示这些更改如何导致下游任务性能比我们的 vanilla zero-shot RAG 设置有大幅提升。

我们的 HotpotQA 评估使用 KILT 基准和 EM 指标发布的分割。HaluEvalQA 使用基于对数概率的零样本二进制准确度,并且仅评估给定基本事实上下文文档的语言模型的忠实度。TruthfulQA 使用 MC1 指标。

我们在 Google Cloud 的最新一代 ML 基础架构上训练并部署了 RAG 2.0 模型。使用配备 H100 GPU 和最新 TCPx 网络堆栈的 A3 实例,我们能够大规模训练 RAG 2.0 模型,以实现一流的准确率。

在实际中应用 RAG 2.0

正如我们在早期客户身上看到的那样,当应用于现实世界数据时,CLM 比当前方法取得了更大的收益。

以 FinanceBench 为例(为了维护客户数据的机密性),我们可以看到,即使在特定于金融的公开书籍问答中,CLM 的表现也优于冻结的 RAG 系统 – 并且在法律和硬件工程等其他专业领域也取得了类似的进步。

RAG2.0来了

RAG 2.0 和长上下文窗口

在评估现实世界的实现时,有些人可能想知道 RAG 2.0 与具有长上下文窗口的最新模型相比如何——所以我们也深入研究了这一点。 

长上下文模型通常使用“大海捞针”基准进行评估,其中“针”(即事实)隐藏在大型“大海捞针”(即文本语料库)中,并使用旨在引出特定针的查询来评估模型。为了有意义地比较冻结 RAG 和上下文语言模型,我们通过创建一个包含 2M 个标记的非重复大海捞针来调整最近的传记基准。使用 100 多个传记问题的测试集,我们评估了 CLM、Frozen-RAG 和 GPT-4-Turbo(最多 32K 个标记),大海捞针的范围从 2K 到 2M 个标记。 

RAG2.0来了

我们看到 RAG 2.0 的表现更出色,特别是当您希望扩展时:与长上下文语言模型相比,RAG 2.0 的准确度更高,并且使用的计算量大大减少,这种差异在生产中变得有意义。

与我们一起构建 RAG 2.0

我们相信,需要端到端解决方案才能充分发挥企业中生成式 AI 的潜力。我们对 RAG 2.0 的成果感到非常兴奋,迫不及待地想将它带给更多领先企业。

如今,财富 500 强企业和独角兽企业均已开始与 Contextual 合作构建 RAG 2.0;他们在 Contextual 平台上利用 CLM 和我们最新的微调和调整技术(如GRITKTOLENS)来部署他们可以在生产中信赖的生成式 AI。

原文地址:https://contextual.ai/introducing-rag2/

RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/2745

Like (0)
Previous 2024-06-09 9:44 下午
Next 2024-06-09 10:05 下午

相关推荐

发表回复

Please Login to Comment
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn