迄今为止最好的 RAG 堆栈

是什么让 RAG 系统真正成为顶级系统呢？是组件吗？让我们来看看最好的组件以及它们的工作原理，这样您也可以让您的 RAG 系统成为顶级系统，并获得多模态奖励。

查询分类

让我们从查询分类开始。并非所有查询都是平等的——有些查询甚至不需要检索，因为大型语言模型已经知道答案。例如，如果你问“梅西是谁？”，法学硕士就能帮你回答。无需检索！

Wang 等人创建了 15 个任务类别，确定查询是否提供了足够的信息或是否需要检索。他们训练了一个二元分类器来区分任务，将不需要检索的标记为“足够”，将需要检索的标记为“不足”。在这张图片中，黄色表示不需要，红色表示去获取一些文档！

分块

接下来是分块。这里的挑战是找到适合您数据的完美块大小。太长？您会增加不必要的噪音和成本。太短？您会错过上下文。

Wang 等人发现，块大小在 256 到 512 个标记之间效果最好。但请记住，这会因数据而异 — 因此请务必进行评估！专业提示：使用small2big（从小块开始搜索，然后移动到较大的块进行生成），或尝试滑动窗口在块之间重叠标记。

元数据和混合搜索

利用您的元数据！添加标题、关键词甚至假设问题等内容。将其与混合搜索相结合，后者结合了向量搜索（用于语义匹配）和用于传统关键词搜索的 BM25，您就成功了。

HyDE（生成伪文档以增强检索）很酷，可以带来更好的结果，但效率极低。目前，请继续使用混合搜索 – 它能实现更好的平衡，尤其是对于原型设计而言。

嵌入模型

选择正确的嵌入模型就像找到一双完美的鞋子。你不会想要一双用来打网球的足球鞋。FlagEmbedding的LLM-Embedder最适合这项研究——性能和尺寸的平衡性很好。不是太大，也不是太小——正好合适。

请注意，他们只测试了开源模型，因此 Cohere 和 OpenAI 被排除在外。否则，Cohere 可能是你最好的选择。

矢量数据库

现在来看看数据库。对于长期使用，Milvus是他们的首选矢量数据库。它是开源的、可靠的，是让您的检索系统顺利运行的绝佳选择。我也在下面的描述中链接了它。

查询转换

在检索之前，您必须转换这些用户查询！无论是通过查询重写来提高清晰度，还是通过查询分解将复杂问题分解为较小的问题并检索每个子问题，甚至生成伪文档（如HyDE 所做的那样）并在检索过程中使用它们——这一步对于提高准确性至关重要。请记住，更多的转换会增加延迟，尤其是 HyDE。

重新排名

现在我们来谈谈重新排序。检索文档后，您需要确保最相关的文档位于最顶部。这就是重新排序的作用所在。

在这项研究中，monoT5脱颖而出，成为平衡性能和效率的最佳选择。它对 T5 模型进行了微调，根据文档与查询的相关性对文档进行重新排序，确保最佳匹配优先。RankLLaMA总体上表现最佳，但TILDEv2速度最快。如果您有兴趣，论文中还有更多关于每个模型的信息。

文件重新包装

重新排序后，您需要进行一些文档重新打包。Wang 等人推荐“反向”方法，即按相关性升序排列文档。Liu等人 (2024)发现这种方法（将相关信息放在开头或结尾）可以提高性能。重新打包优化了在重新排序过程发生后向 LLM 呈现信息以供生成的方式，以帮助 LLM 以更好的顺序（而不是理论上的相关顺序）更好地理解所提供的信息。

总结