第三章 RAG和Fine-tuning的区别
Fine-tuning中文微调。作为另外一种基础大模型的优化手段,业界最近经常和RAG这个方式对比。因此,我们在这里针对各方面,详细的展开比较。
总体来看,没有什么必须2选一,它们两种优化方案是不冲突的。
下图是一个较好的比较图标
3.1 基础知识
在机器学习领域当中,微调 (Fine-tuning) 是指在已经训练好的模型基础上,进一步调整,让你模型的输出能够更符合你的预期。
透过微调,我们可以不用重新训练一个新的模型,这让我们能够省去训练新模型的高昂成本。
微调的方式很简单,你只需要准备成对的训练资料。然后喂入 Fine-tuning API 就可以完成了。这边指的成对资料,是输入搭配输出,例如「东京奥运的羽球男单金牌是谁?」这个输入,以及在收到这样的输入时,你认为什么样的输出是理想的,例如「东京奥运的羽球男单金牌是丹麦的羽球选手安赛龙」这个输出。
模型还可以通过“适配器”进行增强,适配器的参数远少于原始模型,通过调整适配器的权重并保持模型的其余权重不变的方式,以参数有效的方式进行微调。
对于一些体系结构,比如卷积神经网络,通常会将较早的层(靠近输入层的层)冻结,因为它们捕捉到较低层次的特征,而较后的层通常能够识别更高层次的特征,这些特征可能更相关于模型训练的任务。
对于在大型和通用语料库上进行预训练的模型,通常通过重用模型的参数作为起点,并添加一个从头开始训练的任务特定层进行微调。对整个模型进行微调也很常见,通常会产生更好的结果,但计算成本更高。
微调通常通过监督学习完成,但也有使用弱监督进行模型微调的技术。
微调可以与基于人类反馈的强化学习目标相结合,以生成像ChatGPT(GPT-3的微调版本)和Sparrow等语言模型。
RAG:这种方法将检索(或搜索)功能集成到 LLM 文本生成中。它结合了检索系统(从大型语料库中获取相关文档片段)和 LLM(使用这些片段中的信息生成答案)。从本质上讲,RAG 可帮助模型“查找”外部信息以改进其响应。
微调:这是使用预先训练好的 LLM 并在较小的特定数据集上进一步训练它的过程,以使其适应特定任务或提高其性能。通过微调,我们根据数据调整模型的权重,使其更适合我们应用程序的独特需求。
RAG 和微调都是增强基于 LLM 的应用程序性能的强大工具,但它们解决优化过程的不同方面,因此在选择其中一种时这一点至关重要。
以前,我经常建议组织在进行微调之前先尝试使用 RAG。这是基于我的看法,即两种方法都取得了类似的结果,但在复杂性、成本和质量方面有所不同。
最初的一般的建议:从 RAG 开始,评估其性能,如果发现不足,则转向微调。然而,我的观点后来发生了变化。将 RAG 和微调视为两种实现相同结果的技术过于简单,只是其中一种比另一种更便宜、更简单。
它们本质上是不同的——它们不是共线的,而是正交的——并且满足 LLM 应用程序的不同要求。
3.1.1 微调的基本原理
- 预训练模型
大规模数据预训练:预训练阶段,模型在大量未标注的文本数据上进行训练。这个过程通常使用自监督学习方法,如语言建模任务,其中模型学习预测句子中的下一个词或填补句子中的空白。
通用语言表示:通过预训练,模型可以学习到广泛的语言知识和语法结构。这些知识和结构在不同的语言任务中是通用的。
- 微调
特定任务数据集:在微调阶段,使用一个特定任务的数据集进行训练。这些数据集通常是有标注的,例如情感分析数据集、问答数据集等。
权重调整:微调过程中,模型的权重会根据特定任务的数据进行调整,从而使模型能够更好地适应这个任务。
3.1.2 微调的步骤
- 加载预训练模型:
首先,加载一个已经在大规模数据上预训练好的模型。这个模型已经具备了基本的语言理解能力。
- 准备特定任务的数据集:
收集并准备好用于微调的数据集。这个数据集应该包含与特定任务相关的标注数据。例如,对于情感分析任务,数据集可能包含句子及其对应的情感标签。
- 设置微调参数:
定义微调过程中的超参数,如学习率、批量大小和训练轮数等。
通常,微调阶段的学习率会比预训练阶段的学习率低,以避免对预训练的权重进行过度调整。
- 训练模型:
使用特定任务的数据集进行训练。此时,模型的权重会根据任务数据进行微调。
在训练过程中,模型会根据任务的损失函数进行优化。例如,对于分类任务,常用的损失函数是交叉熵损失。
- 评估和验证:
在验证集上评估微调后的模型性能,确保模型在特定任务上表现良好。
根据评估结果,可能需要调整超参数或进行更多的训练。
- 部署模型:
微调完成并验证后,模型就可以部署到生产环境中,用于实际任务。
3.1.3 微调的优势
- 高效性: 通过微调,模型可以在相对较少的数据和计算资源下,获得良好的性能。这是因为模型已经在预训练阶段学到了大量的语言知识。
- 适应性: 微调使得预训练模型可以适应各种不同的下游任务。例如,一个预训练好的语言模型可以通过微调用于情感分析、文本分类、命名实体识别等任务。
- 性能提升: 预训练模型通常比从头开始训练的模型具有更好的初始化状态,微调后的模型在特定任务上的性能往往更高。
3.1.4 微调的挑战
- 过拟合: 如果特定任务的数据集很小,模型可能会过拟合到这个数据集,从而在实际应用中表现不佳。使用适当的正则化技术和数据增强方法可以缓解这个问题。
- 数据偏差: 如果微调数据集与预训练数据集的分布差异很大,模型可能会出现偏差。因此,选择合适的微调数据集非常重要。
- 计算资源: 尽管微调比从头开始训练要高效,但仍然需要一定的计算资源,尤其是当模型非常大时。
3.2 具體比較
微调(Fine-tuning)和检索增强生成(RAG,Retrieval-Augmented Generation)是两种在自然语言处理(NLP)中的技术方法,它们各自有不同的优缺点,适用于不同的应用场景。
以下是对这两种方法的详细比较:
3.2.1 微调(Fine-tuning)
优点
- 高效性:
性能提升:通过微调,预训练模型可以在特定任务上获得非常高的性能,因为它已经在大量数据上学习了通用的语言特征。
统一模型:一个微调后的模型可以直接用于生产环境,无需依赖外部资源。
- 灵活性:
多任务适用:微调后的模型可以适应各种不同的下游任务,从文本分类到问答系统。
- 简化设计:
无需复杂架构:微调方法相对简单,不需要设计复杂的检索和生成机制,只需在特定任务数据集上进行训练。
缺点
- 数据需求:
标注数据依赖:微调需要一定量的标注数据,这对于一些领域可能是个挑战,尤其是当标注数据稀缺或昂贵时。
- 过拟合风险:
小数据集问题:在数据集较小的情况下,模型可能容易过拟合,导致在实际应用中表现不佳。
- 单一性:
固定知识:微调后的模型知识是固定的,无法动态更新或扩展。如果需要新的知识,必须重新微调模型。
3.2.2 检索增强生成(RAG,Retrieval-Augmented Generation)
优点
- 动态知识: 实时更新:RAG 模型可以实时从外部知识库中检索最新的信息,使得生成的内容更加准确和时效性强。 知识扩展:无需重新训练模型即可扩展知识,只需更新检索数据库。
- 数据需求低: 少量标注数据:RAG 可以在较少的标注数据情况下工作,因为它依赖于检索到的外部信息来增强生成能力。
- 多样性和灵活性: 应对多样化任务:RAG 可以处理多种任务,如问答、对话生成等,并且能够应对复杂和多样化的查询。
缺点
- 复杂性: 系统设计复杂:RAG 需要设计和维护一个高效的检索系统和生成系统,这增加了系统的复杂性和维护成本。 检索质量依赖:生成结果的质量高度依赖于检索到的信息质量,如果检索系统表现不佳,生成结果也会受到影响。
- 计算资源: 双重计算开销:RAG 需要同时进行检索和生成,这可能会增加计算资源的消耗,尤其是在大规模应用场景中。
- 延迟: 响应时间:检索过程会增加一定的延迟,可能不适用于对实时性要求很高的应用场景。
另外适用场景方面也進行對比下:
微调(Fine-tuning) | RAG(Retrieval-Augmented Generation) |
适用于有充足标注数据的特定任务 | 适用于动态知识更新需求高的任务,如实时问答系统 |
需要高性能和高一致性的应用场景 | 适用于数据稀缺或标注数据昂贵的领域 |
对知识更新要求不高的任务。因爲RAG需要不斷的增强本地知識庫的更新 | 需要处理多样化和复杂查询的任务 |
3.3 关键考虑因素
在选择 RAG 还是 Fintuning 之前,应该从某些方面评估我们的 LLM 项目的要求并问自己几个问题。
3.3.1 我们的用例是否需要访问外部数据源?
在选择微调 LLM 还是使用 RAG 时,一个关键考虑因素是应用程序是否需要访问外部数据源。如果答案是肯定的,那么 RAG 可能是更好的选择。
从定义上讲,RAG 系统旨在通过从知识源检索相关信息然后再生成响应来增强 LLM 的功能。这使得该技术非常适合需要查询数据库、文档或其他结构化/非结构化数据存储库的应用程序。可以优化检索器和生成器组件以利用这些外部源。
相比之下,虽然可以对 LLM 进行微调以学习一些外部知识,但这样做需要来自目标域的大量带标签的问答对数据集。此数据集必须随着基础数据的变化而更新,因此对于经常变化的数据源来说并不实用。微调过程也没有明确模拟查询外部知识所涉及的检索和推理步骤。
总而言之,如果我们的应用程序需要利用外部数据源,使用 RAG 系统可能会比仅通过微调来“吸收”所需知识更有效、更具可扩展性。
3.3.2 我们是否需要修改模型的行为、写作风格或特定领域的知识?
需要考虑的另一个非常重要的方面是我们需要模型在多大程度上调整其行为、写作风格或为特定领域的应用程序定制其响应。
微调的优势在于它能够根据特定的细微差别、语调或术语调整 LLM 的行为。如果我们希望模型听起来更像医学专业人士、以诗意的风格写作或使用特定行业的术语,那么对特定领域的数据进行微调可以让我们实现这些定制。这种影响模型行为的能力对于与特定风格或领域专业知识保持一致至关重要的应用程序至关重要。
RAG 虽然在整合外部知识方面功能强大,但主要侧重于信息检索,本身并不会根据检索到的信息调整其语言风格或领域特异性。它会从外部数据源提取相关内容,但可能无法展现微调模型可以提供的定制细微差别或领域专业知识。
因此,如果我们的应用程序需要专业的写作风格或与特定领域的术语和惯例深度契合,微调是实现这种契合的更直接途径。它提供了与特定受众或专业领域真正产生共鸣所需的深度和定制性,确保生成的内容真实可信且信息量丰富。
3.3.3 快速回顾
在决定使用哪种方法来提高 LLM 应用程序的性能时,这两个方面是迄今为止最重要的考虑因素。有趣的是,在我看来,它们是正交的,可以独立使用(也可以组合使用)。
然而,在深入研究用例之前,在选择方法之前我们还应该考虑一些关键方面:
3.3.4 抑制幻觉有多重要?
LLM 的缺点之一是容易产生幻觉——编造毫无现实依据的事实或细节。这在注重准确性和真实性的申请中可能会带来很大问题。
微调可以将模型扎根于特定领域的训练数据,从而在一定程度上减少幻觉。然而,面对不熟悉的输入,模型仍可能会编造反应。需要对新数据进行重新训练,以不断减少错误编造。
相比之下,RAG 系统本质上不太容易产生幻觉,因为它们将每个响应都建立在检索到的证据上。在生成器构建答案之前,检索器会从外部知识源中识别相关事实。此检索步骤充当事实核查机制,降低了模型的虚构能力。生成器被限制为合成由检索到的上下文支持的响应。
因此,在抑制谎言和虚构至关重要的应用中,RAG 系统提供了内置机制来最大限度地减少幻觉。在生成响应之前检索支持证据使 RAG 在确保事实准确和真实的输出方面具有优势。
3.3.5 有多少标记的训练数据可用?
在 RAG 和微调之间做出选择时,需要考虑的一个关键因素是我们可掌握的领域或任务特定的标记训练数据的数量。
对 LLM 进行微调以适应特定任务或领域在很大程度上取决于可用标记数据的质量和数量。丰富的数据集可以帮助模型深入了解特定领域的细微差别、复杂性和独特模式,从而使其能够生成更准确、更符合上下文的响应。但是,如果我们使用的数据集有限,微调带来的改进可能微不足道。在某些情况下,数据集不足甚至可能导致过度拟合,即模型在训练数据上表现良好,但在处理看不见的或现实世界的输入时会遇到困难。
相反,RAG 系统独立于训练数据,因为它们利用外部知识源来检索相关信息。即使我们没有大量标记的数据集,RAG 系统仍然可以通过访问和整合来自其外部数据源的见解来胜任。检索和生成的结合确保系统保持知情,即使特定领域的训练数据稀疏。
本质上,如果我们拥有大量标记数据,能够捕捉到该领域的复杂性,那么微调可以提供更具针对性和更精细的模型行为。但在此类数据有限的情况下,RAG 系统提供了一种强大的替代方案,通过其检索功能确保应用程序始终了解数据并了解上下文。
3.3.6 数据有多静态/动态?
在 RAG 和微调之间进行选择时,需要考虑的另一个基本方面是数据的动态特性。数据更新的频率是多少?模型保持最新状态的重要性有多大?
在特定数据集上对 LLM 进行微调意味着模型的知识在训练时成为该数据的静态快照。如果数据频繁更新、更改或扩展,这可能会很快导致模型过时。为了在如此动态的环境中保持 LLM 的最新状态,我们必须经常对其进行重新训练,这个过程既耗时又耗资源。此外,每次迭代都需要仔细监控,以确保更新后的模型在不同场景中仍然表现良好,并且没有产生新的偏见或理解上的差距。
相比之下,RAG 系统在动态数据环境中具有先天优势。它们的检索机制不断查询外部来源,确保它们提取的用于生成响应的信息是最新的。随着外部知识库或数据库的更新,RAG 系统无缝集成这些变化,无需频繁重新训练模型即可保持其相关性。
总而言之,如果我们要应对快速发展的数据格局,RAG 提供的灵活性是传统微调难以比拟的。通过始终保持与最新数据的联系,RAG 可确保生成的响应与当前信息状态保持一致,使其成为动态数据场景的理想选择。
3.3.7 我们的 LLM 应用程序需要有多透明/可解释?
最后要考虑的方面是我们需要了解模型决策过程的程度。
LLM 的微调功能非常强大,但它就像一个黑匣子,使得其响应背后的推理更加不透明。随着模型从数据集中吸收信息,辨别每个响应背后的确切来源或推理变得具有挑战性。这可能会让开发人员或用户难以信任模型的输出,尤其是在关键应用中,理解答案背后的“原因”至关重要。
另一方面,RAG 系统提供了仅在微调模型中通常不具备的透明度。鉴于 RAG 的两步性质(检索和生成),用户可以窥视该过程。检索组件允许检查哪些外部文档或数据点被选为相关。这提供了有形的证据或参考线索,可以对其进行评估以了解响应的基础。在需要高度责任感的应用程序中,或者当需要验证生成内容的准确性时,将模型的答案追溯到特定数据源的能力可能非常有价值。
从本质上讲,如果透明度和解释模型响应基础的能力是优先事项,那么 RAG 具有明显的优势。通过将响应生成分解为不同的阶段并允许深入了解其数据检索,RAG 可以提高对其输出的信任度和理解度。
3.3.8 概括
考虑到这些维度,在 RAG 和微调之间做出选择变得更加直观。如果我们需要倾向于获取外部知识并重视透明度,RAG 就是我们的首选。另一方面,如果我们使用的是稳定的标记数据,并旨在使模型更贴近特定需求,微调是更好的选择。
3.4 总结(在专业领域和/或特定风格)
- 需要外部知识?对于以以前的摘要风格进行总结的任务,主要数据源将是以前的摘要本身。如果这些摘要包含在静态数据集中,则几乎不需要连续的外部数据检索。但是,如果有一个经常更新的动态摘要数据库,并且目标是不断使样式与最新条目保持一致,那么 RAG 可能在这里很有用。
- 需要模型调整?此用例的核心在于适应专业领域或特定的写作风格。微调特别擅长捕捉文体细微差别、音调变化和特定领域词汇,使其成为此维度的最佳选择。
- 尽量减少幻觉至关重要?幻觉在大多数 LLM 应用中都是有问题的,包括总结。然而,在这个用例中,要总结的文本通常作为上下文提供。与其他用例相比,这使得幻觉不那么令人担忧。源文本限制了模型,减少了想象的捏造。因此,虽然事实准确性总是可取的,但考虑到上下文基础,抑制幻觉对于总结来说优先级较低。
- 有可用的训练数据吗?如果有大量以前的摘要,并且这些摘要的标签或结构可以让模型从中学习,那么微调就是一个非常有吸引力的选择。另一方面,如果数据集有限,并且我们依靠外部数据库进行风格对齐,那么 RAG 可以发挥作用,尽管它的主要优势不是风格调整。
- 数据有多动态?如果以前的摘要数据库是静态的或很少更新,微调后的模型知识可能会在更长的时间内保持相关性。但是,如果摘要经常更新,并且模型需要不断与最新的风格变化保持一致,RAG 可能会因其动态数据检索功能而具有优势。
- 需要透明度/可解释性?这里的主要目标是风格一致,因此特定摘要风格背后的“原因”可能不像其他用例那样重要。也就是说,如果需要追溯并了解哪些先前的摘要影响了特定输出,RAG 会提供更多的透明度。不过,这可能是此用例的次要问题。
3.4.1 关于组织知识(即外部数据)的问答系统
- 需要外部知识?依赖组织知识库的问答系统本质上需要访问外部数据,在本例中,即组织的内部数据库和文档存储。系统的有效性取决于它从这些来源挖掘和检索相关信息以回答查询的能力。鉴于此,RAG 是此维度的更合适选择,因为它旨在通过从知识源检索相关数据来增强 LLM 功能。
- 需要调整模型?根据组织及其领域,可能需要模型与特定术语、语气或惯例保持一致。虽然 RAG 主要关注信息检索,但微调可以帮助 LLM 调整其响应以适应公司的内部用语或其领域的细微差别。因此,对于这个维度,根据具体要求,微调可能会发挥作用。
- 尽量减少幻觉至关重要?由于 LLM 的知识截断,幻觉是此用例的主要问题。如果模型无法根据训练数据回答问题,它几乎肯定会(部分或全部)恢复为编造一个看似合理但不正确的答案。
- 有可用的训练数据吗?如果组织拥有一个包含先前回答过的问题的结构化和标记数据集,这可以支持微调方法。但是,并非所有内部数据库都经过标记或结构化以用于训练目的。在数据没有整齐标记或主要重点是检索准确和相关的答案的情况下,RAG 能够利用外部数据源而无需大量标记数据集,这使其成为一个引人注目的选择。
- 数据有多动态?组织中的内部数据库和文档存储可能高度动态,经常更新、更改或添加。如果这种动态是组织知识库的特征,那么 RAG 就具有明显的优势。它不断查询外部来源,确保其答案基于最新的可用数据。微调需要定期重新训练才能跟上这种变化,这可能是不切实际的。
- 需要透明度/可解释性?对于内部应用,尤其是在金融、医疗保健或法律等领域,了解答案背后的原因或来源至关重要。由于 RAG 提供了检索和生成的两步流程,因此它本质上可以更清楚地了解哪些文档或数据点影响了特定答案。对于可能需要验证或进一步调查某些答案来源的内部利益相关者来说,这种可追溯性非常宝贵。
3.4.2 客户支持自动化(即自动聊天机器人或帮助台解决方案,为客户查询提供即时响应)
- 需要外部知识?客户支持通常需要访问外部数据,尤其是在处理产品详细信息、特定于帐户的信息或故障排除数据库时。虽然许多查询可以用一般知识来解决,但有些查询可能需要从公司数据库或产品常见问题解答中提取数据。在这里,RAG 从外部来源检索相关信息的能力将大有裨益。然而,值得注意的是,许多客户支持互动也基于预定义的脚本或知识,可以通过微调模型有效地解决这些问题。
- 需要模型调整?客户互动需要一定的语气、礼貌和清晰度,并且可能还需要公司特定的术语。微调对于确保 LLM 适应公司的语气、品牌和特定术语特别有用,从而确保一致且与品牌一致的客户体验。
- 减少幻觉至关重要?对于客服聊天机器人来说,避免虚假信息对于维护用户信任至关重要。单靠微调会让模型在面对不熟悉的查询时容易产生幻觉。相比之下,RAG 系统通过将响应建立在检索到的证据上来抑制捏造。这种对来源事实的依赖使 RAG 聊天机器人能够最大限度地减少有害的虚假信息,并在准确性至关重要的情况下为用户提供可靠的信息。
- 训练数据可用吗?如果一家公司有客户互动的历史,那么这些数据对于微调来说可能是无价之宝。丰富的先前客户查询及其解决方案的数据集可用于训练模型,以便将来处理类似的互动。如果此类数据有限,RAG 可以通过从产品文档等外部来源检索答案来提供后备方案。
- 数据有多动态?客户支持可能需要解决有关新产品、更新政策或更改服务条款的查询。在产品系列、软件版本或公司政策频繁更新的情况下,RAG 能够动态地从最新文档或数据库中提取数据,这是非常有利的。另一方面,对于更静态的知识领域,微调就足够了。
- 需要透明度/可解释性?虽然透明度在某些领域必不可少,但在客户支持方面,主要关注的是准确、快速和礼貌的回应。然而,对于内部监控、质量保证或解决客户纠纷,对答案来源具有可追溯性可能会有所帮助。在这种情况下,RAG 的检索机制提供了额外的透明度。
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/6898