生成类似人类的文本和语音曾经只存在于科幻小说中。但 GPT-3 和 PaLM 等大型语言模型 (LLM) 的快速发展让这一愿景更接近现实,解锁了从聊天机器人到内容创作等一系列有前景的商业应用。
然而,通用基础模型往往无法满足行业用例的需求。企业对其生成式 AI 应用程序有不同的要求——从性能、成本、延迟到可解释性。此外,可用于模型训练的数据的性质和数量可能存在很大差异。因此,产品团队必须概述其生成式 AI 应用程序的关键业务标准,并选择正确的优化技术工具包来满足这些需求。
在这篇文章中,我们概述了一个框架,用于识别和优先考虑生成式 AI 应用程序的战略重点领域。我们还将探索流行的优化方法,并讨论它们的独特优势、理想的应用以及满足应用要求的权衡。通过明确的业务目标指导的正确优化策略,公司可以开发定制的 AI 解决方案,以平衡对其成功至关重要的优先事项。让我们开始吧!
评估业务需求和约束的框架
为了有效地制定优化 LLM 的策略,产品团队首先应该深入了解业务目标及其运营约束。评估并确定以下列出的关键维度的优先级,以适应您的业务用例:
1. 性能目标:定义人工智能需要达到的性能指标和水平。这可以是事实准确性、与人类价值观的一致性或其他特定任务指标的组合。
需要考虑的问题:衡量绩效的最佳维度是什么?可接受的最低绩效标准是什么?绩效如何与您所在行业的用户期望保持一致?
2. 延迟目标:确定应用程序可以承受的最大响应时间,而不会对用户体验产生负面影响。当 LLM 部署在时间敏感或资源受限的场景中(例如语音助手、边缘设备)时,这一点尤其重要。
需要考虑的问题:延迟如何影响用户满意度和保留率?响应时间的行业标准是什么?
3. 成本效率:根据预期投资回报率评估运营人工智能的成本。当较高的初始成本带来大量节省、收入增长或超过投资的战略利益时,这可能是合理的。
需要考虑的问题:运营法学硕士的成本如何影响您的预算?投资回报率与人工智能部署成本相比如何?
4. 可解释性和信任:确定是否需要确保人工智能决策易于用户理解,这对于建立信任至关重要,尤其是在监管要求严格的领域。
需要考虑的问题:你的行业是否受到监管,要求人工智能决策透明?可解释性如何影响用户信任和采用?
5. 外部知识:评估您的人工智能是否需要访问外部数据源以保持相关性并提供准确的响应。
需要考虑的问题:你的人工智能是否需要实时数据来做出决策?
6. 数据可用性:用于训练 AI 的数据的性质和数量可能会广泛影响优化策略。
需要考虑的问题:您是否可以访问大型数据集进行训练,或者您是否需要使用合成或增强数据?您需要多久更新一次训练数据以保持 AI 的相关性?
下表概述了生成式人工智能应用的三个不同用例,并对框架内每个维度的优先级进行了相应的评估:
如您所见,优先级和约束在不同的用例中可能有很大差异。
例如,假设有一家公司旨在开发一款客服聊天机器人,以减轻人工工作人员的工作量。在这种情况下,准确性性能和外部数据集成是重中之重,以便提供不仅事实正确而且最新的响应。虽然延迟很重要,但用户可能愿意容忍短暂的延迟。通常,这样的公司将能够访问过去客服互动的大量档案,这些档案可用于训练模型。
相比之下,人工智能在评估软件代码质量和风险方面的关键应用要求更加关注人工智能洞察的事实准确性和可解释性,这通常是由于错误的潜在后果。在这种情况下,成本和延迟是次要考虑因素。在某些情况下,这种用例可以从外部数据集成中受益,并且它通常面临有关丰富训练数据集可用性的限制。
对与用例相关的战略重点和约束的透彻理解可以帮助团队制定优化 LLM 的定制策略来满足用户的独特需求。
深入研究 LLM 优化技术
本节深入探讨各种优化技术,重点介绍它们的目标、理想用例和固有的权衡,特别是在平衡上述业务目标方面。
技术表细分:
1. 及时工程:
执行复杂度:低
何时使用:用于在不改变模型的情况下重塑响应并快速改进。在尝试更复杂的优化方法之前,先使用此技术来最大化预训练模型的有效性。
其含义:快速工程涉及以引出所需输出的方式精心设计模型的输入查询。它需要了解模型如何响应不同类型的指令,但不需要重新训练模型或改变其架构。这种方法仅优化了现有模型访问和应用其预先训练的知识的方式,并没有增强模型的内在能力。
“这就像调整向知识渊博的朋友提问的方式以获得最佳答案。”
例子:
- 要求语言模型“以莎士比亚的风格写一首诗”而不是“写一首诗”以引出以特定文学风格作出的回应。
- 为对话式人工智能提供详细的场景,以确保模型理解其作为客户服务代理的角色。
权衡:
- 反复试验:设计最有效的提示需要反复迭代,因为提示和 AI 输出之间的关系并不总是直观的。
- 输出质量:输出的质量高度依赖于提示的设计,并且通过此方法可以实现的改进水平是有限的。
2.微调:
执行复杂度:中等
何时使用:当您需要模型适应特定领域或任务时,应该考虑微调,因为基础预训练模型可能无法很好地覆盖这些领域或任务。这是提高特定领域准确度和创建能够处理特定领域数据和术语的更专业模型的一步。
其含义:微调是在代表目标任务或领域的新数据集上继续训练预训练模型的过程。这个新数据集由输入输出对组成,这些输入输出对提供了所需行为的示例。在微调过程中,模型的权重会更新,以最大限度地减少这个新数据集上的损失,从而有效地使模型适应新领域。
“可以把它想象成给你的朋友上一堂速成课,让你的朋友们成为某一领域的专家;向他们展示考试中可能出现的多个问题示例,以及他们需要回答的示例答案。”
例如:
- 通用语言模型可以针对法律文件进行微调,以提高其审查此类文件的性能。
- 可以使用医学成像数据集对图像识别模型进行微调,以更好地识别 X 射线或 MRI 中的特定疾病。
权衡:
- 数据要求:微调需要与任务相关的标记数据集,创建该数据集可能需要大量资源。
- 过度拟合风险:模型可能过于专注于微调数据,这会降低其推广到其他环境或数据集的能力。
3.检索增强生成(RAG)
执行复杂度:高
何时 使用:当 AI 模型需要访问和整合外部信息以生成响应时,应考虑使用 RAG。当模型需要提供其预训练知识库中未包含的最新或高度具体的信息时,这一点尤其重要。
其含义: RAG 将 LLM 的生成功能与检索系统相结合。检索系统查询数据库、知识库或互联网以查找与输入提示相关的信息。然后将检索到的信息提供给语言模型,语言模型结合此上下文来生成更丰富、更准确的响应。通过引用 RAG 系统用于生成响应的来源,生成式 AI 应用程序可以为用户提供增强的可解释性。
在未来几年,随着越来越多的产品寻求利用其最新的业务数据来为客户定制体验,这种优化技术有望获得广泛的普及。
“这就像你的朋友能够在网上查找信息来回答他们专业知识之外的问题。这是一场开卷考试。”
例如:
- 在基于 RAG 的在线聊天机器人中,检索器可以从数据库或互联网中提取相关信息,以提供最新的答案。
- 家庭作业助手 AI 可以使用 RAG 获取最新的科学数据来回答学生有关气候变化的问题。
权衡:
- 复杂的实施: RAG 系统需要一个集成良好的检索系统,这对于设置和维护来说可能很困难。
- 信息质量:生成的响应的实用性在很大程度上取决于检索到的信息的相关性和准确性。如果检索系统的来源过时或不正确,响应将反映这一点。
- 响应时间慢:从外部源检索信息以生成响应可能会增加延迟。
4.基于人类反馈的强化学习(RLHF):
执行复杂度:非常高
何时使用:当模型的输出需要与复杂的人类判断和偏好紧密结合时,应该使用 RLHF。
其含义: RLHF 是一种复杂的强化学习技术,它通过将人工评估直接纳入训练过程来改进模型的行为。此过程通常涉及从人工操作员那里收集数据,人工操作员根据各种质量指标(例如相关性、有用性、语气等)对 AI 的输出进行排名。然后,这些数据信号用于训练奖励模型,该模型指导强化学习过程产生更符合人类偏好的输出。
“这类似于你的朋友从过去的谈话中学习如何让讨论变得愉快,并利用这些知识来改善未来的互动。”
例如:
- 社交媒体平台可以使用 RLHF 来训练审核机器人,该机器人不仅可以识别不适当的内容,还可以以建设性和敏感的方式回应用户。
- 可以使用 RLHF 进行微调虚拟助手,以便对用户请求提供更加个性化和情境感知的响应。
权衡:
- 高复杂性: RLHF 涉及复杂、资源密集型的过程,包括人工反馈收集、奖励建模和强化学习。
- 质量风险:反馈数据存在偏差的风险,这会影响模型质量。确保人工反馈的质量始终如一,并使奖励模型与期望结果保持一致可能很困难。
5. 知识蒸馏
执行复杂度:中等至高
何时使用:当您需要在计算能力有限的设备上或响应时间至关重要的应用程序中部署复杂模型时,使用知识提炼。
其含义:这是一种压缩技术,其中训练一个更小、更高效的模型(称为学生模型)来复制更大、更复杂的模型(教师模型)的性能。训练不仅仅是学习正确的答案(硬目标),还包括让学生尝试产生与教师预测相似的概率(软目标)。这种方法使学生模型能够捕捉教师模型学到的细微模式和见解。
“这类似于将经验丰富的专家的智慧提炼成一本简明的指南,新手可以使用它来做出专家级的决策,而无需经过多年的经验。”
例如:
- 大规模语言模型可以提炼为较小的模型,该模型可在智能手机上高效运行,实现实时语言翻译。
- 自动驾驶汽车中使用的图像识别系统可以提炼为可在车载计算机上运行的光模型。
权衡:
- 性能与大小:提炼模型可能并不总是与教师模型的性能相匹配,从而导致准确性或质量的潜在下降。
- 训练复杂性:提炼过程非常耗时,需要仔细的实验才能确保学生模型有效学习。它需要对模型架构有深入的理解,并具备将知识从一个模型转换到另一个模型的能力。
现在让我们看一个真实世界中的例子。
示例:客户支持聊天机器人
让我们重新审视构建客户支持聊天机器人的用例,以减少人工支持人员的工作量。
要求/限制包括:
- 绩效:高优先级(强调事实准确性)
- 外部知识:高优先级
- 延迟目标:中优先级
- 成本效率:低优先级
- 可解释性和信任度:中等优先级
- 数据可用性:充足(过去对话数据)
通过清晰了解业务环境和优先级,产品制造商可以制定最有效的优化策略。
LLM 优化决策步骤:
- 及时工程应是提高聊天机器人初始理解和响应能力的第一步。然而,仅凭这一点还不足以达到专业领域的准确性。
- 使用历史客户对话数据对模型进行微调对于提高聊天机器人的准确性性能以及使模型能够熟练处理细微的行业特定查询至关重要。
- 结合检索增强生成 (RAG)对于向用户提供最新的产品信息和相关的网络链接至关重要。
- 虽然一定程度的延迟是可以容忍的,但监控并优化响应时间仍然是明智之举。这里的优化策略可能包括缓存常见查询以加快响应速度,并策略性地使用快速工程来减少不必要的外部数据检索。
如您所见,通常需要结合多种策略来满足用例的特定需求。优化策略的灵活性至关重要,因为需求会随着时间而变化,并且系统需要同时平衡多种需求。
结论
针对业务用例优化 LLM 既是一门艺术,也是一门科学,需要深入了解底层技术和目标。随着人工智能的不断发展,优化技术的选择将变得越来越具有战略意义,不仅影响单个应用程序的性能,还影响人工智能在社会中作用的整体轨迹。
无论您优化的是速度、准确性、成本还是透明度,上述技术都可以提供增强 LLM 的工具包,以满足未来生成式 AI 驱动的商业应用的需求。通过精心应用这些方法,我们可以创建不仅有效而且负责任且能满足用户细微需求的 AI。
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/4509