大模型评测标准及工作流

随着大型语言模型 (LLM) 成为业务工作流程不可或缺的一部分,确保其可靠性和效率至关重要。因此,部署强大的评估和基准测试技术对于成功实施模型的重要性不容小觑。

LLM 的评估依据包括语言生成、翻译、推理、总结、问答和相关性等各种任务。综合评估有助于在不同维度上构建稳健且安全的模型,同时检测随时间推移出现的任何回归。

Ramendeus,我们专门评估 LLM 绩效,以确保它们在不同指标上表现出色并获得高基准分数。凭借通过监督微调和 RLHF 为基础 LLM 公司改进模型的丰富经验,我们拥有帮助您取得卓越成果的专业知识。

相关配图由微信小程序【字形绘梦】免费生成

大模型评测标准及工作流

什么是 LLM 评估?

LLM 评估涉及测量和评估模型在关键任务中的表现。此过程使用各种指标来确定模型预测或生成文本、理解上下文、总结数据和响应查询的能力。评估对于确定模型的优势和劣势、提供改进见解以及指导微调过程至关重要。

评估类型:模型评估与系统评估

在评估大语言模型(LLM)时,区分两种主要类型很重要:模型评估和系统评估。尽管两者侧重于不同的方面,但它们对于评估大语言模型(LLM)的整体有效性都至关重要。

模型评估

模型评估侧重于 LLM 本身的内部功能和性能。它检查模型在文本生成、语言理解、翻译和摘要等特定任务中的表现。此评估通常包括:

  • 内在指标:这些指标评估模型的基本属性,例如困惑度、BLEU、ROUGE 和 F1 分数,有助于衡量其生成连贯、相关且语法正确的文本的能力。
  • 微调和验证:这涉及在特定数据集上进行微调期间和之后对模型进行评估,以确保其具有良好的泛化能力并产生与训练数据一致的准确结果。

系统评估

系统评估侧重于 LLM 在大型系统或应用程序中的性能,评估其在实际场景中的有效性及其与用户界面、数据库和外部 API 等其他组件的集成。此评估通常涉及:

  • 外部指标:这些指标衡量系统完成端到端任务的整体性能,例如准确回答用户查询、执行情感分析或在生产环境中生成报告。
  • 用户体验和可用性:此方面考虑系统与 LLM 交互时的直观性和响应性,评估延迟、可扩展性和用户满意度等因素。
  • 稳健性和可靠性:这涉及测试模型针对各种输入的稳健性,包括边缘情况、噪声数据和意外查询,确保系统在不同条件下保持可靠。

通过结合模型和系统评估,公司可以开发出不仅技术精湛而且实用且用户友好的人工智能系统。

大模型评测标准及工作流

LLM评估标准

评估 LLM 需要采用一种综合方法,考虑模型输出的各个方面,从响应的准确性和相关性到检索和整合外部信息的能力。以下是评估不同用例中 LLM 的性能和可靠性所必需的关键标准:

  • 响应的完整性和简洁性:确保 LLM 的输出是完整的并且没有冗余。
  • 文本相似度指标:评估生成的文本与参考文本的匹配程度,重点关注输出的准确性和保真度。
  • 问答准确性:衡量大语言模型(LLM)对特定问题提供正确、相关答案的能力,确保准确性和上下文理解。
  • 相关性:评估生成的内容与上下文或查询的匹配程度,确保响应相关且适当。
  • 幻觉指数:跟踪 LLM 生成源数据中不存在或事实上不正确的信息的频率。
  • 毒性:评估模型的输出是否存在有害、攻击性或不适当的内容,确保安全和负责任地使用。
  • 特定任务指标:涉及针对 LLM 特定应用定制的专门指标,例如用于翻译的 BLEU 或用于摘要的 ROUGE,以衡量这些特定任务的表现。
  • 检索增强生成 (RAG):衡量系统检索相关文档的有效性以及基于这些文档的最终生成的答案的准确性和相关性。

LLM 评估的关键指标

通常使用几种指标来评估 LLM 性能,每种指标都可以对模型输出的不同方面提供独特的见解:

  • BLEU(双语评估替代方法): BLEU 通常用于机器翻译,它计算模型输出与一组人工编写的参考翻译之间的 n-gram(给定文本样本中的 n 个项目的连续序列)的重叠度。BLEU 分数越高,表示文本生成效果越好,因为输出与参考非常相似。但是,BLEU 也有局限性,例如无法评估生成文本的语义含义或相关性。
  • MoverScore:一种较新的指标,用于衡量两段文本之间的语义相似性。MoverScore 使用 Word Mover 距离,计算一段文本中的单词需要“移动”的最小距离以匹配另一段文本中的单词分布。然后,它会根据不同单词对文本整体含义的重要性调整此距离。MoverScore 提供了对语义相似性的细致评估,但它需要大量计算,并且可能并不总是与人类判断一致。
  • 困惑度:它量化了模型预测样本(通常是一段文本)的能力。困惑度分数越低,表示预测序列中下一个单词的能力越强。困惑度虽然可用于定量评估,但它并不考虑连贯性或相关性等定性方面,因此通常与其他指标结合使用,以进行更可靠的评估。
  • 精确匹配:精确匹配通常用于问答和机器翻译,衡量预测与参考答案完全匹配的百分比。虽然它有助于衡量准确度,但它不考虑近似误差或语义相似性,因此有必要将其与其他更细致入微的指标一起使用。
  • 精确度:它衡量正确预测的阳性观察值的比例。在 LLM 中,精确度反映正确预测占模型做出的预测总数的比例。高精度分数表示模型做出的预测很可能是正确的。但是,精确度不考虑模型可能错过的相关预测(假阴性),因此它通常与召回率相结合以进行平衡评估。
  • 召回率:召回率也称为敏感度或真阳性率,衡量模型正确识别的实际阳性比例。高召回率分数表明模型在检测相关信息方面的效率,但它不考虑不相关的预测(假阳性)。因此,召回率通常与准确率搭配使用,以进行全面评估。
  • F1 分数: F1 分数是一种常用指标,它通过计算调和平均值来平衡精确度和召回率。调和平均值是一种特定类型的平均值,它比算术平均值更严厉地惩罚极端值。较高的 F1 分数表示该模型在精确度和召回率之间保持了良好的平衡,当假阳性和假阴性都是重要考虑因素时,它特别有用。F1 分数介于 0 到 1 之间,其中 1 表示精确度和召回率都完美。
  • ROUGE(针对回忆的要点评估替代研究):ROUGE 广泛用于文本摘要等任务,并有几种变体:

a. ROUGE-N测量生成文本与参考文本之间的 n-gram 重叠度。ROUGE-N 的公式为:

大模型评测标准及工作流

每个术语的含义如下:

  • 匹配(n-gram):候选文本和一组参考文本中同时出现的 N-gram 的最大数量。
  • Count(n-gram):参考摘要中的 N-gram 总数。

b. ROUGE-L关注生成文本与参考文本之间的最长公共子序列 (LCS),评估整体连贯性。ROUGE-L 的公式为:

大模型评测标准及工作流

例如,如果候选摘要和参考摘要之间的 LCS 为 4 个字,而参考摘要中的总字数为 9 个字,则 ROUGE-L 的计算方式为:

大模型评测标准及工作流

c. ROUGE-S评估文本之间的跳跃双字母组合(按顺序排列两个单词,不管中间有多少个单词)的重叠,这对于评估模型的语言灵活性很有用。

每个 ROUGE 变体都提供了特定的见解,但应与其他评估方法一起使用以进行全面评估。

大模型评测标准及工作流

人为评价参数

人工评估指标对于从定性角度评估模型的性能至关重要,而自动化指标可能无法完全捕捉到这一点。人工评估员会从连贯性、相关性和流畅性等各个方面审查和评估模型输出。

与提供即时定量反馈的自动化指标不同,人工评估可以提供有关模型输出与人类判断和期望的匹配程度的细致见解。虽然这种评估方法可能更耗时,但它对于全面的 LLM 评估策略仍然至关重要。

自动化与人工评估

自动评估和人工评估在评估 LLM 中发挥着不同但互补的作用。自动评估使用 BLEU、ROUGE 和困惑度等指标快速、定量地衡量模型的性能。但是,它们可能会忽略输出的细微差别和定性方面。

另一方面,人工评估通过评估输出的连贯性、相关性和流畅性来捕捉这些细微差别。然而,平衡的评估策略通常会结合自动评估和人工评估,确保对模型的性能进行全面评估。

大语言模型(LLM) (LLM) 培训基准

LLM 基准是研究界广泛采用的标准数据集和任务,用于评估和比较各种模型的性能。这些基准包括预定义的训练、验证和测试分割,以及既定的评估指标和协议。基准为

系统地比较不同的模型和方法提供了一个共同的基础,通过设定模型必须满足或超越的挑战来评估进展。虽然指标直接评估模型输出,但基准提供了一个标准化的环境,以了解这些指标在进展或能力方面的重要性。

用于衡量大语言模型(LLM) (LLM) 绩效的著名基准

业界广泛使用多种基准来评估和量化 LLM 的表现和相关性。一些最著名的 LLM 基准包括:

  • GLUE(通用语言理解评估): GLUE 提供了全面的基准,用于评估和比较模型在各种自然语言理解任务(例如情绪分析、文本蕴涵和句子相似性)中的表现。通过提供多种挑战,GLUE 可以衡量模型理解上下文、推断含义和处理语言的能力,其水平堪比人类。 该基准有助于确定 LLM 的优势和劣势,通过鼓励开发更强大、更通用的模型来推动自然语言处理 (NLP) 研究的进步。
  • MMLU(大规模多任务语言理解):MMLU 是一项具有挑战性的 LLM 基准,旨在评估模型对广泛主题的理解深度。它向模型展示来自各个领域的任务,包括人文科学、社会科学、历史、计算机科学和法律。MMLU 衡量模型知识的广度及其复杂推理、上下文理解和迁移学习的能力。 该基准对于开发能够跨不同领域生成上下文文本的 LLM 至关重要,但需要注意的是,MMLU 对其实施方式很敏感。
  • DeepEval:DeepEval 是一个开源框架,旨在简化 LLM 的评估,从而轻松迭代和开发 LLM 应用程序。它允许用户像使用 Pytest 一样对 LLM 输出进行“单元测试”,从而使评估变得直观而直接。该框架包含 14 多个预构建的、有研究支持的指标,可以轻松定制以适应各种用例。DeepEval 还支持使用高级进化技术生成合成数据集,并支持在生产环境中进行实时评估,确保模型在实时应用程序中有效运行。
  • AlpacaEval:AlpacaEval 是一个自动化的 LLM 评估框架,用于衡量 LLM 遵循一般用户指令的能力。它利用包含各种指令的 AlpacaFarm 评估集,并使用基于 GPT-4 的自动注释器将模型响应与参考模型进行比较。结果以胜率的形式显示在 AlpacaEval 排行榜上。 此基准测试提供了有关模型如何处理复杂、面向任务的提示的宝贵见解,从而促进了更有用、更可靠的 LLM 的开发。
  • HELM(语言模型整体评估): HELM 旨在通过提供全面的评估框架来提高 LLM 的透明度。它涵盖了各种场景和指标,以检查语言模型的能力和局限性。HELM 使用七个主要指标来评估模型:准确性、稳健性、校准、公平性、偏差、毒性和效率。此外,HELM 还评估了 26 个特定场景,以分析推理和虚假信息等方面。 鉴于 LLM 在各个行业中的广泛影响力,该基准有助于满足提高 LLM 透明度的需求。
  • H2O LLM EvalGPT:这款开放工具由 H2O.ai 开发,用于评估和比较 LLM,提供一个平台来评估模型在各种任务和基准上的表现。它具有详细的高性能开源 LLM 排行榜,可帮助您为汇总银行报告或响应查询等任务选择最佳模型。H2O LLM EvalGPT 专注于金融和法律等领域的业务相关数据,提供对模型功能的深入洞察以及手动运行 A/B 测试的能力。
  • OpenAI Evals:该框架有助于评估 LLM 及其上构建的 AI 系统,量化性能,识别弱点,对模型进行基准测试,并跟踪一段时间内的改进。关键组件包括Eval 框架,它是用于定义、运行和分析评估的核心库;Eval Registry,它是一组针对常见任务的预构建评估,可供自定义;以及Eval 模板,它是可重复使用的结构,旨在创建各种类型的评估,例如准确性评估和多指标评估。
  • Promptfoo:Promptfoo 是一个命令行界面 (CLI) 和库,专为评估和红队 LLM 应用程序而设计,它支持测试驱动的 LLM 开发,而不是依赖于反复试验。它允许用户使用特定于用例的基准构建可靠的提示、模型和 RAG,通过自动红队和渗透测试保护应用程序,并通过缓存、并发和实时重新加载加快评估速度。Promptfoo 支持各种模型,包括 HuggingFace、Anthropic、OpenAI、Azure、Google、Llama 等开源模型以及任何 LLM 的自定义 API 提供程序。
  • EleutherAI LM Eval Harness:该框架在各种评估任务中测试生成语言模型,具有 60 多个标准学术基准,涵盖数百个子任务和变体。它支持各种模型,包括通过 transformer、GPT-NeoX 和 Megatron-DeepSpeed 加载的模型,并具有与标记无关的接口。该框架还支持使用 vLLM 进行快速且内存高效的推理,并支持 OpenAI 和 TextSynth 等商业 API。 该评估工具在研究界被广泛采用,是 Hugging Face 的 Open LLM Leaderboard 的后端,并被 NVIDIA、Cohere、BigScience、BigCode、Nous Research 和 Mosaic ML 等组织使用。
大模型评测标准及工作流

LLM 评估中的挑战

由于 LLM 本身的复杂性以及技术的快速发展,评估 LLM 面临着巨大的挑战。当前的 LLM 评估基准面临多项挑战和限制:

  • 提示的影响:性能指标可能对特定提示敏感,可能会掩盖模型的实际功能。
  • 构建有效性:由于涉及的任务范围广泛,因此为不同的用例建立可接受的答案具有挑战性。
  • 标准化不足:缺乏标准化的基准导致研究人员和专家使用不同的基准和实现,从而产生不一致甚至无法比较的评估结果。
  • 人工评估:虽然人工评估对于捕捉定性方面至关重要,但它耗时、昂贵、且可能不一致,这会妨碍需要主观判断的任务(例如抽象摘要)的效率。
  • 数据多样性和代表性:许多基准可能无法完全捕捉 LLM 在实际应用中可能遇到的语言、方言、文化背景或专业知识的多样性。这可能导致模型在标准基准上表现良好,但在更加多样化或小众的环境中却表现不佳。
  • 处理偏见和道德问题:识别和减轻偏见输出是一项重大挑战,了解这些偏见的根本原因也是如此。此外,在评估过程中,需要仔细考虑在敏感领域部署 LLM 的道德影响。
  • 确保稳健性和泛化能力:在各种场景中测试模型至关重要,包括实际应用中的罕见或意外情况。确保 LLM 能够处理这些情况而不会降低性能对于其可靠部署至关重要。
  • 优先考虑正确的评估基准:随着评估方法和工具数量的不断增加,组织往往难以选择最相关的基准,导致要么过度评估(资源密集型),要么评估不足(缺少关键见解)。需要专家指导来驾驭这种局面并选择最符合特定目标和用例的基准。

有效 LLM 评估协议的关键考虑因素

定义有效的评估协议对于创建能够准确评估 LLM 绩效和实用性的强大框架至关重要。这些协议应结合自动和人工评估、各种基准和道德考量。

根据模型的具体用例定制这些协议可确保进行全面且相关的评估。有效评估的关键考虑因素包括:

  • 明确 LLM 评估目标:评估目标应与模型的预期用例保持一致,无论是用于文本生成、翻译、摘要还是其他任务。这些目标应指导评估指标和基准的选择,以确保它们准确衡量模型在最相关领域的表现。这种方法有助于确定模型的优势和劣势,从而指导进一步的改进。
  • 选择相关的指标和基准:所选指标应与评估目标保持一致,并全面反映模型的性能。精度、召回率和 F1 分数等指标可以衡量准确率,而 BLEU 和 ROUGE 则可用于评估文本生成质量。 基准的选择应基于其在与用例相关的各种任务中评估模型的能力。指标和基准的选择会显著影响评估结果和模型的后续微调。
  • 平衡定量和定性分析:通过自动化指标进行定量分析可以客观衡量模型的性能,但可能无法捕捉到不同任务之间的所有细微差别。通过人工定性分析进行补充有助于评估模型输出的连贯性、相关性和流畅性等方面。 这种平衡确保了对模型的功能和局限性的更全面理解,确保它不仅在统计上表现良好,而且还能产生高质量、有意义的输出。
大模型评测标准及工作流

大语言模型(LLM) (LLM) 评估的最新发展

自然语言生成 (NLG) 领域的研究人员继续致力于开发评估框架,以便对 LLM 进行更可靠、更稳健的评估。最近的一些进展包括:

狼人竞技场

该框架由 Google Research 引入,用于评估 LLM,利用经典游戏“狼人杀”来评估 LLM 在战略推理、欺骗和沟通方面的能力。该框架引入了动态轮流发言,模型竞标发言机会,模拟现实世界的对话动态。通过参加竞技场式比赛,对 Google 的 Gemini 和 OpenAI 的 GPT 系列等模型进行了测试,揭示了它们在战略和沟通方法上的显著差异。这种创新的评估方法为评估 LLM 的社交推理能力提供了更具互动性和挑战性的基准。

大模型评测标准及工作流

G评估

它也被称为 GPT-Eval,是一个独特的框架,专注于使用现有的 LLM(例如 GPT-4)来评估 NLG 系统生成的文本的质量。

大模型评测标准及工作流

该评估方法侧重于增强对生成文本输出质量的人工校准。通过结合思路链 (CoT) 方法和表格填写范式,G-Eval 旨在提供更准确、更可靠的 LLM 输出评估。通过在文本摘要和对话生成等任务中的实验,使用 GPT-4 的 G-Eval 在摘要任务中与人类判断表现出显著的 Spearman 相关性 0.514,远远超过了之前的评估方法。Spearman 的相关系数范围从 -1(强负相关)到 +1(强正相关)。

总结

评估和基准测试 LLM 对于量化其在各种任务中的可靠性和有效性至关重要。这些基准测试可确保 LLM 高效运行并符合相关行业标准。由于有各种各样的指标和基准测试可用,因此根据预期用例确定最适合您的模型的指标和基准测试至关重要。

Ramendeus,我们专门评估 LLM 绩效,以确保它们在不同指标上表现出色并获得高基准分数。凭借通过监督微调和 RLHF 为基础 LLM 公司改进模型的丰富经验,我们拥有帮助您取得卓越成果的专业知识。我们能够快速扩展LLM 培训团队(包括 LLM 工程师、数据科学家和领域专家),这使我们能够为 LLM 项目提供卓越的投资回报。与我们联系,了解我们如何帮助您构建更强大、更可靠的模型。

RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/9013

(0)
上一篇 2025-02-12 10:36 上午
下一篇 2025-02-13 10:50 上午

相关推荐

发表回复

登录后才能评论
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn