模型在关键 LLM 基准上的表现
这些是模型技术报告中最常用的 LLM 基准:
- MMLU——多任务准确率
- GPQA 推理能力
- HumanEval ——Python 编码任务
- 数学 7个难度级别的数学问题
- BFCL 模型调用函数/工具的能力
- MGSM——多语言能力
以下是顶级 LLM 模型在这些基准上的排名。我们突出显示了表现最佳的模型:绿色代表最高排名,蓝色代表第二名,橙色代表第三名
一些平台的基准测试分数比较
HuggingFace的排行榜

Chatbot arena的排行榜

MMLU的排行榜

Vellum的排行榜

总而言之,在撰写这篇博文时,该排行榜的 TL;
对于其中一些基准测试,
- 对于多语言使用(MGSM), Claude 3.5 Sonnet 和 Meta Llama 3.1 405b 并列第一,准确率为 91.60%。
- 对于工具使用(BFCL):Claude 3.5 Sonnet 以 90.20% 领先,其次是 Meta Llama 3.1 405b,为 88.50%。
- 对于数学任务(MATH):GPT-4o 以 76.60% 得分最高,而 Meta Llama 3.1 405b 以 73.80% 位居第二。
- 对于推理 (GPQA), Claude 3.5 Sonnet 以 59.40% 领先,其次是 GPT-4o,为 53.60%。高推理性能一直是 GPT-4o 的特点,有趣的是,Claude 3.5 Sonnet 在这里处于领先地位。
- 对于编码任务 (HumanEval),Claude 3.5 Sonnet 以 92.00% 的准确率位居榜首,紧随其后的是 GPT-4o,准确率为 90.20%。结果符合预期!
- 对于通用能力(MMLU):GPT-4o 以 88.70% 领先,其次是 Meta Llama 3.1 405b(88.60%)。
关于开源模型的说明
Meta 的开源模型,尤其是 Llama 3.1 405b,在各项基准测试中表现优异,与 Claude 3.5 Sonnet 等顶级专有模型相差无几。它在多语言任务中并列第一,在通用基准测试 (MMLU) 中以 88.60% 的成绩领先。Meta 的模型提供了一种有竞争力的替代方案,尤其是在代码和数学等任务中,Llama 3.1 405b 一直位居第二,证明了开源模型可以提供强大的性能,同时提供更大的灵活性。虽然无法得到更广泛的使用,但我们确实看到了一种模式,即开源模型开始获得与顶级专有模型相似的结果。
在接下来的部分中,我们将研究这些基准和其他一些基准、它们的数据集以及它们的工作原理。
相关配图由微信小程序【字形绘梦】免费生成

对大语言模型 (LLM) 的推理能力进行基准测试
HellaSwag – 测量常识推理
该测试衡量LLM 模型的常识推理能力。测试 LLM 模型是否能够通过在 4 个选项中选择正确的选项并运用常识推理来完成句子。
例如:

人类认为简单的问题往往对 2019 年发布的最先进 (SOTA) 模型构成挑战,因为它们难以进行常识推理,准确率仅为 45% 左右。到 2024 年,GPT-4 已在该领域以 95.3% 的准确率取得了最高基准分数,而在开源模型中,Mixtral 8x7B 以 84.4% 的准确率领先(查看更多模型)

ARC – 推理基准
ARC 可用于测量与人类相似的一般流体智力,并能够实现 AI 系统与人类之间公平的一般智力比较。ARC 数据集包含7787 个非图表式、4 向 多项选择科学问题,专为 3 至 9 年级标准化测试而设计。

DROP – 阅读理解 + 离散推理基准
DROP 评估模型从英语段落中提取重要细节的能力,然后执行不同的推理操作(例如添加、排序或计数项目)以找到正确答案。以下是一个例子:

2023 年 12 月,HuggingFace注意到DROP 基准的规范化步骤存在问题。这种规范化差异表明在处理数字后跟某些类型的空格以及使用标点符号作为终止标记时存在问题,这导致评分不正确。此外,生成较长答案或应该处理浮点答案的模型表现不如预期。通过更改生成结束标记来提高评分的尝试表明可以更好地与整体性能保持一致,但完整的解决方案需要大量重新运行基准,这被认为是资源密集型的。

质量保证和真实性基准
MMLU – 测量大规模多任务语言理解
A More Robust and Challenging Multi-Task Language Understanding Benchmark
该测试衡量模型的多任务准确性。它涵盖 57 项任务,包括初等数学、美国历史、计算机科学、法律等,深度各不相同,从初级到高级专业水平。要在此测试中获得高精度,模型必须具有广泛的世界知识和解决问题的能力。查看顶级模型(专有/开源)在此基准上的表现。

最新测试数据集:
SuperGLUE 强力胶水
资料来源:SuperGLUE 数据集、SuperGLUE 排行榜论文:SuperGLUE:通用语言理解系统的更粘性基准,作者:Wang 等人(2019 年)
SuperGLUE代表超级通用语言理解评估。它是原始GLUE 基准的改进版,更具挑战性,而 LLM 的表现优于该基准。SuperGLUE 旨在衡量 LLM 处理各种现实世界语言任务的能力,例如理解上下文、进行推理和回答问题。每个任务都有自己的评估指标。最终得分将这些指标汇总到整体语言理解得分中。

truthfulQA 诚实问答
该基准衡量语言模型在生成问题答案时是否真实。该基准包括 817 个问题,涵盖 38 个类别,包括健康、法律、金融和政治。对于这个基准,GPT-4 似乎表现最好。

数学基准
数学 – 算术推理
MATH 是一个新的基准,其数据集包含 12,500 个具有挑战性的竞赛数学问题。MATH 中的每个问题都有完整的分步解决方案,可用于教模型生成答案推导和解释。该基准的作者发现,如果扩展趋势继续下去,增加预算和模型参数数量对于实现强大的数学推理是不切实际的。查看当前模型在该基准上的表现如何。

GSM8K-算术推理
GSM8K是一个包含 8500 道小学数学题的数据集。为了得出最终答案,模型必须使用 +、−、× 和 ÷ 等基本算术运算执行一系列(2 到 8 步)基本计算。顶尖的中学生应该能够解答所有问题。然而,即使是最大的模型也常常难以执行这些多步骤的数学任务。

聊天机器人协助基准
在聊天机器人协助方面,有两个广泛使用的基准来评估人类偏好。
聊天机器人竞技场
Chatbot Arena由 LMSYS 组织开发,是一个面向 LLM 评估的众包开放平台。到目前为止,他们已经收集了超过 20 万张人类偏好投票,用于根据 Elo 排名系统对 LLM进行排名。
工作原理:您向两个匿名 AI 模型(如 ChatGPT、Claude 或 Llama)提出一个问题,但不知道哪个是哪个。收到两个答案后,您可以投票选出您认为更好的那个。您可以继续提问和投票,直到决定获胜者。只有当您在对话过程中没有找出哪个模型提供了哪个答案时,您的投票才有效。

MT工作台
MT-bench 是一组具有挑战性的多轮开放式问题,用于评估具有 LLM 资格的聊天助手。为了使评估过程自动化,他们请 GPT-4 等实力雄厚的 LLM 担任评委,评估模型响应的质量。

安全基准
代理人危害
资产:AgentHarm 数据集 论文:AgentHarm:衡量 LLM 代理危害性的基准,作者:Andriushchenko 等人 (2024)
AgentHarm基准的推出是为了促进对 LLM 代理滥用的研究。它包括一组 110 个明确恶意的代理任务,涵盖 11 个危害类别,包括欺诈、网络犯罪和骚扰。为了表现良好,模型必须拒绝有害的代理请求并在受到攻击后保持其能力以完成多步骤任务。

AgentHarm 评估 LLM 代理的性能,这些代理必须执行多步骤任务才能满足用户请求。
安全台
资产:SafetyBench 数据集论文: Zhang 等人撰写的《SafetyBench:评估大型语言模型的安全性》 (2023 年)
SafetyBench是评估大语言模型安全性的基准。它包含 11000 多个多项选择题,涵盖七大安全问题类别,包括攻击性内容、偏见、非法活动和心理健康。SafetyBench 提供中文和英文数据,方便使用两种语言进行评估。

SafetyBench 数据集中的示例问题。 来源:SafetyBench:评估大型语言模型的安全性
特定领域的基准测试
多元医学问答
资产:MultiMedQA 数据集论文: Singhal 等人的大型语言模型对临床知识进行编码(2023 年)
MultiMedQA基准测试了 LLM 在医疗保健领域提供准确、可靠且符合语境的响应的能力。它结合了六个现有的医学问答数据集,涵盖专业医学、研究和消费者查询,并整合了一个新的在线搜索的医学问题数据集。该基准从多个方面评估模型答案:事实性、理解力、推理、可能的危害和偏见。

MultiMedQA 数据集中的示例问题和 Med-PaLM 中的答案。来源:大型语言模型对临床知识进行编码
FinBen
资产:FinBen 数据集论文: Xie 等人撰写的《FinBen:大型语言模型的整体财务基准》 (2024 年)
FinBen是一个开源基准,旨在评估金融领域的 LLM。它包括 36 个数据集,涵盖七个金融领域的 24 项任务:信息提取、文本分析、问答、文本生成、风险管理、预测和决策。与前代产品相比,FinBen 提供的任务和数据集范围更广,并且是第一个评估股票交易的模型。基准测试显示,虽然最新模型在信息提取和文本分析方面表现出色,但它们在高级推理和文本生成和预测等复杂任务方面却举步维艰。

FinBen 按任务类型提供的评估数据集。来源:FinBen:大型语言模型的整体金融基准
Legal Bench
资产:LegalBench 数据集 论文: Guha 等人合作建立的用于测量大型语言模型中的法律推理的基准(2023 年)
LegalBench是一个协作基准,旨在评估大语言模型的法律推理能力。它由 162 项由法律专业人士众包的任务组成。这些任务涵盖六种不同类型的法律推理:问题发现、规则回忆、规则应用、规则总结、解释和修辞理解。

LegalBench 中的示例问题。来源:LegalBench:用于衡量大型语言模型中的法律推理的协作构建基准

编码基准
HumanEval – 人力评估
这是评估 LLM 在代码生成任务中的性能的最常用基准。
HumanEval 数据集包含一组 164 个手写编程问题,用于评估语言理解、算法和简单数学,其中一些问题与简单的软件面试问题相当。每个问题都包含函数签名、文档字符串、正文和几个单元测试,平均每个问题有 7.7 个测试。了解LLM 在此任务上的比较情况。

MBPP – 大部分基本编程问题
该基准测试包含约 1,000 个众包 Python 编程问题,旨在让入门级程序员也能解决,涵盖编程基础知识、标准库功能等。每个问题都包含任务描述、代码解决方案和 3 个自动化测试用例(参见 LLM 的比较)

SWE 工作台
资产:SWE-bench 数据集、SWE-bench 排行榜论文:SWE-bench:语言模型能否解决现实世界中的 GitHub 问题?作者:Jimenez 等人(2023 年)
SWE-bench(软件工程基准)评估 LLM 解决从 GitHub 收集的实际软件问题的能力。该数据集包含 12 个流行 Python 存储库中的 2200 多个 GitHub 问题和相应的拉取请求。给定一个代码库和一个问题,模型必须生成一个解决问题的补丁。为了完成任务,模型必须与执行环境交互,处理长上下文,并执行复杂的推理——超出基本代码生成问题的任务。

工具使用基准
伯克利函数调用排行榜
伯克利函数调用排行榜 (BFCL) 旨在全面评估不同 LLM 的函数调用能力。它包含 2,000 个问题-函数-答案对,涵盖各种语言和应用领域,具有复杂的用例。BFCL 还测试函数相关性检测,确定模型如何处理不合适的函数。
BFCL 的主要特点包括:
- 100 个 Java 案例、50 个 JavaScript 案例、70 个 REST API 案例、100 个 SQL 案例和 1,680 个 Python 案例。
- 涉及简单、并行和多个函数调用的场景。
- 功能相关性检测以确保适当的功能选择。
他们还创建了结果可视化来帮助理解这些数据:

MetaTool 基准:决定是否使用工具以及使用哪种工具
MetaTool 是一个基准测试,旨在评估 LLM 是否具有工具使用意识并能正确选择工具。它包括 ToolE 数据集,其中包含触发单工具和多工具场景的提示,并评估四个子任务中的工具选择。对九个 LLM 的实验结果表明,大多数 LLM 在有效工具选择方面仍面临挑战,揭示了其智能能力的差距。

MetaTool Benchmark 架构
多模态基准
MMMU 基准
MMMU(大规模多模态多学科理解)是评估多模态模型在需要高级知识和推理的复杂大学级任务中的性能的基准。它包含来自六个核心学科的 11.5K 多模态问题,涵盖 30 个科目和 183 个子领域,并包含图表、示意图和地图等多种图像类型。MMMU 在感知和推理方面挑战模型。对 14 个开源模型和 GPT-4V(ision)的测试表明,即使是 GPT-4V 也只能达到 56% 的准确率,这凸显了多模态 AI 模型还有很大的改进空间。

MMMU 基准测试概述
多语言基准
MGSM – 多语言基准
多语言小学数学基准 (MGSM) 是来自 GSM8K 数据集的 250 道小学数学题的集合,由人工注释者翻译成 10 种语言。GSM8K 包含 8.5K 道高质量、语言多样化的数学应用题,旨在评估模型回答涉及多步骤推理的基本数学问题的能力。
测试未来潜力
BigBench——预测未来潜力
BIG-bench 的创建是为了测试语言模型的现在和不久的将来的能力和局限性,并了解这些能力和局限性随着模型的改进可能会如何变化。
本次评估目前包括 204 项被认为超出了当前语言模型能力范围的任务。这些任务由来自 132 家机构的 450 位作者贡献,主题多种多样,涵盖语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等领域的问题。

LLM 基准的局限性
当前 LLM 基准有两个主要限制:
- 范围限制
许多基准测试的范围有限,通常针对的是大语言模型已经证明具备一定能力的能力。由于它们专注于语言模型表现良好的领域,因此它们并不擅长发现语言模型变得更加先进时可能出现的新技能或意外技能。
2.寿命短
此外,语言建模的基准测试通常不会持续很长时间。一旦语言模型在这些基准测试中达到与人类一样好的性能水平,这些基准测试通常会停止并更换或通过增加更难的挑战来更新。
这种短暂的寿命可能是因为这些基准没有涵盖比当前语言模型所能完成的更难的任务。
显然,随着模型的不断改进,它们将在当前基准测试中获得越来越相似甚至更高的分数。因此,我们需要使用 BBHard 等基准测试来测试模型的未来功能,而这些功能目前还无法实现。
总而言之,我们收集和分析了众多的大模型评测分析的算法,框架和架构设计等内容。希望对你有所帮助。
有任何问题,请二维码添加技术交流群。探讨更多AIGC能力
海量AI知识文库,大家一起飞。 技术交流群

AIGC训练营 公众号

RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/9053