智源“百模”评测，大模型生态风云变

评测概述：智源 “百模” 评测重磅登场

2024 年 12 月 19 日，中国智源研究院正式发布了 FlagEval “百模” 评测结果，这一事件在人工智能领域的评测方面堪称重磅登场，有着不容忽视的重要性及影响力。

此次评测覆盖了文本、语音、图片、视频等多种模态，其评测范围涵盖了国内外 100 余个开源与商业闭源的大模型。与以往不同的是，相较于 2023 年 5 月的模型能力综合评估，这次测试扩大了各类任务的应用能力，还新增了数据处理、高级编程及工具调用等相关能力的考核，并且研究院首次侧重于金融量化交易等真实场景下的应用能力评估。

在语言模型的主观评测中，重点考察了模型中文能力，结果显示字节跳动推出的 Doubao-pro-32k-preview 和百度的 ERNIE 4.0Turbo 分获第一、第二名，体现出国内企业在此领域的强劲实力。与之相比，OpenAI 的相关模型以及 Anthropic 的 Claude-3-5-sonnet 等选择紧随其后，国际竞争的激烈程度可见一斑。而在客观评测里，不同的模型也有着各自的排名情况，展示出不同的能力水平。

多模态模型方面，发展极为迅速，众多新厂商与新模型不断涌现，这进一步丰富了整个行业的生态。比如在文生视频领域，数据表明国产大模型在全球范围内依旧处于领先地位，即便市场参与者众多，国内企业的创新活力依然十足。

此外，智源研究院还联合海淀区教师进修学校新编了 K12 全学段、多学科试卷，来考察大模型与人类学生的能力差异。结果发现，大模型在各类学科上的普遍得分仍与海淀地区学生的平均水平存在显著差距，尤其在理科表现上，存在着 “文强理弱” 的偏科现象。

值得一提的是，此次评测中智源研究院更进一步，在模型的评测方式上引入了模型辩论的对比评估，这种探索不仅关注逻辑推理、观点理解与语言表达的核心能力，更深化了对模型能力的认识。不过也发现一些模型在辩论中缺乏框架意识和深度，暴露出的薄弱环节令专家们有所忧虑。特别是在金融量化交易的特定场景下，虽然部分大模型已能生成有回撤收益的策略代码，但整体技术水平尚未达到完全的商业化标准，仍需要经验积累与技术打磨。

总之，智源研究院此次发布的 FlagEval “百模” 评测结果，为模型的未来发展指明了方向，也给行业参与者提供了极具价值的参考，值得整个业界持续关注。

亮点聚焦：评测中的关键创新与拓展

能力内涵扩展

在此次智源发布的 FlagEval “百模” 评测中，有着诸多令人瞩目的能力内涵扩展亮点。相较于 2023 年 5 月的评测，这次新增了对数据处理、高级编程以及工具调用能力的评估，使得评测维度更加全面且贴合实际应用场景。

就数据处理能力而言，大模型在面对海量、复杂的数据时，能否高效准确地进行筛选、整合、分析等操作变得至关重要。比如在一些商业应用场景中，要从庞大的用户数据里提取有价值的信息来辅助决策，模型的数据处理能力强弱直接影响最终效果。

而高级编程能力的加入则是对大模型的更高要求。高级编程能力涵盖了对算法与数据结构的深入理解、软件架构的设计与实现能力以及系统性能优化等多方面内容。这意味着模型不仅要能按常规逻辑编写代码，更要在面对复杂的编程需求，像处理高并发任务、设计高效且可扩展的软件架构等情况时，展现出相应的能力。例如在开发大型互联网应用系统时，模型若具备良好的高级编程能力，就能更好地助力开发者打造出性能优越、架构合理的产品。

工具调用能力同样不容忽视，大模型若可以灵活调用各类外部工具，就如同拥有了更多 “帮手”，能够拓展自身的功能边界，实现更多样化的任务。例如在自动化办公领域，模型能调用文档编辑、表格处理等工具，自动完成一系列繁琐的工作流程。

此外，值得重点关注的是首次对金融量化交易场景应用能力的评估。金融量化交易领域对数据的准确性、及时性以及策略的科学性要求极高。大模型在这个场景下，需要分析市场数据、制定交易策略，探索收益优化和性能提升的潜力。这一创新不仅标志着 AI 评测向深度进一步延展，更是为金融科技领域带来了新机遇，让人们看到了大模型在专业复杂领域发挥重要作用的可能性，有助于推动金融行业与人工智能技术更紧密地融合发展。

评估方式创新

智源此次还首次探索了基于模型辩论的对比评估方式，为深度剖析模型的逻辑推理、观点理解以及语言表达等核心能力开辟了新途径。

在传统的评测方式基础上，这种基于模型辩论的形式别具一格。以往的评测更多是从模型对既定问题的回答准确性、完整性等方面考量，而模型辩论则将模型置于类似人类辩论的场景中，要求其对给定的辩题进行观点阐述、逻辑论证以及反驳对方观点等操作。例如，给出一个关于社会现象利弊的辩题，模型需要像人类辩手一样，梳理出清晰的论点，用合理的论据来支撑，并且在面对对方模型提出的相反观点时，能够进行有效的反驳。

通过这样的评估方式，可以深入观察模型是如何组织语言，怎样基于自身 “理解” 来构建逻辑链条，以及是否能准确把握观点的核心并清晰表达出来。这对于全面衡量模型的核心能力有着重要意义，而且在整个行业内也是开创性的探索。它打破了常规评测的局限，让人们能够从更接近人类思维交互的角度去审视大模型的能力水平，为后续模型的优化、改进以及新模型的研发等都提供了极具价值的参考依据，有望引导整个行业在评测大模型能力方面朝着更科学、更全面的方向发展。

模态分析：各模态模型评测结果呈现

语言模型评测情况

在语言模型的评测方面，分为主观评测与客观评测两个维度，呈现出不同的排名情况与能力特点。

主观评测重点考察模型的中文能力，结果显示字节跳动的 Doubao-pro-32k-preview 和百度的 ERNIE 4.0 Turbo 表现出色，分别位居第一、第二名。这体现出国内企业在语言模型领域的强劲实力，能够在中文语境下展现出优秀的语言理解与生成能力。紧随其后的是 OpenAI 的相关模型以及 Anthropic 的 Claude-3-5-sonnet 等，像 OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022 位列第三、第四，阿里巴巴 Qwen-Max-0919 排名第五，可见国际上在这一领域的竞争也十分激烈。

而在客观评测里，各模型的排名又有所不同。OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二，阿里巴巴 Qwen-max-0919、字节跳动 Doubao-pro-32k-preview 位居第三、第四，Meta Llama-3.3-70B-Instruct 排名前五。这反映出不同模型在有标准答案的评测场景下，各自具备不同的优势与待提升之处。

整体来看，针对一般中文场景的开放式问答或者生成任务，语言模型的能力已趋于饱和稳定。不过，在复杂场景任务的表现上，国内头部语言模型仍然与国际一流水平存在显著差距，还需要在逻辑推理、知识运用的深度与广度等方面持续发力，不断优化提升，以更好地应对多样化、高难度的语言任务需求。

视觉语言多模态模型评测

视觉语言多模态模型领域呈现出开源模型架构趋同（多为语言塔 + 视觉塔的架构形式），但实际表现却参差不齐的状况。

在图文理解任务上，部分表现较好的开源模型正在逐步缩小与头部闭源模型的能力差距，这是一个积极的发展态势，意味着开源模型在不断进步，具备了更强的跨模态理解能力。例如，OpenAI GPT-4o-2024-11-20 与字节跳动 Doubao-Pro-Vision-32k-241028 先后领先于 Anthropic Claude-3-5-sonnet-20241022，阿里巴巴 Qwen2-VL-72B-Instruct 和 Google Gemini-1.5-Pro 也紧随其后，展现出了各自的竞争力。

然而，不可忽视的是，在长尾视觉知识与文字识别以及复杂图文数据分析能力方面，仍然存在较大的提升空间。比如对于一些较为罕见、特定领域的视觉知识，模型的理解和运用能力还有待加强；在面对复杂的图文数据，需要进行深度挖掘与综合分析时，也暴露出了不足。这也为后续模型的研发与优化指明了方向，需要在提升通用能力的基础上，进一步拓展对各类视觉知识的覆盖以及复杂数据处理的能力。

文生图多模态模型评测

回顾来看，文生图多模态模型有着明显的变化与发展轨迹。在今年上半年参评的模型普遍还无法生成正确的中文文字，而此次参评的头部模型已经具备了中文文字生成能力，这无疑是一个重要的进步体现，意味着模型在跨模态的文字融合生成方面取得了突破。

不过，当前这类模型整体仍普遍存在一些问题，尤其在复杂场景下人物变形的情况较为突出，影响了生成图像的质量和合理性。并且，针对常识或知识性推理任务，虽然小于 3 的数量关系任务表现有所提升，但在大于 3 的数量关系处理上依然力不从心，同时涉及中国文化和古诗词理解的场景对于模型而言更是不小的挑战，反映出模型在文化内涵理解以及深层次逻辑推理方面还有很长的路要走。

从评测结果来看，腾讯 Hunyuan Image 位列第一，字节跳动 Doubao image v2.1、Ideogram 2.0 分居第二、第三，OpenAI DALL・E 3、快手可图等模型也在此次评测中展现出了各自的水平，不同模型在不同的应用场景和图像生成特点上有着差异化的表现，也为用户根据具体需求选择合适的模型提供了参考依据。

文生视频多模态模型评测

文生视频多模态模型在此次评测中展现出了一定的进步与现存的短板。

一方面，在画质方面有了进一步提升，动态性更强，镜头语言更丰富，专场也更加流畅，使得生成的视频在视觉呈现上更加吸引人，更具观赏性，能够满足一些基本的视频生成需求。例如在一些创意视频制作、简单的动画生成等场景下，可以发挥出较好的作用。

但另一方面，目前这类模型也普遍存在着一些较为突出的问题，如大幅度动作变形，画面中的物体常常出现不符合物理规律的情况，像物体消失、闪现、穿模等现象，严重影响了视频的真实性和逻辑性，限制了其在更专业、更复杂的视频创作领域的应用。

评测结果显示，快手可灵 1.5（高品质）、字节跳动即梦 P2.0 pro、爱诗科技 PixVerse V3、MiniMax 海螺 AI、Pika 1.5 位列前五，这些排名靠前的模型在文生视频领域各有特色与优势，也代表了当前该领域的较高水平，为后续模型的改进和发展提供了参照标杆。

语音语言模型专项评测

语音语言模型得益于文本大模型的进步，整体能力得到了巨大的提升，覆盖面也变得更加全面。它不仅能够在语音识别、语音合成等基础功能上表现得更为准确和流畅，还可以在一些结合文本语义理解的复杂语音任务中有更好的发挥，例如语音对话、语音指令执行等场景下，为用户提供更优质的交互体验。

不过，尽管取得了显著进步，但在具体任务上与专家模型还存在一定差距，比如在特定领域的专业语音术语识别、高精度语音情感分析等方面，还难以达到专家模型的精准度和专业性。而且整体而言，性能好、通用能力强的开源语音语言模型数量偏少，这也在一定程度上限制了其在更广泛场景下的应用和推广。

专项评测结果显示，阿里巴巴 Qwen2-Audio 位居第一，香港中文大学 & 微软 WavLLM、清华大学 & 字节跳动 Salmon 位列第二、第三，Nvidia Audio-Flamingo，MIT & IBM LTU 均进入前五，这些排名前列的模型在语音语言模型领域展现出了较强的实力，成为当前推动语音语言模型技术发展以及应用落地的重要力量。

专项探究：K12 学科测验与模型应用情况

K12 学科测验结果

智源研究院联合海淀区教师进修学校新编试卷，对大模型与学生能力差异展开了深入考察。结果显示，大模型在各类学科上的得分与海淀地区学生的平均水平仍存在显著差距。尤其在理科方面，表现出了较为明显的 “文强理弱” 偏科现象。

从具体学科试题来看，在语文、历史等人文学科考试中，模型欠缺对文字背后文化内涵以及家国情怀的理解，面对历史地理综合题时，也不能像人类考生一样有效识别学科属性。而在英语学科上，相较于简单题目，模型反而更擅长应对复杂一些的题目。解理科题目时，模型还会出现用超出年级知识范围外的方法解题的情况，并且当遇到无法理解的考题时，依然存在明显的 “幻觉” 问题。

不过，得益于多模态能力的带动发展，模型在本次 K12 学科测验综合得分相较于半年前还是提升了 12.86%，甚至在英语和历史文科试题的表现上，已有模型超越了人类考生的平均分，但整体而言，和学生的平均水平相比仍有距离，大模型后续在学科知识理解和运用等方面还有很大的提升空间。

FlagEval 平台应用情况

FlagEval 大模型角斗场自推出后，发挥了重要作用。它覆盖了国内外约 50 款大模型，支持语言问答、多模态图文理解、文生图、文生视频这四大任务的自定义在线或离线盲测。其功能丰富，能通过多种预设问题对模型进行评测，还首次引入了主观倾向阶梯评分体系，包含 A 远好于 B、A 略好于 B、AB 差不多等 5 个梯度，相较于传统评分等级，更能捕捉模型生成内容的细微差异，精确揭示模型性能差异，为用户提供更丰富深入的评测洞察。

目前，已经有 29 个语言模型、16 个图文问答多模态模型、7 个文生图模型、14 个文生视频模型参评。从用户角度来看，对模型的响应时间有了更高要求，并且更倾向于模型输出的内容是更结构化、标准化的格式。

作为 FlagEval 大模型角斗场的延展，模型辩论平台 FlagEval Debate 也登上舞台。它旨在甄别语言模型的能力差异，通过让两个模型分别以正反方身份围绕辩题开展辩论的形式，深入评估模型的逻辑推理、观点理解以及语言表达等核心能力。辩题由 FlagEval Debate 从主要由热搜话题改编、FlagEval 评测专家以及顶级辩论专家命制的辩题库中随机抽取。

不过在实际应用中也发现了一些问题，比如大模型普遍缺乏辩论框架意识，难以对辩题以整体逻辑进行综合阐述；在辩论过程中依然存在 “幻觉问题”，论据经不起推敲；并且各个模型表现突出的辩论维度趋同，在不同的辩题中，模型表现差距显著等。但不可否认的是，它依然为我们进一步认识大模型的能力提供了新的视角和有价值的参考。

生态影响：评测对模型生态变局的意义

智源此次发布的 FlagEval “百模” 评测结果，对大模型生态发展有着多方面的深远影响，也为未来技术创新、开源生态变化以及各领域应用趋势等指明了方向。

从对未来技术创新的启示来看，此次评测中所呈现出的各模型的优势与短板，为后续研发提供了明确的改进思路。比如，语言模型在复杂场景任务表现上与国际一流水平存在差距，这就促使国内相关企业和研究机构在逻辑推理、知识运用的深度与广度等方面加大研发投入，探索更先进的算法和架构，以提升语言模型应对高难度任务的能力。多模态模型虽然在画质提升、功能拓展等方面取得了一定成果，但在复杂场景分析、物理规律理解等方面仍有待突破，这将引导技术人员聚焦于攻克这些难题，进一步完善多模态模型的综合能力，推动其向更智能、更贴合实际应用的方向发展。

在开源生态方面，评测涵盖的国内外 100 余个开源与商业闭源大模型，展示出了开源生态的丰富性和活力。一方面，持续支持开源的海内外机构不断为生态注入新的模型选择，同时新兴开源贡献者也逐渐崭露头角，使得开源模型的种类更加多样，促进了技术的交流与融合。另一方面，各开源模型在评测中的不同表现，也会激励开发者们相互学习、借鉴，加快迭代优化的步伐，进而提升整个开源生态的质量和竞争力，形成一个良性循环，推动开源生态不断繁荣发展。

对于各领域应用趋势而言，金融量化交易场景应用能力的评估开启了大模型在专业复杂领域深入应用的探索之门。尽管目前整体技术水平尚未达到完全商业化标准，但已让人们看到了大模型在该领域发挥重要作用的潜力，未来有望吸引更多资源投入到相关研发中，加速大模型与金融行业的深度融合，为金融量化交易带来更高效、精准的策略制定和执行方案。而在教育领域，K12 学科测验结果显示大模型虽有进步但仍与学生存在差距，这也为后续开发更具针对性、教育辅助效果更好的大模型应用提供了方向，比如可以结合学科特点优化模型的知识储备和推理能力，助力教学活动的开展。

展望未来，大模型在多元场景下的发展前景十分广阔。随着技术的持续进步，大模型有望在智能客服、智能办公、医疗辅助诊断、文化创意产业等众多领域实现更广泛且深入的应用。比如在智能客服领域，大模型能够凭借其强大的语言理解和生成能力，更精准地解答用户咨询，提供个性化服务；在文化创意产业，文生图、文生视频等多模态模型的不断完善，可以为创作者们提供更多创意灵感和高效的创作工具，推动文化内容的创新与传播。

RA/SD 衍生者AI训练营。发布者：風之旋律，转载请注明出处：https://www.shxcj.com/archives/8024

智源“百模”评测，大模型生态风云变

评测概述：智源 “百模” 评测重磅登场