Open-R1:DeepSeek-R1 的完全开放复制版

什么是 DeepSeek-R1?

如果您曾经为一道棘手的数学题而苦恼,那么您就会知道多思考一会儿并仔细解决它是多么有用。OpenAI的 o1 模型表明,当 LLM 被训练做同样的事情时(通过在推理过程中使用更多的计算),它们在解决数学、编码和逻辑等推理任务方面会表现得更好。

然而,OpenAI 推理模型背后的秘诀一直是个秘密。直到上周,DeepSeek 发布了他们的DeepSeek-R1模型,并迅速引起互联网轰动(以及股市!)。

除了性能与 o1 相当甚至更好之外,DeepSeek-R1发布还附带了一份详细的技术报告,概述了其训练方法的关键步骤。该方法涉及多项创新,最值得注意的是应用纯强化学习来教基础语言模型如何在没有任何人工监督的情况下进行推理。如下图所示,如果您可以访问功能强大的基础模型和高质量的数据混合,那么构建强大的推理模型现在非常简单:

DeepSeek-R1 训练流程

然而,DeepSeek-R1 的发布留下了几个问题:

  • 数据收集:如何整理特定推理的数据集?
  • 模型训练: DeepSeek 没有发布任何训练代码,因此不知道哪些超参数效果最好,以及它们在不同模型系列和规模之间有何不同。
  • 缩放定律: 训练推理模型时计算和数据的权衡是什么?

这些问题促使我们启动了Open-R1 项目,该项目旨在系统地重建 DeepSeek-R1 的数据和训练管道,验证其声明并突破开放推理模型的界限。通过构建 Open-R1,我们旨在提供强化学习如何增强推理的透明度,与开源社区分享可重复的见解,并为未来利用这些技术的模型奠定基础。

在这篇博文中,我们将介绍 DeepSeek-R1 背后的关键要素、我们计划复制的部分以及如何为 Open-R1 项目做出贡献。

让我们深入研究🚀!

他们是怎么做到的?

DeepSeek-R1 是基于DeepSeek-V3构建的推理模型。与任何优秀的推理模型一样,它始于强大的基础模型,而 DeepSeek-V3 正是如此。这个 671B 专家混合 (MoE) 模型的性能可与 Sonnet 3.5 和 GPT-4o 等重量级模型相媲美。尤其令人印象深刻的是,由于多令牌预测 (MTP)、多头潜在注意力 (MLA) 等架构变化以及大量(真的,很多)硬件优化,它的训练成本非常低廉(仅 550 万美元)。

DeepSeek 还推出了两个模型:DeepSeek-R1-Zero 和 DeepSeek-R1,每个模型都有不同的训练方法。DeepSeek-R1-Zero 完全跳过了监督微调,完全依靠强化学习 (RL),使用群组相对策略优化 (GRPO) 来提高流程效率。一个简单的奖励系统被用来指导模型,根据答案的准确性和结构提供反馈。这种方法帮助模型发展有用的推理技能,例如将问题分解为步骤并验证自己的输出。然而,它的回答往往缺乏清晰度,难以阅读。

这就是 DeepSeek-R1 的作用所在。它从“冷启动”阶段开始,对一小组精心设计的示例进行微调,以提高清晰度和可读性。从那里开始,它经历了更多的强化学习和改进步骤,包括使用基于人类偏好和可验证奖励的低质量输出来创建一个不仅推理良好而且能产生完美一致答案的模型。

Open-R1:DeepSeek-R1 的完全开放复制版

这一切听起来很棒,但实际上缺少了什么?让我们来看看这个谜题中缺失的部分。

Open-R1:缺失的部分

DeepSeek-R1 的发布对社区来说是一个惊人的福音,但他们并没有发布所有内容——虽然模型权重是开放的,但用于训练模型的数据集和代码却不是😢。

Open-R1的目标是补齐这些缺失的部分,以便整个研究和行业社区能够使用这些配方和数据集构建类似或更好的模型。通过公开进行这项工作,社区中的每个人都可以做出贡献!

如下图所示,这是我们的攻击计划:

  • 步骤 1:从 DeepSeek-R1 中提取高质量推理数据集来复制 R1-Distill 模型。
  • 第 2 步:复制 DeepSeek 用于创建 R1-Zero 的纯 RL 管道。这将涉及为数学、推理和代码整理新的大规模数据集。
  • 步骤 3:展示我们可以通过多阶段训练从基础模型→SFT→RL。
打开-R1 步骤

合成数据集将允许每个人通过简单地微调现有或新的 LLM 来将其微调为推理模型。涉及 RL 的训练方法将作为任何人从头开始构建类似模型的起点,并允许研究人员在此基础上构建更先进的方法。

请注意,我们不想止步于数学数据集。探索其他领域也有很大潜力,显而易见的是代码,还有医学等科学领域,推理模型可能会产生重大影响。

RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/9204

(0)
上一篇 2025-02-21 10:38 上午
下一篇 2天前

相关推荐

发表回复

登录后才能评论
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn