9月18日电 深刻智能团队梁文锋等人于17日在《自然》杂志发表论文,公开了其开源人工智能模型DeepSeek-R1所采用的大规模推理模型训练方法。研究证实通过纯强化学习方式可有效提升大语言模型(LLM)的推理能力,在减少对人工标注数据依赖的同时显著增强系统性能。实验数据显示该模型在数学解题、编程竞赛及STEM学科研究生层次的问题解决等任务中表现突出,超越传统训练方法培养的语言模型。
DeepSeek-R1创新性地采用分阶段训练策略,在人类监督下完成深度优化阶段后转入强化学习模式。研究团队指出该模型通过自主解决问题获得反馈奖励而非依赖人工示例来构建推理路径,并形成标准化模板库。这种设计使系统既能降低训练成本与流程复杂度,又能保持高质量输出能力。研究人员建议后续可重点优化奖励机制设计以进一步提升推理过程与最终结果的可靠性。
在权威数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1分别取得77.9%与79.8%的准确率,在编程挑战赛及生物、物理、化学等学科研究生水平问题上同样展现出卓越表现。(科技日报)