200多行代码，超低成本复现DeepSeek R1「Aha Moment」！复旦大学开源

阎荟 2025-02-18 00:00:00 251

复旦大学的知识工作室实验室通过开发Simple-GRPO项目，在人工智能领域取得了重大突破，该项目旨在复制R1-zero模型的自我反思能力。这个项目的独特之处在于其简单性和高效性，只需约200行代码即可在现有GPU上进行训练。这一突破对于那些对AI开发感兴趣的人来说尤为重要，因为它展示了一种成本效益的方法，特别是在提高模型性能方面，尤其是在准确性和格式符合性方面。该项目使用基本的深度学习库，如deepspeed和torch，避免了复杂的框架，使其易于访问和维护。对于寻求可扩展和资源高效的AI模型训练方法的AI爱好者和研究人员来说，Simple-GRPO项目对优化更长的思维链和答案同质性的方法可能是一个改变游戏规则的因素。- 复旦大学知识工场实验室的研究团队成功复现了DeepSeek R1-zero的自发反思能力。 - 他们开源了一个名为Simple-GRPO的项目，代码简洁、依赖简单，只需200多行。 - 该项目的训练成本低，支持在一张A800 (80G)加一张3090 (24G)的显卡上完成7B模型的训练。 - 该项目使用了GRPO算法思想，通过参考模型分离和核心损失计算来实现训练。 - 实验结果表明，该项目的模型在训练过程中能够出现「顿悟时刻」，并且在正确率和格式遵循能力上表现良好。 - 未来，该项目将进一步优化同质性问题和显存占用问题。

登录后可评论

上一篇：Daniel Han，社交媒体上被称为@danielhanchen，通过UnslothAI提出了一份独特的工作机会，该公司可能涉及人工智能

下一篇：全球华人决战AI之巅！马斯克Grok 3险胜DeepSeek，疯狂启动钞能力，压力给到OpenAI

上一篇：Daniel Han，社交媒体上被称为@danielhanchen，通过UnslothAI提出了一份独特的工作机会，该公司可能涉及人工智能下一篇：全球华人决战AI之巅！马斯克Grok 3险胜DeepSeek，疯狂启动钞能力，压力给到OpenAI