仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o
阎荟
2025-01-06 00:00:00
235
仅需一万块钱!清华团队靠强化学习让 7B 模型数学打败 GPT-4o。清华大学的 PRIME 团队开发了一种新的强化学习方法,名为 PRIME,它允许高效训练一个名为 Eurus-2-7B-PRIME 的 7B 模型,在数学能力上超越其他模型。PRIME 算法解决了在强化学习中获得精确和可扩展密集奖励的挑战。它利用隐式过程奖励,为每个令牌提供价值估计,并且可以在线更新。与基线方法相比,PRIME 在采样效率和下游任务中显示出显著改进。
仅需一万块钱!清华团队靠强化学习让 7B 模型数学打败 GPT-4o。清华大学的 PRIME 团队开发了一种新的强化学习方法,名为 PRIME,它允许高效训练一个名为 Eurus-2-7B-PRIME 的 7B 模型,在数学能力上超越其他模型。PRIME 算法解决了在强化学习中获得精确和可扩展密集奖励的挑战。它利用隐式过程奖励,为每个令牌提供价值估计,并且可以在线更新。与基线方法相比,PRIME 在采样效率和下游任务中显示出显著改进。该算法在 AI 社区中受到好评,并有潜力训练接近 OpenAI o1 的模型。PRIME 结合了隐式过程奖励和强化学习,解决了奖励稀疏性问题,增强了大型模型的推理能力。- 清华团队成功训练出了一个数学能力超过GPT-4o和Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。
- PRIME方法不依赖蒸馏数据和模仿学习,仅用8张A100花费一万块钱左右,不到10天时间就能高效训练出模型。
- PRIME方法带来了16.7%的绝对提升,远超已知的任何开源方案。
- PRIME算法通过隐式过程奖励模型解决了强化学习中的奖励稀疏问题,具有过程奖励、可扩展性和简洁性的优势。
- PRIME算法能够将每个token的过程奖励无缝应用于强化学习流程中,有着2.5倍的采样效率提升和显著的下游任务提升。
- PRIME算法的在线更新要显著优于固定不更新的PRM。
- PRIME算法有望推动大模型复杂推理能力的进一步提升。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论