开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law
阎荟
2024-12-17 00:00:00
187
在最近的一项重要发展中,Hugging Face公司通过逆向工程复现了OpenAI的Scaling Law实验,并展示了他们的Llama 1B和3B模型的能力。实验中使用了多样性验证树搜索(DVTS)和Search and Learn工具包来改进数学问题中间步骤的生成和搜索策略。这种方法提高了模型在简单和中等难度问题上的表现。研究结果指出了未来研究的潜在方向,包括开发更强大的验证器、整合结构化推理以及在主观任务中扩展搜索方法。然而,由于需要多次调用模型和过程奖励模型(PRM),这种方法的成本效益受到质疑。
在最近的一项重要发展中,Hugging Face公司通过逆向工程复现了OpenAI的Scaling Law实验,并展示了他们的Llama 1B和3B模型的能力。实验中使用了多样性验证树搜索(DVTS)和Search and Learn工具包来改进数学问题中间步骤的生成和搜索策略。这种方法提高了模型在简单和中等难度问题上的表现。研究结果指出了未来研究的潜在方向,包括开发更强大的验证器、整合结构化推理以及在主观任务中扩展搜索方法。然而,由于需要多次调用模型和过程奖励模型(PRM),这种方法的成本效益受到质疑,更适合本地部署。对于对语言模型和问题解决技术交叉领域感兴趣的人来说,这项实验可能是一个重要的步骤。- Hugging Face开源了Llama版o1,逆向工程复现了OpenAI的新Scaling Law。
- 使用Llama 1B模型,数学分数超过了8倍大的模型和计算机科学博士生的平均分数。
- 使用Llama 3B模型,进步幅度更大,能与20几倍大的70B模型媲美。
- Hugging Face团队基于DeepMind的研究结果,改进了搜索方法,提高了多样性和性能。
- 实验中使用了不同的搜索策略和模型,包括语言模型和流程奖励模型。
- 多数投票策略和奖励模型加入后的策略都有提高。
- Beam Search策略让1B模型表现开始高于8B,但在简单问题上表现不如Best-of-N。
- DVTS方法改进了答案的多样性,对简单/中等难度问题性能更好。
- 未来可以探索更强大的验证器、实现自我验证和将结构化推理整合到搜索过程中。
- 这种方法更适合本地部署,调用256次3B模型和过程奖励模型比调用一次70B模型更贵。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。