大语言模型(LLM)在数学推理上的Scaling Laws

阿里云创新中心> 创业资讯> 大语言模型(LLM)在数学推理上的Scaling Laws
0
0

大语言模型(LLM)在数学推理上的Scaling Laws

Micheli 2024-06-02 00:00:00 457
这篇指南深入探讨了阿里巴巴达摩院最近在大型语言模型(LLMs)在数学推理中的Scaling Laws上的研究。该研究特别值得关注,因为它探讨了如何通过简单的数据增强技术显著提升模型在数学数据集(如GSM8K)上的性能。研究提供了关于预训练损失、监督数据量和增强数据量对监督LLMs推理能力的关系的见解。它还揭示了模型的预训练损失可能比参数数量或训练标记更好地指示其能力。此外,研究还探讨了从多个模型中组合样本以增强推理路径多样性并提高性能的影响。这些发现不仅对该领域的研究人员具有吸引力,而且强调了数据质量和模

这篇指南深入探讨了阿里巴巴达摩院最近在大型语言模型(LLMs)在数学推理中的Scaling Laws上的研究。该研究特别值得关注,因为它探讨了如何通过简单的数据增强技术显著提升模型在数学数据集(如GSM8K)上的性能。研究提供了关于预训练损失、监督数据量和增强数据量对监督LLMs推理能力的关系的见解。它还揭示了模型的预训练损失可能比参数数量或训练标记更好地指示其能力。此外,研究还探讨了从多个模型中组合样本以增强推理路径多样性并提高性能的影响。这些发现不仅对该领域的研究人员具有吸引力,而且强调了数据质量和模型训练策略在LLMs发展中的重要性。代码的开源发布鼓励更多社区参与和贡献,使这篇内容对任何对LLMs未来及其在复杂任务(如数学推理)中的应用感兴趣的人都具有重要意义。- 阿里云开源了70亿参数通用问答大模型Qwen-7B和Qwen-7B-Chat。 - 阿里达摩院研究了大模型在数学能力上的Scaling Laws。 - Scaling Laws指随着模型大小、数据集大小和计算浮点数的增加,模型性能提高。 - 数学和代码能力是大模型的护城河,核心包括推理能力。 - 文章通过RFT数据增强提升了Llama-7B在数学数据集上的准确率。 - Pre-train loss与SFT和ICL的精度呈负线性相关,是评价模型能力的指标。 - SFT的性能改进不如ICL。 - 随着监督数据量的增加,SFT以对数线性方式改进。 - 预训练模型改善后,增加数据量的好处减少。 - RFT的模型性能随着推理路径量的增加而提高,比SFT慢。 - 不同模型的回答加强推理路径多样性以提升性能。 - 混合模型答复微调时,不同模型对推理路径的贡献不同。 - LLaMA-7B、LLaMA2-7B、LLaMA-13B、LLaMA2-13B的精度提升分别为13.4、8.7、9.1、5.4。 - 文章提供了更多细节和结论,可参考paper和github。

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等