现在可以在Unsloth中使用Gemma 3进行GRPO,并且进行了一些bug修复。

阿里云创新中心> 创业资讯> 现在可以在Unsloth中使用Gemma 3进行GRPO,并且进行了一些bug修复。
0

现在可以在Unsloth中使用Gemma 3进行GRPO,并且进行了一些bug修复。

齐思GPT 2025-03-20 00:00:00 78
最近r/LocalLLaMA的更新对那些对机器学习感兴趣的人,特别是对训练推理模型感兴趣的人来说是一个重大进展。与Hugging Face的合作导致了一个免费的笔记本,利用了Gemma 3模型和GRPO进行训练,现在与只支持float16精度的旧GPU兼容。这一突破解决了以前出现的大型训练损失问题,并使得在免费的Colab T4环境中使用Gemma 3成为可能。Unsloth框架已经更新以支持这一进展,使其成为唯一能够在FP16机器上运行Gemma 3推理和训练的框架。
最近r/LocalLLaMA的更新对那些对机器学习感兴趣的人,特别是对训练推理模型感兴趣的人来说是一个重大进展。与Hugging Face的合作导致了一个免费的笔记本,利用了Gemma 3模型和GRPO进行训练,现在与只支持float16精度的旧GPU兼容。这一突破解决了以前出现的大型训练损失问题,并使得在免费的Colab T4环境中使用Gemma 3成为可能。Unsloth框架已经更新以支持这一进展,使其成为唯一能够在FP16机器上运行Gemma 3推理和训练的框架。对于那些希望微调他们的模型的人,更新的教程和Colab笔记本都可用,这使得现在是爱好者和专业人士探索Gemma 3功能的绝佳时机,而无需高端硬件。- 与Hugging Face合作,创建了一个免费的笔记本,使用Gemma 3和GRPO可以训练自己的推理模型 - 修复了Gemma 3在训练和推理时在旧GPU上无法工作的问题 - 使用float16时,Gemma 3的激活值超过了范围,导致无限激活 - Unsloth是唯一一个可以在FP16机器上进行Gemma 3推理和训练的框架 - 更新Unsloth以启用许多错误修复和Gemma 3微调支持 - 选择Gemma 3 (1B)作为GRPO笔记本的模型,因为它的尺寸较小,推理更快更容易 - 提供了GRPO和SFT的教程和Colab笔记本链接 - 可以使用Gemma 3 (4B)或(12B)进行推理和训练,只需更改模型名称即可

后缀.jpg

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。