现在可以在Unsloth中使用Gemma 3进行GRPO，并且进行了一些bug修复。

齐思GPT 2025-03-20 00:00:00 78

最近r/LocalLLaMA的更新对那些对机器学习感兴趣的人，特别是对训练推理模型感兴趣的人来说是一个重大进展。与Hugging Face的合作导致了一个免费的笔记本，利用了Gemma 3模型和GRPO进行训练，现在与只支持float16精度的旧GPU兼容。这一突破解决了以前出现的大型训练损失问题，并使得在免费的Colab T4环境中使用Gemma 3成为可能。Unsloth框架已经更新以支持这一进展，使其成为唯一能够在FP16机器上运行Gemma 3推理和训练的框架。对于那些希望微调他们的模型的人，更新的教程和Colab笔记本都可用，这使得现在是爱好者和专业人士探索Gemma 3功能的绝佳时机，而无需高端硬件。- 与Hugging Face合作，创建了一个免费的笔记本，使用Gemma 3和GRPO可以训练自己的推理模型 - 修复了Gemma 3在训练和推理时在旧GPU上无法工作的问题 - 使用float16时，Gemma 3的激活值超过了范围，导致无限激活 - Unsloth是唯一一个可以在FP16机器上进行Gemma 3推理和训练的框架 - 更新Unsloth以启用许多错误修复和Gemma 3微调支持 - 选择Gemma 3 (1B)作为GRPO笔记本的模型，因为它的尺寸较小，推理更快更容易 - 提供了GRPO和SFT的教程和Colab笔记本链接 - 可以使用Gemma 3 (4B)或(12B)进行推理和训练，只需更改模型名称即可

上一篇：我在一个单独的代码库上使用Unsloth对Qwen 2.5 Coder进行了微调，最终在代码完成准确性方面取得了47%的提升。

下一篇：victormustar(@cognitivecompai)：转发 @victormustar：NVIDIA发布了Nemotron-Super后训练数据集，包含了超过3000万个训练样本，2000万个数学示例，950万个代码示例，以及SFT和RL数据。

上一篇：我在一个单独的代码库上使用Unsloth对Qwen 2.5 Coder进行了微调，最终在代码完成准确性方面取得了47%的提升。下一篇：victormustar(@cognitivecompai)：转发 @victormustar：NVIDIA发布了Nemotron-Super后训练数据集，包含了超过3000万个训练样本，2000万个数学示例，950万个代码示例，以及SFT和RL数据。