智源千万级指令微调数据集Infinity-Instruct持续迭代,Llama3.1仅微调即可接近GPT-4
阎荟
2024-08-21 00:00:00
618
这篇内容讨论了Infinity Instruct数据集,这是在微调语言模型方面的重大进展,特别是针对Llama3.1-70B和Mistral-7B-v0.1,以实现接近GPT-4的性能。这个数据集包括超过700万条基本指令和对话指令集,已经证明在各种评估中胜过官方对话模型。
Infinity Instruct数据集,这是在微调语言模型方面的重大进展,特别是针对Llama3.1-70B和Mistral-7B-v0.1,以实现接近GPT-4的性能。这个数据集包括超过700万条基本指令和对话指令集,已经证明在各种评估中胜过官方对话模型。值得注意的是,这个数据集可以在像Huggingface这样的热门平台上获取,这使其成为人工智能领域的开发人员和研究人员的宝贵资源。文章还暗示将来会发布用于数据处理和模型训练的完整代码,表明对数据集的持续改进和支持。这篇内容对于那些对人工智能语言模型的发展和增强感兴趣的人特别相关。- 智源研究院推出了千万级指令微调数据集Infinity Instruct,用于引导语言模型落地、构建高性能对话模型。
- 数据集包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。
- 经过微调,Llama3.1-70B和Mistral-7B-v0.1的综合能力评价可基本对齐官方自己发布的对话模型,InfInstruct-7M-Llama3.1-70B已十分接近GPT-4。
- Infinity-Instruct-Gen包含149万条合成的复杂指令,用于提升模型在各种真实对话场景中回复的鲁棒性。
- Infinity-Instruct微调的模型已经超越了官方对话模型的性能。
- Infinity Instruct数据集在发布后迅速获得了广泛的关注和应用。
- 智源研究院使用数据选择和指令合成两种方法构建了高质量的基础、对话指令数据集。
- Infinity Instruct对数据进行了去重和去污,以避免重复和与评测榜单重复的样本。
- 项目使用FlagScale去掉训练样本中不必要的pad,压缩样本量,同时应用模型切分支持大模型在数百万量级指令数据集上的训练。
- 未来将开源基础、对话指令数据处理的全流程代码,以及模型训练代码。
- Infinity Instruct还将扩展数据策略到对齐、预训练阶段,支持语言模型构建全生命周期的高质量数据需求。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。