GitHub-SonyResearch/micro_diffusion:我们在大规模扩散模型的微博客训练工作的官方资料库
齐思GPT
2025-01-14 00:00:00
164
索尼研究的GitHub存储库“micro_diffusion”提出了一种成本效益的方法来训练大规模扩散模型,这在机器学习和人工智能领域是一项重大进展。该存储库以仅1,890美元的微预算训练了一个拥有11.6亿参数的模型,这只是通常与此类大规模AI模型相关的成本的一小部分。该模型在COCO数据集上实现了显著的Fréchet Inception Distance(FID)为12.7,表明具有高质量的图像生成能力。这个存储库特别引人注目的地方不仅在于成本效益,还在于提供了完整的代码库和预训练模型检查点。
索尼研究的GitHub存储库“micro_diffusion”提出了一种成本效益的方法来训练大规模扩散模型,这在机器学习和人工智能领域是一项重大进展。该存储库以仅1,890美元的微预算训练了一个拥有11.6亿参数的模型,这只是通常与此类大规模AI模型相关的成本的一小部分。该模型在COCO数据集上实现了显著的Fréchet Inception Distance(FID)为12.7,表明具有高质量的图像生成能力。
这个存储库特别引人注目的地方不仅在于成本效益,还在于提供了完整的代码库和预训练模型检查点,使得易于复制和实验。训练过程设计得易于访问,逐渐增加图像分辨率,并提供了有关数据集设置和模型采样的详细说明。该存储库使用了3700万真实和合成图像来训练扩散模型,这是一项令人印象深刻的成就,展示了在不需要巨额资源的情况下创建强大AI模型的潜力。
该存储库采用Apache 2.0许可证,确保社区的开放访问,并承认了先前开源努力的使用,体现了在推进AI研究方面的合作精神。对于希望深入研究扩散模型但又不愿进行重大投资的研究人员和从业者,该存储库提供了一个有价值且实用的资源。- 提供了一个简化的实现,用于在极低预算下训练大规模扩散模型。
- 使用37M个真实和合成图像,总成本为$1,890,训练了一个拥有11.6亿个参数的稀疏变压器模型。
- 在COCO数据集上进行零样本生成,FID为12.7。
- 提供了预训练的模型检查点,可用于生成图像。
- 训练模型的步骤从低分辨率到高分辨率,包括四个阶段。
- 提供了四个预训练模型的下载链接和描述。
- 使用给定的步骤和参数可以生成512×512分辨率的图像。
- 代码和模型权重使用Apache 2.0许可发布。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。