MINT-1T：缩放开源多峰值数据10倍，一个拥有万亿代币的多峰值数据集

Micheli 2024-06-18 00:00:00 883

“MINT-1T: 将开源多模态数据扩展10倍”一文介绍了一项开创性的数据集，名为MINT-1T，是迄今为止规模最大、最多样化的开源多模态数据集，包含了惊人的一万亿文本标记和三十亿图像。这比现有数据集增加了十倍，标志着该领域的重大进步。

“MINT-1T: 将开源多模态数据扩展10倍”一文介绍了一项开创性的数据集，名为MINT-1T，是迄今为止规模最大、最多样化的开源多模态数据集，包含了惊人的一万亿文本标记和三十亿图像。这比现有数据集增加了十倍，标志着该领域的重大进步。新增的来源如PDF和ArXiv论文进一步丰富了数据集的多样性。作者团队包括Anas Awadalla和Silvio Savarese等专家，展示了在MINT-1T上训练的大型多模态模型（LMMs）可以与之前领先数据集OBELICS上训练的模型性能相匹敌。该数据集的发布，以及数据整理过程和代码，将成为AI社区的宝贵资产，有望加速多模态学习的进展。对于从事AI研究和实践的人员，特别是那些涉及多模态模型的人员，探索MINT-1T数据集可能是朝着开发更强大、更有能力系统的重要一步。- MINT-1T是迄今为止最广泛和多样化的开源多模态交错数据集，包含了一万亿个文本标记和三十亿张图片。 - MINT-1T是为了训练大规模多模态模型而创建的，可以与之前领先的数据集OBELICS相媲美。 - MINT-1T包括了以前未开发的来源，如PDF和ArXiv论文。 - MINT-1T的数据和代码将在https://github.com/mlfoundations/MINT-1T上发布。

奇绩创坛

>>>了解更多创新创业资讯

登录后可评论

上一篇：关于基本复杂性的一点说明

下一篇：RTranslator是一个开源的实时翻译应用程序

上一篇：关于基本复杂性的一点说明下一篇：RTranslator是一个开源的实时翻译应用程序