MINT-1T:缩放开源多峰值数据10倍,一个拥有万亿代币的多峰值数据集

阿里云创新中心> 创业资讯> MINT-1T:缩放开源多峰值数据10倍,一个拥有万亿代币的多峰值数据集
0
0

MINT-1T:缩放开源多峰值数据10倍,一个拥有万亿代币的多峰值数据集

Micheli 2024-06-18 00:00:00 825
“MINT-1T: 将开源多模态数据扩展10倍”一文介绍了一项开创性的数据集,名为MINT-1T,是迄今为止规模最大、最多样化的开源多模态数据集,包含了惊人的一万亿文本标记和三十亿图像。这比现有数据集增加了十倍,标志着该领域的重大进步。

“MINT-1T: 将开源多模态数据扩展10倍”一文介绍了一项开创性的数据集,名为MINT-1T,是迄今为止规模最大、最多样化的开源多模态数据集,包含了惊人的一万亿文本标记和三十亿图像。这比现有数据集增加了十倍,标志着该领域的重大进步。新增的来源如PDF和ArXiv论文进一步丰富了数据集的多样性。作者团队包括Anas Awadalla和Silvio Savarese等专家,展示了在MINT-1T上训练的大型多模态模型(LMMs)可以与之前领先数据集OBELICS上训练的模型性能相匹敌。该数据集的发布,以及数据整理过程和代码,将成为AI社区的宝贵资产,有望加速多模态学习的进展。对于从事AI研究和实践的人员,特别是那些涉及多模态模型的人员,探索MINT-1T数据集可能是朝着开发更强大、更有能力系统的重要一步。- MINT-1T是迄今为止最广泛和多样化的开源多模态交错数据集,包含了一万亿个文本标记和三十亿张图片。 - MINT-1T是为了训练大规模多模态模型而创建的,可以与之前领先的数据集OBELICS相媲美。 - MINT-1T包括了以前未开发的来源,如PDF和ArXiv论文。 - MINT-1T的数据和代码将在https://github.com/mlfoundations/MINT-1T上发布。

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论