FineMath-4+ 高质量数学教育数据集
阎荟
2024-12-25 00:00:00
306
FineMath是一个经过精心筛选的数学教育内容数据集,从庞大的CommonCrawl档案中提炼出清晰、逐步解释和解决问题的技巧。它通过专门的分类器进行训练,借助LLama-3.1-70B-Instruct注释,确保数据集侧重于教育价值而不是复杂的学术论文。FineMath有两个版本,FineMath-3+和FineMath-4+,提供了340亿至540亿个内容标记,旨在增强机器学习模型的数学能力。这个数据集不仅仅是另一个信息收集,它代表着向AI社区普及高质量数学学习资源的重要进展。
FineMath是一个经过精心筛选的数学教育内容数据集,从庞大的CommonCrawl档案中提炼出清晰、逐步解释和解决问题的技巧。它通过专门的分类器进行训练,借助LLama-3.1-70B-Instruct注释,确保数据集侧重于教育价值而不是复杂的学术论文。FineMath有两个版本,FineMath-3+和FineMath-4+,提供了340亿至540亿个内容标记,旨在增强机器学习模型的数学能力。这个数据集不仅仅是另一个信息收集,它代表着向AI社区普及高质量数学学习资源的重要进展。通过其严格的筛选过程和性能评估,FineMath为教育内容过滤设立了新的标准,使其成为研究人员和教育工作者的潜在宝贵资产。- FineMath是一个包含34B个令牌(FineMath-3+)和54B个令牌(FineMath-3+ with InfiMM-WebMath-3+)的数学教育内容数据集。
- FineMath通过使用LLama-3.1-70B-Instruct生成的注释训练了数学内容分类器,筛选出最具教育性的数学内容。
- 数据集分为FineMath-3+和FineMath-4+两个版本,其中FineMath-4+是FineMath-3+的子集,质量更高,包含详细的解释。
- 还发布了InfiMM-WebMath-3+和InfiMM-WebMath-4+两个版本的英文文本数据集,使用与FineMath相同的方法进行分类。
- 可以使用提供的配置文件加载数据集,有四个可选配置:finemath-3plus、finemath-4plus、infiwebmath-3plus和infiwebmath-4plus。
- 数据集的创建过程经历了多个阶段,包括内容提取和分类、候选页面回忆、质量评估等。
- 数据集的使用有一些考虑事项,包括社会影响和数据集的偏见。
- 数据集的许可证为Open Data Commons Attribution License (ODC-By) v1.0。

版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。