对互联网上所有的PDF文件进行分类。

阿里云创新中心> 创业资讯> 对互联网上所有的PDF文件进行分类。
0
0

对互联网上所有的PDF文件进行分类。

齐思GPT 2024-08-20 00:00:00 206
在snats.xyz网站上记录的一项雄心勃勃的项目中,一位作者着手处理了来自SafeDocs数据集的840万个PDF文件的分类工作,该数据集被称为互联网上最大的纯PDF数据集。作者利用一系列先进的机器学习技术,包括语言模型(LLMs)、嵌入模型和XGBoost,取得了显著的分类准确率,经过超参数调整后达到了85.26%的峰值。
在snats.xyz网站上记录的一项雄心勃勃的项目中,一位作者着手处理了来自SafeDocs数据集的840万个PDF文件的分类工作,该数据集被称为互联网上最大的纯PDF数据集。作者利用一系列先进的机器学习技术,包括语言模型(LLMs)、嵌入模型和XGBoost,取得了显著的分类准确率,经过超参数调整后达到了85.26%的峰值。这一努力不仅展示了机器学习在组织大量数据方面的潜力,还为未来领域的研究设立了一个基准。作者分享数据集和代码的透明度邀请其他人在此基础上进行工作,可能会导致更精细的分类系统。对于那些对数据科学、机器学习或处理大型数据集感兴趣的人来说,这些内容提供了一个实际应用和协作潜力的引人入胜的案例研究。- 作者试图对互联网上的所有PDF进行分类 - 使用Common Crawl数据集,包含数百万个PDF文件 - SafeDocs数据集是一个包含840万个未截断PDF文件的数据集,作者使用该数据集进行分类 - 作者使用LLMs、嵌入模型和XGBoost进行分类,并生成了漂亮的图表 - 作者尝试了不同的模型和方法,包括嵌入模型、XGBoost、TF-IDF和线性回归 - 最终,XGBoost嵌入模型在分类任务中表现最好,达到了83.97%的准确率 - 作者还进行了超参数调整和可视化分析 - 作者认为虽然结果还有改进的空间,但这个项目已经取得了很大的进展 - 作者将数据集和代码发布在GitHub上,供其他人使用和参考
版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论