TabPFN v2:在小数据集上使用表格基础模型进行准确预测

阿里云创新中心> 创业资讯> TabPFN v2:在小数据集上使用表格基础模型进行准确预测
0

TabPFN v2:在小数据集上使用表格基础模型进行准确预测

齐思GPT 2025-01-10 00:00:00 974
TabPFN v2是一款开创性的预训练变压器模型,专门为小型表格数据集设计,最近在著名期刊《自然》上发表。该模型通过在速度和准确性方面超越了最先进的方法,为该领域设立了新的标准。值得注意的是,它可以在几秒钟内进行预测,处理包含多达10,000个样本和500个特征的数据集。其稳健性还包括处理无信息特征和缺失值,使其成为处理各种数据类型的多功能工具。TabPFN v2最令人印象深刻的成就之一是,它只需半个数据集大小就能实现比其最接近竞争对手CatBoost更高的性能。
TabPFN v2是一款开创性的预训练变压器模型,专门为小型表格数据集设计,最近在著名期刊《自然》上发表。该模型通过在速度和准确性方面超越了最先进的方法,为该领域设立了新的标准。值得注意的是,它可以在几秒钟内进行预测,处理包含多达10,000个样本和500个特征的数据集。其稳健性还包括处理无信息特征和缺失值,使其成为处理各种数据类型的多功能工具。 TabPFN v2最令人印象深刻的成就之一是,它只需半个数据集大小就能实现比其最接近竞争对手CatBoost更高的性能。此外,它要么优于,要么与AutoML系统AutoGluon 1.0的性能相匹敌,通过集成技术还有进一步提升的潜力。 该模型在广泛收集的1.3亿个合成数据集上进行训练,使其具备了微调、数据生成和密度估计等功能。对于有兴趣利用这项技术的人来说,TabPFN v2可在开放许可下访问,并可通过API尝试,开发人员通过他们的Discord频道邀请反馈和讨论。该模型对于处理小型表格数据的人来说代表了一个重大进步,值得探索其效率和稳健性。- TabPFN v2是一个预训练的transformer模型,在小型表格数据上表现优于现有的最先进模型。 - 它在分类任务上比调整了4小时的强基准模型集成快2.8秒,在回归任务上快4.8秒,适用于最多10,000个样本和500个特征的数据集。 - 它对无信息特征具有鲁棒性,并且可以原生地处理数值和分类特征以及缺失值。 - 它在1.3亿个合成数据集上进行了预训练,是一个生成式transformer模型,可以进行微调、数据生成和密度估计。 - TabPFN v2使用一半的数据就能达到与下一个最好的基准模型(CatBoost)使用全部数据时相同的性能。 - TabPFN v2与SOTA AutoML系统AutoGluon 1.0进行了比较。标准TabPFN在分类任务上已经优于AutoGluon,并在回归任务上持平,但在TabPFN v2中使用多个TabPFN进行集成(PHE)效果更好。 - TabPFN v2可在开放许可证下使用,可以通过API进行尝试。 - 欢迎提供反馈和讨论,也可以加入discord进行交流。

后缀.jpg

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等