单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率

Micheli 2024-06-02 00:00:00 263

单GPU训练一天，Transformer在100位数字加法上就能达到99%的准确率。马里兰大学和卡内基梅隆大学的研究人员通过为每个数字引入一种新的位置嵌入技术——算盘嵌入（Abacus embedding），显著提高了Transformer在算术任务上的表现。这种改进使得在单GPU上训练一天后，100位数字加法问题的准确率达到了99%。此外，结合输入注入和循环Transformer架构，将泛化误差降低了87%，并且还将这种算术能力扩展到了乘法和排序任务。对于对AI和机器学习领域的最新进展感兴趣的人来说，这项研究提供了对AI算术未来的深刻洞察。- Transformer在算数任务中表现糟糕，特别是加法，无法跟踪数字位置。 - Abacus嵌入可以提高Transformer在算数任务上的准确率。 - 使用Abacus嵌入的Transformer模型可以泛化到120位数操作数的问题，是之前最先进模型的6倍。 - 结合输入注入和looped transformer架构可以进一步提高Transformer的性能。 - Abacus嵌入适用于乘法和排序任务，可以提高模型的泛化能力。

奇绩创坛

>>>了解更多创新创业资讯

登录后可评论

上一篇：沙特基金参与智谱AI最新一轮4亿美元融资

上一篇：沙特基金参与智谱AI最新一轮4亿美元融资下一篇：开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？