单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率

[复制链接]
周大 发表于 2024-6-1 16:20:11 | 显示全部楼层 |阅读模式
Transformer模型在人工智能领域广泛使用,但其处理算术任务的能力一直受限。最新研究通过引入Abacus嵌入,解决了Transformer在跟踪数字位置上的问题,使得模型在一天内训练后,20位数加法准确率可达99%,并能泛化至120位数。结合输入注入和looped transformer,模型性能进一步提升,对于乘法和排序等任务也展现出强大的泛化能力。
来源:https://mp.weixin.qq.com/s/zHx_pMk6sHmIm-AJCS_sRA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-17 11:56 , Processed in 0.271513 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表