单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率

周大发表于 2024-6-1 16:20:11

Transformer模型在人工智能领域广泛使用，但其处理算术任务的能力一直受限。最新研究通过引入Abacus嵌入，解决了Transformer在跟踪数字位置上的问题，使得模型在一天内训练后，20位数加法准确率可达99%，并能泛化至120位数。结合输入注入和looped transformer，模型性能进一步提升，对于乘法和排序等任务也展现出强大的泛化能力。
来源：https://mp.weixin.qq.com/s/zHx_pMk6sHmIm-AJCS_sRA

页: [1]

靠浦ai课堂's Archiver

单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率