周大 发表于 2024-6-1 16:20:11

单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率

Transformer模型在人工智能领域广泛使用,但其处理算术任务的能力一直受限。最新研究通过引入Abacus嵌入,解决了Transformer在跟踪数字位置上的问题,使得模型在一天内训练后,20位数加法准确率可达99%,并能泛化至120位数。结合输入注入和looped transformer,模型性能进一步提升,对于乘法和排序等任务也展现出强大的泛化能力。
来源:https://mp.weixin.qq.com/s/zHx_pMk6sHmIm-AJCS_sRA
页: [1]
查看完整版本: 单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率