不同Tokenization方法影响LLM算术能力

[复制链接]
周大 发表于 2025-1-4 15:35:54 | 显示全部楼层 |阅读模式
近年来,语言模型的tokenization方法不断演进。早期GPT-2采用的BPE算法存在数字编码不一致性问题。Llama系列对此进行了改进,如Llama和Llama 2将所有数字拆分为单个数字,而Llama 3则采用三位数tokenization。一种新的从右到左(R2L)的tokenization方法被提出,能有效防止算术运算中的操作数错位。研究对比了多种tokenizer在算术问题上的表现,结果显示单位数tokenization性能最优。此外,对于最多3位数的tokenizer,使用R2L方向的数据token化可提升数学性能。tokenization策略的选择对语言模型在数学任务上的表现有显著影响,合理优化可提高其性能。
来源:https://mp.weixin.qq.com/s/zmeFYfxWD1nZq_MocgGeeQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 04:17 , Processed in 0.310939 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表