周大 发表于 2025-1-4 15:35:54

不同Tokenization方法影响LLM算术能力

近年来,语言模型的tokenization方法不断演进。早期GPT-2采用的BPE算法存在数字编码不一致性问题。Llama系列对此进行了改进,如Llama和Llama 2将所有数字拆分为单个数字,而Llama 3则采用三位数tokenization。一种新的从右到左(R2L)的tokenization方法被提出,能有效防止算术运算中的操作数错位。研究对比了多种tokenizer在算术问题上的表现,结果显示单位数tokenization性能最优。此外,对于最多3位数的tokenizer,使用R2L方向的数据token化可提升数学性能。tokenization策略的选择对语言模型在数学任务上的表现有显著影响,合理优化可提高其性能。
来源:https://mp.weixin.qq.com/s/zmeFYfxWD1nZq_MocgGeeQ
页: [1]
查看完整版本: 不同Tokenization方法影响LLM算术能力