周大 发表于 2024-9-5 16:01:30

谷歌揭秘大模型不会数r原因:嵌入维度是关键,不止分词器问题

谷歌最新研究表明,大模型数数困难并非单纯由tokenizer引起,而是由于嵌入维度不足,无法存储计数向量。研究通过实验发现,当词汇量超过嵌入维度时,Transformer的计数准确率显著下降。该研究为理解大模型计数能力提供了新视角。
来源:https://mp.weixin.qq.com/s/QhsPJch1CmYhoAbRYxKkuA
页: [1]
查看完整版本: 谷歌揭秘大模型不会数r原因:嵌入维度是关键,不止分词器问题