谷歌揭秘大模型不会数r原因：嵌入维度是关键，不止分词器问题

周大发表于 2024-9-5 16:01:30

谷歌最新研究表明，大模型数数困难并非单纯由tokenizer引起，而是由于嵌入维度不足，无法存储计数向量。研究通过实验发现，当词汇量超过嵌入维度时，Transformer的计数准确率显著下降。该研究为理解大模型计数能力提供了新视角。
来源：https://mp.weixin.qq.com/s/QhsPJch1CmYhoAbRYxKkuA

页: [1]

靠浦ai课堂's Archiver

谷歌揭秘大模型不会数r原因：嵌入维度是关键，不止分词器问题