周大 发表于 2025-6-4 13:48:00

Meta等研究称GPT系列模型每个参数约能记忆3.6比特,饱和后转向泛化

一项由 Meta、DeepMind、康奈尔大学和英伟达合作的研究显示,GPT 系列模型的记忆容量约为每个参数 3.6 比特。研究通过区分“非预期记忆”与“泛化”能力,揭示了模型在达到容量上限后会停止记忆并开始泛化。团队训练了数百个 Transformer 模型,提出了关于模型容量与数据规模的 scaling law,并借助 Kolmogorov 复杂度量化记忆量。实验结果表明,模型容量与参数数量大致成正比,且精度提升对容量影响有限。
来源:https://mp.weixin.qq.com/s/DAoNui-_u0IlBjHl16wn-g
页: [1]
查看完整版本: Meta等研究称GPT系列模型每个参数约能记忆3.6比特,饱和后转向泛化