华为最新研究：大模型性能关键在“记忆”

周大发表于 2024-5-18 15:16:37

华为团队近期的研究挑战了现有的Scaling Law，指出Transformer模型的性能并非单纯由Scaling Law决定，而是与模型的记忆能力密切相关，且并非仅依赖模型规模。且过度训练可能导致性能下降。通过引入Hopfield联想记忆模型，团队构建了新的能量函数，实验结果显示模型的记忆容量对性能至关重要。
原文：https://mp.weixin.qq.com/s/8tm8APhLd3NGhG5ZDELPGQ

页: [1]

靠浦ai课堂's Archiver

华为最新研究：大模型性能关键在“记忆”