华为最新研究:大模型性能关键在“记忆”

[复制链接]
周大 发表于 2024-5-18 15:16:37 | 显示全部楼层 |阅读模式
华为团队近期的研究挑战了现有的Scaling Law,指出Transformer模型的性能并非单纯由Scaling Law决定,而是与模型的记忆能力密切相关,且并非仅依赖模型规模。且过度训练可能导致性能下降。通过引入Hopfield联想记忆模型,团队构建了新的能量函数,实验结果显示模型的记忆容量对性能至关重要。
原文:https://mp.weixin.qq.com/s/8tm8APhLd3NGhG5ZDELPGQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-9 02:29 , Processed in 0.299548 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表