深度学习新发现:模型架构并非决定性能关键,权重影响表征结构

[复制链接]
周大 发表于 2024-7-16 15:37:45 | 显示全部楼层 |阅读模式
UCL的研究人员在ICML 2024会议上发表的论文表明,深度神经网络的训练行为并不强烈依赖于其特定架构,而是遵循一种通用的Scaling Law,模型性能与参数量、数据规模和计算力成幂律关系,而非具体架构。此外,研究发现,初始权重的大小会决定网络形成结构化表征的方式,权重小更易产生结构化特征。
来源:https://mp.weixin.qq.com/s/XIkKLq1MHFBXjzwbkkF6RA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 10:25 , Processed in 0.288744 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表