深度学习新发现：模型架构并非决定性能关键，权重影响表征结构

周大发表于 2024-7-16 15:37:45

UCL的研究人员在ICML 2024会议上发表的论文表明，深度神经网络的训练行为并不强烈依赖于其特定架构，而是遵循一种通用的Scaling Law，模型性能与参数量、数据规模和计算力成幂律关系，而非具体架构。此外，研究发现，初始权重的大小会决定网络形成结构化表征的方式，权重小更易产生结构化特征。
来源：https://mp.weixin.qq.com/s/XIkKLq1MHFBXjzwbkkF6RA

页: [1]

靠浦ai课堂's Archiver

深度学习新发现：模型架构并非决定性能关键，权重影响表征结构