Cautious Optimizers:一行代码提升大模型训练效率47%

[复制链接]
周大 发表于 2024-11-27 14:46:57 | 显示全部楼层 |阅读模式
四名华人学者开发的大模型训练优化器Cautious Optimizers,通过修改一行代码,将大模型训练效率提升至1.47倍。该优化器基于哈密顿量和下降动力学理论,确保训练效果无损失。在600M到1B参数规模的Llama模型上测试,最高加速47%,并在视觉模型MAE上也表现出色。相关代码已开源。
来源:https://mp.weixin.qq.com/s/J5pjZbPL9ij8Z5epEEUNDg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-25 09:49 , Processed in 0.290419 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表