周大 发表于 2024-11-27 14:46:57

Cautious Optimizers:一行代码提升大模型训练效率47%

四名华人学者开发的大模型训练优化器Cautious Optimizers,通过修改一行代码,将大模型训练效率提升至1.47倍。该优化器基于哈密顿量和下降动力学理论,确保训练效果无损失。在600M到1B参数规模的Llama模型上测试,最高加速47%,并在视觉模型MAE上也表现出色。相关代码已开源。
来源:https://mp.weixin.qq.com/s/J5pjZbPL9ij8Z5epEEUNDg
页: [1]
查看完整版本: Cautious Optimizers:一行代码提升大模型训练效率47%