Cautious Optimizers:一行代码提升大模型训练效率47%
四名华人学者开发的大模型训练优化器Cautious Optimizers,通过修改一行代码,将大模型训练效率提升至1.47倍。该优化器基于哈密顿量和下降动力学理论,确保训练效果无损失。在600M到1B参数规模的Llama模型上测试,最高加速47%,并在视觉模型MAE上也表现出色。相关代码已开源。来源:https://mp.weixin.qq.com/s/J5pjZbPL9ij8Z5epEEUNDg
页:
[1]