Cautious Optimizers：一行代码提升大模型训练效率47%

周大发表于 2024-11-27 14:46:57

四名华人学者开发的大模型训练优化器Cautious Optimizers，通过修改一行代码，将大模型训练效率提升至1.47倍。该优化器基于哈密顿量和下降动力学理论，确保训练效果无损失。在600M到1B参数规模的Llama模型上测试，最高加速47%，并在视觉模型MAE上也表现出色。相关代码已开源。
来源：https://mp.weixin.qq.com/s/J5pjZbPL9ij8Z5epEEUNDg

页: [1]

靠浦ai课堂's Archiver

Cautious Optimizers：一行代码提升大模型训练效率47%