收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架

周大发表于 2024-11-21 14:31:52

华中科技大学研究人员提出MoE Jetpack框架，通过Checkpoint Recycling和SpheroMoE结构，将密集模型的预训练权重微调为混合专家（MoE）模型，免去了MoE模型的预训练过程。实验结果表明，该框架在多个数据集上显著提升了模型的精度和收敛速度，特别是在ImageNet-1K上，模型收敛速度提升2倍，准确率提高2.8%。论文已被NeurIPS 2024接收。
来源：https://mp.weixin.qq.com/s/VcunuhQEah1a0JRXSd-10A

页: [1]

靠浦ai课堂's Archiver

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架