收敛速度最高8倍,准确率提升超30%!华科发布MoE Jetpack框架
华中科技大学研究人员提出MoE Jetpack框架,通过Checkpoint Recycling和SpheroMoE结构,将密集模型的预训练权重微调为混合专家(MoE)模型,免去了MoE模型的预训练过程。实验结果表明,该框架在多个数据集上显著提升了模型的精度和收敛速度,特别是在ImageNet-1K上,模型收敛速度提升2倍,准确率提高2.8%。论文已被NeurIPS 2024接收。来源:https://mp.weixin.qq.com/s/VcunuhQEah1a0JRXSd-10A
页:
[1]