周大 发表于 2025-5-28 15:13:14

阿里通义发布PARSCALE并行计算新策略,1.6B模型性能媲美4.4B,内存消耗骤降95%

阿里通义团队提出了一种名为PARSCALE的新优化方法,作为LLM的第三种Scaling Law。该方法通过多路径并行计算提升模型性能,同时显著降低内存和时间成本。实验表明,对于1.6B参数模型,PARSCALE能达到接近4.4B参数模型的性能,内存占用仅为后者的1/22,延迟增加量为1/6。此外,PARSCALE可直接应用于现有模型(如Qwen-2.5),无需从头训练。在GSM8K数学推理任务中,PARSCALE使1.8B模型性能提升34%,效果显著优于传统参数扩展方法。两阶段训练策略进一步降低了训练成本,同时在代码生成任务中结合PEFT方法使Pass@1提升15%。这一新范式为大模型优化提供了全新思路。
来源:https://mp.weixin.qq.com/s/tukh12k0iG-b3WbysI_15w
页: [1]
查看完整版本: 阿里通义发布PARSCALE并行计算新策略,1.6B模型性能媲美4.4B,内存消耗骤降95%