周大 发表于 2024-11-14 14:22:54

研究揭示低精度量化在大规模训练中的局限性

哈佛、斯坦福、MIT等团队的研究表明,随着训练数据量的增加,模型所需的精度也随之提高。低精度量化在大规模训练任务中可能不再有效,且在后训练阶段进行量化可能有害。研究提出了“精度感知”的Scaling Laws,预测不同精度下的模型性能。实验显示,低精度训练和推理会导致性能下降,后训练量化引起的性能退化随训练数据量增加而增加。研究建议在资源有限时使用较低精度训练更大模型,增加模型规模,优化数据使用。
来源:https://mp.weixin.qq.com/s/Ifedw4JsOEHEoHc0UGyw4w
页: [1]
查看完整版本: 研究揭示低精度量化在大规模训练中的局限性