MIT 揭示 LoRA 与完全微调差异:侵入维度影响泛化能力
MIT 研究团队对比了完全微调和低秩自适应(LoRA)两种微调大型语言模型的方法。尽管两者在性能上相似,但 LoRA 使用的参数数量远少于完全微调。研究发现,LoRA 微调会产生“侵入维度”,导致模型在泛化能力和持续学习方面表现较差。然而,高秩 LoRA 可以在一定程度上缓解这些问题,但仍不及完全微调的效果。研究结果表明,尽管 LoRA 在特定任务上表现良好,但完全微调在泛化能力上更具优势。来源:https://mp.weixin.qq.com/s/Xxh-MrSfkRlRz7reE-fkzA
页:
[1]