MIT 揭示 LoRA 与完全微调差异：侵入维度影响泛化能力

周大发表于 2024-11-11 14:07:22

MIT 研究团队对比了完全微调和低秩自适应(LoRA)两种微调大型语言模型的方法。尽管两者在性能上相似，但 LoRA 使用的参数数量远少于完全微调。研究发现，LoRA 微调会产生“侵入维度”，导致模型在泛化能力和持续学习方面表现较差。然而，高秩 LoRA 可以在一定程度上缓解这些问题，但仍不及完全微调的效果。研究结果表明，尽管 LoRA 在特定任务上表现良好，但完全微调在泛化能力上更具优势。
来源：https://mp.weixin.qq.com/s/Xxh-MrSfkRlRz7reE-fkzA

		自动登录	找回密码
密码			立即注册

课程导航

MIT 揭示 LoRA 与完全微调差异：侵入维度影响泛化能力