MIT 揭示 LoRA 与完全微调差异:侵入维度影响泛化能力

[复制链接]
周大 发表于 2024-11-11 14:07:22 | 显示全部楼层 |阅读模式
MIT 研究团队对比了完全微调和低秩自适应(LoRA)两种微调大型语言模型的方法。尽管两者在性能上相似,但 LoRA 使用的参数数量远少于完全微调。研究发现,LoRA 微调会产生“侵入维度”,导致模型在泛化能力和持续学习方面表现较差。然而,高秩 LoRA 可以在一定程度上缓解这些问题,但仍不及完全微调的效果。研究结果表明,尽管 LoRA 在特定任务上表现良好,但完全微调在泛化能力上更具优势。
来源:https://mp.weixin.qq.com/s/Xxh-MrSfkRlRz7reE-fkzA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-27 18:49 , Processed in 0.293744 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表