这些大神在Meta的论文看一篇少一篇了

[复制链接]
周大 发表于 2025-11-17 14:11:25 | 显示全部楼层 |阅读模式
田渊栋团队研究发现,尽管强化学习(RLVR)训练仅修改少数参数(稀疏度达36%-92%),却能大幅提升模型能力,其背后并非随机更新,而是受“KL锚定”“模型几何”和“精度过滤”三重机制约束的系统性偏好。实验表明,RLVR倾向于在低曲率、非主成分参数区域进行优化,与监督微调(SFT)路径截然不同。该研究挑战了参数高效微调方法在RL中的适用性,为未来算法设计提供理论依据。
来源:https://tech.ifeng.com/c/8oLwiGo0HGv

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 00:49 , Processed in 0.260888 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表