这些大神在Meta的论文看一篇少一篇了

周大发表于 2025-11-17 14:11:25

田渊栋团队研究发现，尽管强化学习（RLVR）训练仅修改少数参数（稀疏度达36%-92%），却能大幅提升模型能力，其背后并非随机更新，而是受“KL锚定”“模型几何”和“精度过滤”三重机制约束的系统性偏好。实验表明，RLVR倾向于在低曲率、非主成分参数区域进行优化，与监督微调（SFT）路径截然不同。该研究挑战了参数高效微调方法在RL中的适用性，为未来算法设计提供理论依据。
来源：https://tech.ifeng.com/c/8oLwiGo0HGv

		自动登录	找回密码
密码			立即注册

课程导航

这些大神在Meta的论文看一篇少一篇了