周大 发表于 2025-6-1 14:25:29

挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化

Ubiquant研究团队提出一种名为熵最小化(EM)的无监督方法,用于大语言模型微调,仅需一条无标签数据和10步训练即可显著提升性能。相比强化学习(RL),EM无需高昂的数据标注成本和复杂奖励设计,在数学推理任务中实现25%-30%的准确率提升。然而,持续EM训练可能引发“过度自信”问题,损害长期性能。该方法特别适合基础模型快速增强及资源受限场景,为LLM后训练提供了高效低成本的替代方案。
来源:https://mp.weixin.qq.com/s/3TE_mFq-pjj2Ebv3W1XNKw
页: [1]
查看完整版本: 挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化