TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨

周大发表于 2025-4-24 13:38:25

清华大学与上海人工智能实验室提出一种新方法——测试时强化学习（TTRL），该方法利用预训练模型的先验知识，在无标注数据上实现大语言模型（LLM）的自我演化。实验表明，TTRL 显著提升了 Qwen-2.5-Math-7B 在 AIME 2024 任务中的性能（约 159%），且能超越初始模型性能上限，接近有标注数据监督训练的表现。相比传统测试时缩放（TTS）和测试时训练（TTT），TTRL 具备更高的计算效率和更强的泛化能力，同时在多种任务和模型上展现出良好扩展性和通用性。
来源：https://mp.weixin.qq.com/s/yUfpJj6O2cddwnC3yENQ9w

页: [1]

靠浦ai课堂's Archiver

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨