周大 发表于 2025-4-24 13:38:25

TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨

清华大学与上海人工智能实验室提出一种新方法——测试时强化学习(TTRL),该方法利用预训练模型的先验知识,在无标注数据上实现大语言模型(LLM)的自我演化。实验表明,TTRL 显著提升了 Qwen-2.5-Math-7B 在 AIME 2024 任务中的性能(约 159%),且能超越初始模型性能上限,接近有标注数据监督训练的表现。相比传统测试时缩放(TTS)和测试时训练(TTT),TTRL 具备更高的计算效率和更强的泛化能力,同时在多种任务和模型上展现出良好扩展性和通用性。
来源:https://mp.weixin.qq.com/s/yUfpJj6O2cddwnC3yENQ9w
页: [1]
查看完整版本: TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨