TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨

[复制链接]
周大 发表于 2025-4-24 13:38:25 | 显示全部楼层 |阅读模式
清华大学与上海人工智能实验室提出一种新方法——测试时强化学习(TTRL),该方法利用预训练模型的先验知识,在无标注数据上实现大语言模型(LLM)的自我演化。实验表明,TTRL 显著提升了 Qwen-2.5-Math-7B 在 AIME 2024 任务中的性能(约 159%),且能超越初始模型性能上限,接近有标注数据监督训练的表现。相比传统测试时缩放(TTS)和测试时训练(TTT),TTRL 具备更高的计算效率和更强的泛化能力,同时在多种任务和模型上展现出良好扩展性和通用性。
来源:https://mp.weixin.qq.com/s/yUfpJj6O2cddwnC3yENQ9w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-29 04:52 , Processed in 0.286046 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表