伊利诺伊大学团队推Time-R1，3B小模型借三阶段强化学习实现全面时间推理碾压671B大模型

周大发表于 2025-6-9 13:34:03

伊利诺伊大学香槟分校的研究人员开发了 Time-R1，一个仅 3B 参数的小型语言模型，通过三阶段强化学习和动态奖励机制，解决了大语言模型在时间推理上的技术短板。该模型通过构建时间认知基础、预测未来事件和生成创造性场景，展现了卓越的时间推理能力，并在实验中超越了参数量 200 多倍的大模型。动态奖励机制根据任务难度和训练进程调整奖励，有效提升了模型性能。此外，研究团队开源了 Time-Bench 数据集及完整训练代码，促进相关领域的发展。这一成果为实现真正具备时间意识的人工智能提供了实用路径。
来源：https://mp.weixin.qq.com/s/HOG8Es3sefi91f7XoMDhNQ

页: [1]

靠浦ai课堂's Archiver

伊利诺伊大学团队推Time-R1，3B小模型借三阶段强化学习实现全面时间推理碾压671B大模型