周大 发表于 2025-6-9 13:34:03

伊利诺伊大学团队推Time-R1,3B小模型借三阶段强化学习实现全面时间推理碾压671B大模型

伊利诺伊大学香槟分校的研究人员开发了 Time-R1,一个仅 3B 参数的小型语言模型,通过三阶段强化学习和动态奖励机制,解决了大语言模型在时间推理上的技术短板。该模型通过构建时间认知基础、预测未来事件和生成创造性场景,展现了卓越的时间推理能力,并在实验中超越了参数量 200 多倍的大模型。动态奖励机制根据任务难度和训练进程调整奖励,有效提升了模型性能。此外,研究团队开源了 Time-Bench 数据集及完整训练代码,促进相关领域的发展。这一成果为实现真正具备时间意识的人工智能提供了实用路径。
来源:https://mp.weixin.qq.com/s/HOG8Es3sefi91f7XoMDhNQ
页: [1]
查看完整版本: 伊利诺伊大学团队推Time-R1,3B小模型借三阶段强化学习实现全面时间推理碾压671B大模型