OThink-MR1:动态强化学习助力多模态模型突破

[复制链接]
周大 发表于 6 天前 | 显示全部楼层 |阅读模式
OPPO研究院与港科广联合推出OThink-MR1技术,通过动态强化学习提升多模态模型的泛化推理能力。其核心包括动态KL散度策略(GRPO-D)和奖励模型,前者优化探索与利用的平衡,后者结合验证准确性和格式奖励以增强学习效果。实验表明,OThink-MR1在跨任务及同任务评估中均大幅超越传统监督微调方法,为多模态模型的发展开辟了新路径。
来源:https://mp.weixin.qq.com/s/gWGn02IQpO-K75sshqeUfg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 04:52 , Processed in 0.281948 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表