OThink-MR1:动态强化学习助力多模态模型突破
OPPO研究院与港科广联合推出OThink-MR1技术,通过动态强化学习提升多模态模型的泛化推理能力。其核心包括动态KL散度策略(GRPO-D)和奖励模型,前者优化探索与利用的平衡,后者结合验证准确性和格式奖励以增强学习效果。实验表明,OThink-MR1在跨任务及同任务评估中均大幅超越传统监督微调方法,为多模态模型的发展开辟了新路径。来源:https://mp.weixin.qq.com/s/gWGn02IQpO-K75sshqeUfg
页:
[1]