OThink-MR1：动态强化学习助力多模态模型突破

周大发表于 2025-3-30 15:02:59

OPPO研究院与港科广联合推出OThink-MR1技术，通过动态强化学习提升多模态模型的泛化推理能力。其核心包括动态KL散度策略（GRPO-D）和奖励模型，前者优化探索与利用的平衡，后者结合验证准确性和格式奖励以增强学习效果。实验表明，OThink-MR1在跨任务及同任务评估中均大幅超越传统监督微调方法，为多模态模型的发展开辟了新路径。
来源：https://mp.weixin.qq.com/s/gWGn02IQpO-K75sshqeUfg

页: [1]

靠浦ai课堂's Archiver

OThink-MR1：动态强化学习助力多模态模型突破