全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

[复制链接]
周大 发表于 昨天 14:51 | 显示全部楼层 |阅读模式
字节与香港大学团队联合开发了开源视觉语言模型Mini-o3,突破了传统模型仅支持1-2轮交互的限制,在训练仅设6轮上限的情况下,测试阶段可扩展至数十轮。Mini-o3通过VisualProbe数据集、迭代式数据收集流程及超轮次掩码策略,实现深度多轮推理,在VisualProbe等基准测试中达到当前最佳水平。该模型在冷启动SFT和强化学习阶段优化了多轮推理能力,且代码已开源,为多模态模型开发提供了新方向。
来源:https://mp.weixin.qq.com/s/nLPCpkuB1VLQXjnZlzP0KA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-16 06:29 , Processed in 0.295523 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表