周大 发表于 2025-9-15 14:51:40

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

字节与香港大学团队联合开发了开源视觉语言模型Mini-o3,突破了传统模型仅支持1-2轮交互的限制,在训练仅设6轮上限的情况下,测试阶段可扩展至数十轮。Mini-o3通过VisualProbe数据集、迭代式数据收集流程及超轮次掩码策略,实现深度多轮推理,在VisualProbe等基准测试中达到当前最佳水平。该模型在冷启动SFT和强化学习阶段优化了多轮推理能力,且代码已开源,为多模态模型开发提供了新方向。
来源:https://mp.weixin.qq.com/s/nLPCpkuB1VLQXjnZlzP0KA
页: [1]
查看完整版本: 全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考