全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

周大发表于 2025-9-15 14:51:40

字节与香港大学团队联合开发了开源视觉语言模型Mini-o3，突破了传统模型仅支持1-2轮交互的限制，在训练仅设6轮上限的情况下，测试阶段可扩展至数十轮。Mini-o3通过VisualProbe数据集、迭代式数据收集流程及超轮次掩码策略，实现深度多轮推理，在VisualProbe等基准测试中达到当前最佳水平。该模型在冷启动SFT和强化学习阶段优化了多轮推理能力，且代码已开源，为多模态模型开发提供了新方向。
来源：https://mp.weixin.qq.com/s/nLPCpkuB1VLQXjnZlzP0KA

页: [1]

靠浦ai课堂's Archiver

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考