北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型
北大等团队推出多模态版o1开源模型LLaVA-o1,基于Llama-3.2-Vision模型,采用结构化、多步骤推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并超过其他开闭源模型。新模型通过四个阶段进行推理:总结、视觉解释、逻辑推理和结论生成,团队使用阶段级光束搜索方法提升推理质量和可扩展性。LLaVA-o1的代码、预训练权重、数据集等即将全部开源。来源:https://mp.weixin.qq.com/s/GicLwdIgkFUpm7tCFkDbyg
页:
[1]