北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

周大发表于 2024-11-19 14:18:59

北大等团队推出多模态版o1开源模型LLaVA-o1，基于Llama-3.2-Vision模型，采用结构化、多步骤推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并超过其他开闭源模型。新模型通过四个阶段进行推理：总结、视觉解释、逻辑推理和结论生成，团队使用阶段级光束搜索方法提升推理质量和可扩展性。LLaVA-o1的代码、预训练权重、数据集等即将全部开源。
来源：https://mp.weixin.qq.com/s/GicLwdIgkFUpm7tCFkDbyg

页: [1]

靠浦ai课堂's Archiver

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型