北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

[复制链接]
周大 发表于 2024-11-19 14:18:59 | 显示全部楼层 |阅读模式
北大等团队推出多模态版o1开源模型LLaVA-o1,基于Llama-3.2-Vision模型,采用结构化、多步骤推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并超过其他开闭源模型。新模型通过四个阶段进行推理:总结、视觉解释、逻辑推理和结论生成,团队使用阶段级光束搜索方法提升推理质量和可扩展性。LLaVA-o1的代码、预训练权重、数据集等即将全部开源。
来源:https://mp.weixin.qq.com/s/GicLwdIgkFUpm7tCFkDbyg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-29 15:41 , Processed in 0.295400 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表