北大清华等联合发布LLaVA-o1：首个自发性视觉AI模型，推理计算Scaling新思路

周大发表于 2024-11-19 14:07:47

由北京大学、清华大学等组成的团队推出了 LLaVA-o1，首个具备自发性的系统性推理视觉语言模型。该模型拥有 110 亿个参数，设计了四个推理阶段，使用 LLaVA-o1-100k 数据集微调。采用阶段级束搜索技术，LLaVA-o1 在多模态推理基准测试中比基础模型提高了 8.9% 的性能，特别在数学和科学视觉问题上表现出色。
来源：https://tech.ifeng.com/c/8edOoU0XT26

页: [1]

靠浦ai课堂's Archiver

北大清华等联合发布LLaVA-o1：首个自发性视觉AI模型，推理计算Scaling新思路