UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链

[复制链接]
周大 发表于 2025-7-28 14:50:52 | 显示全部楼层 |阅读模式
南洋理工大学赵克森等人提出了一种无监督视觉思维链推理框架 UV-CoT,并被 ICCV 2025 录用。该方法通过自动化偏好数据生成与改进的 sDPO 算法,摆脱了传统模型对人工标注的依赖,实现了图像关键区域的动态识别与细粒度推理。实验表明,UV-CoT 在六大基准上优于有监督模型 Visual-CoT-7B 和 LLaVA-1.5-7B,在零样本设置下平均提升 2.5%,加入无标注数据后提升至 5.1%。在高分辨率场景 V* Bench 上,其平均得分达 0.402,OCR 任务提升达 8.4%。此外,UV-CoT 生成的边界框可显著提升其他模型的推理性能,展现出良好的泛化与扩展能力。
来源:https://mp.weixin.qq.com/s/MrGezsFbA-ydGNe8Vch4Mw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-25 05:42 , Processed in 0.318026 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表