NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

[复制链接]
周大 发表于 2025-11-12 18:47:23 | 显示全部楼层 |阅读模式
华中科技大学团队发布首个支持八项水下场景理解任务的多模态大模型NAUTILUS,并开源含145万图文对的NautData数据集。该模型通过创新的视觉特征增强(VFE)模块,在特征层面修复水下图像的模糊与色偏问题,显著提升在低光、浑浊等恶劣条件下的性能。实验显示,其在分类、检测、计数、视觉问答等多项任务中均优于LLaVA-1.5等主流模型,MAE和RMSE分别降低8.0与15.9,PR@0.5最高提升8.3,展现出卓越的综合理解能力与鲁棒性。
来源:https://mp.weixin.qq.com/s/junciLcPqLnhFDUVsvMhuw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 03:01 , Processed in 0.261437 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表