下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务

[复制链接]
周大 发表于 2025-11-13 17:30:55 | 显示全部楼层 |阅读模式
IDEA研究院推出3B参数多模态模型Rex-Omni,通过“下一个点预测”框架与4-Token坐标编码,结合SFT+GRPO两阶段训练,在COCO、LVIS等零样本检测中超越Grounding DINO,并在10余项视觉任务上达到SOTA。其在2200万图像上训练,仅用66K数据进行强化学习后训练即显著提升定位精度与输出质量,首次证明MLLM可在精确感知与语言理解间实现有效融合。
来源:https://mp.weixin.qq.com/s/1z4Qn_qM25NldIr-XWoctg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 03:05 , Processed in 0.251727 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表