下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

周大发表于 2025-11-13 17:30:55

IDEA研究院推出3B参数多模态模型Rex-Omni，通过“下一个点预测”框架与4-Token坐标编码，结合SFT+GRPO两阶段训练，在COCO、LVIS等零样本检测中超越Grounding DINO，并在10余项视觉任务上达到SOTA。其在2200万图像上训练，仅用66K数据进行强化学习后训练即显著提升定位精度与输出质量，首次证明MLLM可在精确感知与语言理解间实现有效融合。
来源：https://mp.weixin.qq.com/s/1z4Qn_qM25NldIr-XWoctg

		自动登录	找回密码
密码			立即注册

课程导航

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务