用多模态LLM超越YOLOv3！强化学习突破多模态感知极限

周大发表于 2025-5-3 15:56:39

华中科技大学等高校联合开发的Perception-R1（PR1），是首个在COCO2017 val set上突破30AP的纯多模态开源LLM。该框架通过基于规则的强化学习优化MLLM的视觉感知策略，在物体检测、计数和OCR等任务上表现卓越。PR1采用Group Relative Policy Optimization（GRPO）技术，结合奖励建模与二分图匹配解决多实例任务中的奖励匹配问题。实验结果显示，PR1在多个视觉基准任务上超越现有模型，同时具备良好可扩展性。论文与代码已开源，为未来研究提供了坚实基础。
来源：https://mp.weixin.qq.com/s/IA2cnGfoC-hv8n_g4yCcDg

页: [1]

靠浦ai课堂's Archiver

用多模态LLM超越YOLOv3！强化学习突破多模态感知极限