用多模态LLM超越YOLOv3!强化学习突破多模态感知极限
华中科技大学等高校联合开发的Perception-R1(PR1),是首个在COCO2017 val set上突破30AP的纯多模态开源LLM。该框架通过基于规则的强化学习优化MLLM的视觉感知策略,在物体检测、计数和OCR等任务上表现卓越。PR1采用Group Relative Policy Optimization(GRPO)技术,结合奖励建模与二分图匹配解决多实例任务中的奖励匹配问题。实验结果显示,PR1在多个视觉基准任务上超越现有模型,同时具备良好可扩展性。论文与代码已开源,为未来研究提供了坚实基础。来源:https://mp.weixin.qq.com/s/IA2cnGfoC-hv8n_g4yCcDg
页:
[1]