UIUC与阿里通义联合推出PAPO算法,多模态推理感知错误率降低30.5%

[复制链接]
周大 发表于 2025-7-11 15:03:50 | 显示全部楼层 |阅读模式
伊利诺伊大学香槟分校与阿里巴巴通义实验室联合提出了一种新的多模态强化学习算法PAPO,旨在解决现有方法在视觉感知方面的瓶颈问题。研究发现,传统算法如GRPO在多模态任务中67%的错误源于视觉感知错误。PAPO通过引入隐式感知损失,在不增加额外资源的情况下提升了模型对视觉内容的理解能力。实验结果显示,PAPO在多个基准任务中平均提升4.4%,在高视觉依赖任务中提升高达8%,并减少了30.5%的感知错误。该算法还具备更快的收敛速度和更强的稳定性,并可通过双重熵损失防止模型崩溃。相关模型和数据已开源。
来源:https://mp.weixin.qq.com/s/EYPDyWbiBuPB6PwaHxWjHA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 23:20 , Processed in 0.296436 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表