UIUC与阿里通义联合推出PAPO算法,多模态推理感知错误率降低30.5%
伊利诺伊大学香槟分校与阿里巴巴通义实验室联合提出了一种新的多模态强化学习算法PAPO,旨在解决现有方法在视觉感知方面的瓶颈问题。研究发现,传统算法如GRPO在多模态任务中67%的错误源于视觉感知错误。PAPO通过引入隐式感知损失,在不增加额外资源的情况下提升了模型对视觉内容的理解能力。实验结果显示,PAPO在多个基准任务中平均提升4.4%,在高视觉依赖任务中提升高达8%,并减少了30.5%的感知错误。该算法还具备更快的收敛速度和更强的稳定性,并可通过双重熵损失防止模型崩溃。相关模型和数据已开源。来源:https://mp.weixin.qq.com/s/EYPDyWbiBuPB6PwaHxWjHA
页:
[1]