强化学习框架RL4VLM:赋能多模态模型,决策能力超越GPT-4v

[复制链接]
周大 发表于 2024-6-4 16:13:11 | 显示全部楼层 |阅读模式
UC伯克利等高校的研究人员开发了一种名为RL4VLM的新强化学习框架,可以直接微调多模态大模型,使其在无需人类反馈的情况下执行决策任务。这种方法使模型能够出色地完成扑克游戏、数字推理等挑战,甚至超越了GPT-4v。研究团队包括图灵奖得主Yann LeCun等,他们的工作为提升多模态模型的性能提供了新途径。
来源:https://mp.weixin.qq.com/s/bAf-5NzOD3fdTwYzdKsELw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-17 13:04 , Processed in 0.298706 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表