周大 发表于 2024-6-4 16:13:11

强化学习框架RL4VLM:赋能多模态模型,决策能力超越GPT-4v

UC伯克利等高校的研究人员开发了一种名为RL4VLM的新强化学习框架,可以直接微调多模态大模型,使其在无需人类反馈的情况下执行决策任务。这种方法使模型能够出色地完成扑克游戏、数字推理等挑战,甚至超越了GPT-4v。研究团队包括图灵奖得主Yann LeCun等,他们的工作为提升多模态模型的性能提供了新途径。
来源:https://mp.weixin.qq.com/s/bAf-5NzOD3fdTwYzdKsELw
页: [1]
查看完整版本: 强化学习框架RL4VLM:赋能多模态模型,决策能力超越GPT-4v