视频生成模型变身智能体：斯坦福Percy Liang等提出VideoAgent，竟能自我优化

周大发表于 2024-10-20 14:52:30

研究团队提出 VideoAgent，通过整合视觉-语言模型（VLM）反馈和真实世界执行反馈，优化文本生视频模型。VideoAgent 使用自我调节一致性和在线微调技术，显著提高了视频生成质量和任务成功率。实验结果表明，VideoAgent 在多个数据集上表现出色，特别是在机器人操作任务中，任务成功率从基线的 19.6% 提升至 50%。
来源：https://mp.weixin.qq.com/s/dbvKbqAvvB9k4HdEvVLbzg

页: [1]

靠浦ai课堂's Archiver

视频生成模型变身智能体：斯坦福Percy Liang等提出VideoAgent，竟能自我优化