周大 发表于 2024-10-20 14:52:30

视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化

研究团队提出 VideoAgent,通过整合视觉-语言模型(VLM)反馈和真实世界执行反馈,优化文本生视频模型。VideoAgent 使用自我调节一致性和在线微调技术,显著提高了视频生成质量和任务成功率。实验结果表明,VideoAgent 在多个数据集上表现出色,特别是在机器人操作任务中,任务成功率从基线的 19.6% 提升至 50%。
来源:https://mp.weixin.qq.com/s/dbvKbqAvvB9k4HdEvVLbzg
页: [1]
查看完整版本: 视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化