豆包团队视频生成新突破:无需语言模型,仅凭“视觉”就能学习复杂任务
豆包大模型团队联合高校开发出VideoWorld,一种无需依赖语言模型的通用视频生成模型。通过引入潜在动态模型(LDM),VideoWorld高效压缩视频帧间视觉变化信息,在仅300M参数量下达到专业5段9x9围棋水平,并展现出多环境泛化能力。LDM通过注意力机制捕捉动态变化,实现紧凑视觉表示。尽管目前在模拟环境中表现出色,团队认为其在真实世界的应用仍需克服高质量视频生成等挑战。来源:https://mp.weixin.qq.com/s/C1NTUQeofJgJNwnY8hX0Xw
页:
[1]