豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

周大发表于 2025-1-27 16:02:22

豆包大模型团队联合高校开发出VideoWorld，一种无需依赖语言模型的通用视频生成模型。通过引入潜在动态模型（LDM），VideoWorld高效压缩视频帧间视觉变化信息，在仅300M参数量下达到专业5段9x9围棋水平，并展现出多环境泛化能力。LDM通过注意力机制捕捉动态变化，实现紧凑视觉表示。尽管目前在模拟环境中表现出色，团队认为其在真实世界的应用仍需克服高质量视频生成等挑战。
来源：https://mp.weixin.qq.com/s/C1NTUQeofJgJNwnY8hX0Xw

页: [1]

靠浦ai课堂's Archiver

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务