豆包团队视频生成新突破:无需语言模型,仅凭“视觉”就能学习复杂任务

[复制链接]
周大 发表于 2025-1-27 16:02:22 | 显示全部楼层 |阅读模式
豆包大模型团队联合高校开发出VideoWorld,一种无需依赖语言模型的通用视频生成模型。通过引入潜在动态模型(LDM),VideoWorld高效压缩视频帧间视觉变化信息,在仅300M参数量下达到专业5段9x9围棋水平,并展现出多环境泛化能力。LDM通过注意力机制捕捉动态变化,实现紧凑视觉表示。尽管目前在模拟环境中表现出色,团队认为其在真实世界的应用仍需克服高质量视频生成等挑战。
来源:https://mp.weixin.qq.com/s/C1NTUQeofJgJNwnY8hX0Xw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 11:38 , Processed in 0.281562 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表