DeepMind率先提出CoF:视频模型有自己的思维链

[复制链接]
周大 发表于 2025-9-28 15:15:56 | 显示全部楼层 |阅读模式
DeepMind提出“帧链”(CoF)概念,类比语言模型的思维链,推动视频模型实现时空推理。基于Veo 3的实验显示,该模型在零样本下可完成感知、建模、操控等多类视觉任务,在迷宫规划中成功率高达78%(Veo 2为14%),经18384个视频测试验证其通用潜力。尽管专用模型仍领先,但性能差距正快速缩小,结合多次生成优化与成本下降趋势,通用视频模型或将成为机器视觉的“基础模型”。
来源:https://mp.weixin.qq.com/s/2eg4YOfgCgbhdd7FaSJl9A

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-9 23:57 , Processed in 0.296850 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表