谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界

[复制链接]
周大 发表于 2025-9-29 14:18:37 | 显示全部楼层 |阅读模式
DeepMind最新论文显示,其视频模型Veo 3在未专门训练的情况下,能通过提示词完成物体分割、图像编辑、物理理解等多项视觉任务,在18,384个视频样本中展现出“帧链”式推理的零样本能力。定量评估中,Veo 3在物体提取任务上准确率高达92.6%,图像分割mIoU达0.74,性能显著优于前代。研究认为,视频模型正迈向通用视觉基础模型,或迎来视觉领域的“GPT-3时刻”。值得注意的是,论文8位作者均非美国籍,主要来自加拿大、德国及亚洲国家,研究工作在DeepMind多伦多完成,凸显全球科研协作趋势。
来源:https://mp.weixin.qq.com/s/7XZNAlAH-CkF8_1gL0p5VA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-9 23:54 , Processed in 0.311713 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表