谷歌Veo 3论文竟无一作者来自美国！揭秘零样本「看懂」世界

周大发表于 2025-9-29 14:18:37

DeepMind最新论文显示，其视频模型Veo 3在未专门训练的情况下，能通过提示词完成物体分割、图像编辑、物理理解等多项视觉任务，在18,384个视频样本中展现出“帧链”式推理的零样本能力。定量评估中，Veo 3在物体提取任务上准确率高达92.6%，图像分割mIoU达0.74，性能显著优于前代。研究认为，视频模型正迈向通用视觉基础模型，或迎来视觉领域的“GPT-3时刻”。值得注意的是，论文8位作者均非美国籍，主要来自加拿大、德国及亚洲国家，研究工作在DeepMind多伦多完成，凸显全球科研协作趋势。
来源：https://mp.weixin.qq.com/s/7XZNAlAH-CkF8_1gL0p5VA

		自动登录	找回密码
密码			立即注册

课程导航

谷歌Veo 3论文竟无一作者来自美国！揭秘零样本「看懂」世界