HyperAIHyperAI

Command Palette

Search for a command to run...

视频模型是零样本学习者和推理者

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Abstract

大型语言模型(LLMs)卓越的零样本能力,推动自然语言处理从任务特定模型迈向统一的、通用型的基础模型。这一转变源于一些简单的基础范式:在互联网规模数据上训练的大规模生成模型。有趣的是,同样的基础范式也适用于当今的生成式视频模型。视频模型是否正沿着一条通往通用视觉理解的路径发展,正如LLMs逐步实现通用语言理解一样?我们证明,Veo 3能够解决其并未显式训练过的多种任务,包括物体分割、边缘检测、图像编辑、理解物理属性、识别物体可用性(affordances)、模拟工具使用等。这些感知、建模与操控视觉世界的能力,使得Veo能够实现早期形式的视觉推理,例如迷宫求解与对称性识别。Veo所展现出的涌现式零样本能力表明,视频模型正朝着成为统一的、通用型视觉基础模型的方向迈进。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供