4 个月前

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Abstract

大型语言模型（LLMs）卓越的零样本能力，推动自然语言处理从任务特定模型迈向统一的、通用型的基础模型。这一转变源于一些简单的基础范式：在互联网规模数据上训练的大规模生成模型。有趣的是，同样的基础范式也适用于当今的生成式视频模型。视频模型是否正沿着一条通往通用视觉理解的路径发展，正如LLMs逐步实现通用语言理解一样？我们证明，Veo 3能够解决其并未显式训练过的多种任务，包括物体分割、边缘检测、图像编辑、理解物理属性、识别物体可用性（affordances）、模拟工具使用等。这些感知、建模与操控视觉世界的能力，使得Veo能够实现早期形式的视觉推理，例如迷宫求解与对称性识别。Veo所展现出的涌现式零样本能力表明，视频模型正朝着成为统一的、通用型视觉基础模型的方向迈进。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Abstract

大型语言模型（LLMs）卓越的零样本能力，推动自然语言处理从任务特定模型迈向统一的、通用型的基础模型。这一转变源于一些简单的基础范式：在互联网规模数据上训练的大规模生成模型。有趣的是，同样的基础范式也适用于当今的生成式视频模型。视频模型是否正沿着一条通往通用视觉理解的路径发展，正如LLMs逐步实现通用语言理解一样？我们证明，Veo 3能够解决其并未显式训练过的多种任务，包括物体分割、边缘检测、图像编辑、理解物理属性、识别物体可用性（affordances）、模拟工具使用等。这些感知、建模与操控视觉世界的能力，使得Veo能够实现早期形式的视觉推理，例如迷宫求解与对称性识别。Veo所展现出的涌现式零样本能力表明，视频模型正朝着成为统一的、通用型视觉基础模型的方向迈进。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供