HyperAIHyperAI

Command Palette

Search for a command to run...

NextStep-1:面向大规模连续Token的自回归图像生成

Abstract

当前主流的文本到图像生成自回归(AR)模型,要么依赖于计算开销巨大的扩散模型来处理连续的图像标记,要么采用向量量化(VQ)方法获取离散标记,但会引入量化误差。本文提出NextStep-1,一种基于140亿参数的自回归模型,搭配1.57亿参数的流匹配(flow matching)头,通过在离散文本标记与连续图像标记上联合训练,并采用下一标记预测目标,进一步推动了自回归范式的进展。NextStep-1在文本到图像生成任务中达到了自回归模型的最先进性能,展现出卓越的高保真图像生成能力。此外,我们的方法在图像编辑任务中也表现出色,充分体现了该统一框架的强大性能与广泛适用性。为促进开放研究,我们将向社区公开发布相关代码与模型。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供