HyperAIHyperAI

Command Palette

Search for a command to run...

大规模视觉桥接Transformer

Zhenxiong Tan Zeqing Wang Xingyi Yang Songhua Liu Xinchao Wang

Abstract

我们提出了视觉桥接变换器(Vision Bridge Transformer, ViBT),这是一种面向条件生成的大规模布朗桥模型实例。与传统扩散模型将噪声逐步转化为数据的机制不同,桥接模型(Bridge Models)直接建模输入与输出之间的动态轨迹,从而构建出一种高效的数据到数据的转换范式。通过将模型规模扩展至200亿(20B)和13亿(1.3B)参数,我们验证了其在图像与视频翻译任务中的卓越性能。为支持如此大规模的模型,我们采用Transformer架构,并提出了一种方差稳定化的速度匹配目标函数,以实现更稳健的训练。上述技术进步共同彰显了桥接模型在基于指令的图像编辑及复杂视频翻译任务中的强大潜力。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供