HyperAIHyperAI

Command Palette

Search for a command to run...

Hyper-Bagel:一种用于多模态理解与生成的统一加速框架

Yanzuo Lu Xin Xia Manlin Zhang Huafeng Kuang Jianbin Zheng Yuxi Ren Xuefeng Xiao

Abstract

统一的多模态模型近年来受到广泛关注,因其在联合理解与生成多样化内容方面展现出卓越能力。然而,随着上下文逐渐融合大量交错的多模态标记,扩散去噪与自回归解码的迭代过程带来了显著的计算开销。为解决这一问题,我们提出 Hyper-Bagel——一种统一的加速框架,旨在同时提升多模态理解与生成任务的效率。该方法采用分而治之的策略:在下一标记预测中引入推测性解码(speculative decoding),在扩散去噪过程中采用多阶段知识蒸馏(multi-stage distillation)。该框架实现了显著的性能提升,在多模态理解任务中实现了超过2倍的加速。在生成任务方面,我们构建的无损6-NFE(6次非线性函数评估)模型在文本到图像生成任务中实现了16.67倍的加速,在图像编辑任务中实现了22倍的加速,同时完整保留了原始模型的高质量输出。此外,我们进一步开发了一种高效的1-NFE模型,支持近乎实时的交互式编辑与生成。通过结合先进的对抗性知识蒸馏与人类反馈学习(human feedback learning),该模型在成本效益与响应速度方面达到极致,使复杂的多模态交互变得流畅且瞬时响应。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供