Command Palette
Search for a command to run...
潜在隐式视觉推理
潜在隐式视觉推理
Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig
Abstract
尽管大型多模态模型(LMMs)已取得显著进展,但其仍主要以文本为中心,依赖语言作为核心推理模态。因此,在处理以视觉为主导的推理任务时,其能力受到明显限制。为应对这一问题,近期研究尝试通过引入辅助图像、深度图或图像裁剪等中间视觉步骤进行监督,以增强模型的视觉推理能力。然而,这些方法对“有用”视觉抽象的形式施加了过于严格的先验假设,带来高昂的标注成本,并在跨任务泛化方面表现不佳。为解决这一关键局限,我们提出一种与任务无关的机制,使LMMs能够在无需显式监督的情况下,自主发现并利用视觉推理标记(visual reasoning tokens)。这些标记具有全局注意力机制,能够以任务自适应的方式重新编码图像,从而在无需人工设计监督信号的前提下,有效提取相关视觉信息。实验结果表明,该方法在多种以视觉为核心的任务上均显著优于直接微调,并达到了当前最优性能,尤其在那些难以明确指定中间抽象形式的任务中表现突出。此外,该方法还展现出良好的多任务指令微调泛化能力。