HyperAIHyperAI

Command Palette

Search for a command to run...

细粒度偏好优化改进了VLM中的空间推理能力

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

Abstract

当前的视觉-语言模型(VLMs)在细粒度空间推理方面存在困难,尤其是在需要多步骤逻辑和精确空间对齐的情况下。在这项工作中,我们引入了SpatialReasoner-R1,这是一种专门设计用于克服这些限制的视觉-语言推理模型。为了构建高质量的空间推理监督数据,我们设计了一种多模型蒙特卡洛树搜索(Multi-Model Monte Carlo Tree Search, M3CTS)方法,该方法生成多样且逻辑一致的长链思考(Long Chain-of-Thought, LongCoT)推理轨迹。此外,我们提出了细粒度直接偏好优化(fine-grained Direct Preference Optimization, fDPO),通过引入描述性接地和逻辑推理的段落特定偏好粒度,并由评估候选响应的视觉一致性、空间接地和逻辑连贯性的空间奖励机制引导。实验结果表明,fDPO在空间质量任务上比标准DPO平均提高了4.1%,在空间数量任务上提高了9.0%。使用fDPO训练的SpatialReasoner-R1在SPATIALRGPT-Bench基准测试中达到了新的最先进水平(State-of-The-Art, SoTA),其平均准确率比最强基线高9.8%,同时在一般视觉-语言任务中也保持了竞争力。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供