6 个月前

统一多模态

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

Abstract

当前的视觉-语言模型（VLMs）在细粒度空间推理方面存在困难，尤其是在需要多步骤逻辑和精确空间对齐的情况下。在这项工作中，我们引入了SpatialReasoner-R1，这是一种专门设计用于克服这些限制的视觉-语言推理模型。为了构建高质量的空间推理监督数据，我们设计了一种多模型蒙特卡洛树搜索（Multi-Model Monte Carlo Tree Search, M3CTS）方法，该方法生成多样且逻辑一致的长链思考（Long Chain-of-Thought, LongCoT）推理轨迹。此外，我们提出了细粒度直接偏好优化（fine-grained Direct Preference Optimization, fDPO），通过引入描述性接地和逻辑推理的段落特定偏好粒度，并由评估候选响应的视觉一致性、空间接地和逻辑连贯性的空间奖励机制引导。实验结果表明，fDPO在空间质量任务上比标准DPO平均提高了4.1%，在空间数量任务上提高了9.0%。使用fDPO训练的SpatialReasoner-R1在SPATIALRGPT-Bench基准测试中达到了新的最先进水平（State-of-The-Art, SoTA），其平均准确率比最强基线高9.8%，同时在一般视觉-语言任务中也保持了竞争力。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

Abstract

当前的视觉-语言模型（VLMs）在细粒度空间推理方面存在困难，尤其是在需要多步骤逻辑和精确空间对齐的情况下。在这项工作中，我们引入了SpatialReasoner-R1，这是一种专门设计用于克服这些限制的视觉-语言推理模型。为了构建高质量的空间推理监督数据，我们设计了一种多模型蒙特卡洛树搜索（Multi-Model Monte Carlo Tree Search, M3CTS）方法，该方法生成多样且逻辑一致的长链思考（Long Chain-of-Thought, LongCoT）推理轨迹。此外，我们提出了细粒度直接偏好优化（fine-grained Direct Preference Optimization, fDPO），通过引入描述性接地和逻辑推理的段落特定偏好粒度，并由评估候选响应的视觉一致性、空间接地和逻辑连贯性的空间奖励机制引导。实验结果表明，fDPO在空间质量任务上比标准DPO平均提高了4.1%，在空间数量任务上提高了9.0%。使用fDPO训练的SpatialReasoner-R1在SPATIALRGPT-Bench基准测试中达到了新的最先进水平（State-of-The-Art, SoTA），其平均准确率比最强基线高9.8%，同时在一般视觉-语言任务中也保持了竞争力。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供