5 个月前

Ishant Chintapatla Kazuma Choji Naaisha Agarwal Andrew Lin Hannah You Charles Duong et al

Abstract

近年来，为评估视觉-语言模型（VLMs）在视觉问答（VQA）任务中的表现，已涌现出大量基准测试集和数据集，相关模型的准确率也取得了显著提升。然而，这些基准测试极少考察模型在视觉蕴含推理方面的能力，例如根据图像内容判断某个假设是否成立（即接受或反驳某一命题）。为解决这一问题，我们提出了COREVQA（Crowd Observations and Reasoning Entailment）基准，该基准包含5608对图像与人工合成的真/假陈述对，图像均源自CrowdHuman数据集，旨在针对复杂拥挤场景下的图像激发模型的视觉蕴含推理能力。实验结果表明，即使是最先进的VLMs，其准确率也低于80%，而其他模型的表现则显著更差（准确率范围为39.98%至69.95%）。这一显著的性能差距揭示了当前VLMs在处理拥挤场景中特定类型图像-问题对时，仍存在关键性的推理能力局限。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

Ishant Chintapatla Kazuma Choji Naaisha Agarwal Andrew Lin Hannah You Charles Duong et al

Abstract

近年来，为评估视觉-语言模型（VLMs）在视觉问答（VQA）任务中的表现，已涌现出大量基准测试集和数据集，相关模型的准确率也取得了显著提升。然而，这些基准测试极少考察模型在视觉蕴含推理方面的能力，例如根据图像内容判断某个假设是否成立（即接受或反驳某一命题）。为解决这一问题，我们提出了COREVQA（Crowd Observations and Reasoning Entailment）基准，该基准包含5608对图像与人工合成的真/假陈述对，图像均源自CrowdHuman数据集，旨在针对复杂拥挤场景下的图像激发模型的视觉蕴含推理能力。实验结果表明，即使是最先进的VLMs，其准确率也低于80%，而其他模型的表现则显著更差（准确率范围为39.98%至69.95%）。这一显著的性能差距揭示了当前VLMs在处理拥挤场景中特定类型图像-问题对时，仍存在关键性的推理能力局限。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供