HyperAIHyperAI

Command Palette

Search for a command to run...

COREVQA:一种众包观察与推理蕴含的视觉问答基准

Ishant Chintapatla Kazuma Choji Naaisha Agarwal Andrew Lin Hannah You Charles Duong et al

Abstract

近年来,为评估视觉-语言模型(VLMs)在视觉问答(VQA)任务中的表现,已涌现出大量基准测试集和数据集,相关模型的准确率也取得了显著提升。然而,这些基准测试极少考察模型在视觉蕴含推理方面的能力,例如根据图像内容判断某个假设是否成立(即接受或反驳某一命题)。为解决这一问题,我们提出了COREVQA(Crowd Observations and Reasoning Entailment)基准,该基准包含5608对图像与人工合成的真/假陈述对,图像均源自CrowdHuman数据集,旨在针对复杂拥挤场景下的图像激发模型的视觉蕴含推理能力。实验结果表明,即使是最先进的VLMs,其准确率也低于80%,而其他模型的表现则显著更差(准确率范围为39.98%至69.95%)。这一显著的性能差距揭示了当前VLMs在处理拥挤场景中特定类型图像-问题对时,仍存在关键性的推理能力局限。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供