6 个月前

Yilun Zhao Chengye Wang Chuhan Li Arman Cohan

Abstract

本文介绍了MISS-QA，这是首个专门设计用于评估模型在科学文献中解释示意图能力的基准测试。MISS-QA包含来自465篇科学论文的1,500个专家标注的示例。在这个基准测试中，模型需要解释展示研究概览的示意图，并根据论文的整体背景回答相应的问题。我们评估了包括o4-mini、Gemini-2.5-Flash和Qwen2.5-VL在内的18种前沿多模态基础模型的表现。结果显示，这些模型在MISS-QA上的表现与人类专家之间存在显著差距。通过对无法回答问题的模型表现分析以及详细的错误分析，我们进一步揭示了当前模型的优势和局限性，为提升模型在多模态科学文献理解方面的能力提供了关键见解。

Source PDF View Code

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Yilun Zhao Chengye Wang Chuhan Li Arman Cohan

Abstract

本文介绍了MISS-QA，这是首个专门设计用于评估模型在科学文献中解释示意图能力的基准测试。MISS-QA包含来自465篇科学论文的1,500个专家标注的示例。在这个基准测试中，模型需要解释展示研究概览的示意图，并根据论文的整体背景回答相应的问题。我们评估了包括o4-mini、Gemini-2.5-Flash和Qwen2.5-VL在内的18种前沿多模态基础模型的表现。结果显示，这些模型在MISS-QA上的表现与人类专家之间存在显著差距。通过对无法回答问题的模型表现分析以及详细的错误分析，我们进一步揭示了当前模型的优势和局限性，为提升模型在多模态科学文献理解方面的能力提供了关键见解。

Source PDF View Code

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供