HyperAIHyperAI

Command Palette

Search for a command to run...

VideoRewardBench 视频奖励模型评测数据集

Use this DatasetDiscuss on Discord

Date

24 天前

Organization

中国科学技术大学

Paper URL

2509.00484

License

MIT

VideoRewardBench 是由中国科学技术大学联合与华为诺亚方舟实验室于 2025 年发布的首个全面覆盖感知、知识、推理和安全四个视频理解核心维度的综合评测基准,相关论文成果为 VideoRewardBench: Comprehensive Evaluation of Multimodal Reward Models for Video Understanding,旨在系统评估模型在复杂视频理解场景下对生成结果进行偏好判断与质量评估的能力。

该数据集共包含 1,563 条带标注的样本,涉及 1,482 个不同视频和 1,559 个不同问题,每个样本由一个视频–文本提示、一个优选响应和一个拒绝响应组成。

数据集分布:

按任务维度分布,数据集覆盖五类核心评测维度,整体分布较为均衡:

  • 长形式感知(Long-form Perception):283 组(18.1%)
  • 短形式感知(Short-form Perception):413 组(26.4%)
  • 知识(Knowledge):238 组(15.2%)
  • 推理(Reasoning):278 组(17.8%)
  • 安全(Safety):351 组(22.5%)

按视频时长分布,视频以短时长样本为主:

  • ≤ 1 分钟:59.9%
  • 1–5 分钟:33.2%
  • > 5 分钟:6.9%

按文本统计

  • 问题平均长度:28.8 词
  • 回答平均长度:103.8 词
  • 优选 / 拒绝回答平均长度:102.9 / 104.6 词

优选与拒绝回答在长度上分布接近,表明偏好标注主要由回答质量而非文本长度差异决定。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供