HyperAI

Use this DatasetDiscuss on Discord

Date

24 天前

Organization

Paper URL

2509.00484

License

MIT

数据集分布：

按任务维度分布，数据集覆盖五类核心评测维度，整体分布较为均衡：

长形式感知（Long-form Perception）：283 组（18.1%）
短形式感知（Short-form Perception）：413 组（26.4%）
知识（Knowledge）：238 组（15.2%）
推理（Reasoning）：278 组（17.8%）
安全（Safety）：351 组（22.5%）

按视频时长分布，视频以短时长样本为主：

≤ 1 分钟：59.9%
1–5 分钟：33.2%
> 5 分钟：6.9%

按文本统计

问题平均长度：28.8 词
回答平均长度：103.8 词
优选 / 拒绝回答平均长度：102.9 / 104.6 词

优选与拒绝回答在长度上分布接近，表明偏好标注主要由回答质量而非文本长度差异决定。

Related Datasets

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

Use this DatasetDiscuss on Discord

Date

24 天前

Organization

Paper URL

2509.00484

License

MIT

数据集分布：

按任务维度分布，数据集覆盖五类核心评测维度，整体分布较为均衡：

长形式感知（Long-form Perception）：283 组（18.1%）
短形式感知（Short-form Perception）：413 组（26.4%）
知识（Knowledge）：238 组（15.2%）
推理（Reasoning）：278 组（17.8%）
安全（Safety）：351 组（22.5%）

按视频时长分布，视频以短时长样本为主：

≤ 1 分钟：59.9%
1–5 分钟：33.2%
> 5 分钟：6.9%

按文本统计

问题平均长度：28.8 词
回答平均长度：103.8 词
优选 / 拒绝回答平均长度：102.9 / 104.6 词

优选与拒绝回答在长度上分布接近，表明偏好标注主要由回答质量而非文本长度差异决定。

Related Datasets

HumanSense Benchmark 人体感知基准数据集

2 个月前

VenusBench-GD 跨平台界面理解数据集

13 天前

DetectiumFire 多模态火灾理解数据集

1 个月前

SimpleQA 简明事实性问答评测数据集

13 天前

EditReward-Bench 图像编辑评测数据集

2 个月前

5.08 GB47

Paper2Video 论文视频基准数据集

3 个月前

132.74 MB84

VERA 语音推理评测数据集

2 个月前

2.37 GB47

GroundingME 复杂场景理解评测数据集

6 小时内

Spatial-SSRL-81k 空间感知自监督数据集

1 个月前

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

VideoRewardBench 视频奖励模型评测数据集

数据集分布：

Build AI with AI

HyperAI Newsletters

Command Palette

VideoRewardBench 视频奖励模型评测数据集

数据集分布：

Related Datasets

HumanSense Benchmark 人体感知基准数据集

VenusBench-GD 跨平台界面理解数据集

DetectiumFire 多模态火灾理解数据集

SimpleQA 简明事实性问答评测数据集

EditReward-Bench 图像编辑评测数据集

Paper2Video 论文视频基准数据集

VERA 语音推理评测数据集

GroundingME 复杂场景理解评测数据集

Spatial-SSRL-81k 空间感知自监督数据集

Build AI with AI

HyperAI Newsletters

Command Palette

VideoRewardBench 视频奖励模型评测数据集

数据集分布：

Related Datasets

HumanSense Benchmark 人体感知基准数据集

VenusBench-GD 跨平台界面理解数据集

DetectiumFire 多模态火灾理解数据集

SimpleQA 简明事实性问答评测数据集

EditReward-Bench 图像编辑评测数据集

Paper2Video 论文视频基准数据集

VERA 语音推理评测数据集

GroundingME 复杂场景理解评测数据集

Spatial-SSRL-81k 空间感知自监督数据集

Build AI with AI

HyperAI Newsletters

Related Datasets

HumanSense Benchmark 人体感知基准数据集

VenusBench-GD 跨平台界面理解数据集

DetectiumFire 多模态火灾理解数据集

SimpleQA 简明事实性问答评测数据集

EditReward-Bench 图像编辑评测数据集

Paper2Video 论文视频基准数据集

VERA 语音推理评测数据集

GroundingME 复杂场景理解评测数据集

Spatial-SSRL-81k 空间感知自监督数据集

Related Datasets

HumanSense Benchmark 人体感知基准数据集

VenusBench-GD 跨平台界面理解数据集

DetectiumFire 多模态火灾理解数据集

SimpleQA 简明事实性问答评测数据集

EditReward-Bench 图像编辑评测数据集

Paper2Video 论文视频基准数据集

VERA 语音推理评测数据集

GroundingME 复杂场景理解评测数据集

Spatial-SSRL-81k 空间感知自监督数据集