Skip to content

评测数据

MVBench

评测指标-Accuracy

适配方法:

多模态理解评估,使用qwen2.5-vl模型直接处理视频和文本输入,通过提示工程方式引导模型生成答案。模型输出的文本回答与标准答案进行比对,计算准确率。

数据描述:

MVBench是一个多模态视频理解基准测试集,专为评估大型视觉语言模型(LVLMs)设计。该数据集涵盖20种视频理解任务,包括动作识别、物体交互、状态变化等多个方面,旨在全面评估模型的多模态视频理解能力。每个任务自动获取了200条问答数据,总计4000条数据用于高效评测。

数据集构成和规范:

源数据量:

MVBench包含20个子任务,每个子任务200个测试样本,总计4000个样本。

评测数据量:

评测使用MVBench的完整测试集,包含所有20个子任务的测试样本。

任务类型:

MVBench涵盖以下20项视频理解任务:

  1. 动作序列(Action Sequence)
  2. 动作预测(Action Prediction)
  3. 动作反义(Action Antonym)
  4. 细粒度动作(Fine-grained Action)
  5. 意外动作(Unexpected Action)
  6. 物体存在(Object Existence)
  7. 物体交互(Object Interaction)
  8. 物体位置交换(Object Shuffle)
  9. 移动方向(Moving Direction)
  10. 动作定位(Action Localization)
  11. 场景过渡(Scene Transition)
  12. 动作计数(Action Count)
  13. 移动计数(Moving Count)
  14. 移动属性(Moving Attribute)
  15. 状态变化(State Change)
  16. 细粒度姿态(Fine-grained Pose)
  17. 字符顺序(Character Order)
  18. 自我中心导航(Egocentric Navigation)
  19. 情节推理(Episodic Reasoning)
  20. 反事实推理(Counterfactual Inference)

源数据字段:

KEYSEXPLAIN
video视频文件路径
question针对视频的问题
candidates候选答案列表
answer标准答案

源数据集样例:

{
  "video": "166583.webm",
  "question": "What is the action performed by the person in the video?",
  "candidates": ["Not sure", "Scattering something down", "Piling something up"],
  "answer": "Piling something up"
}

论文引用:

@inproceedings{li2024mvbench,
  title={Mvbench: A comprehensive multi-modal video understanding benchmark},
  author={Li, Kunchang and Wang, Yali and He, Yinan and Li, Yizhuo and Wang, Yi and Liu, Yi and Wang, Zun and Xu, Jilan and Chen, Guo and Luo, Ping and others},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={22195--22206},
  year={2024}
}

源数据集版权使用说明:

MVBench数据集遵循研究和非商业用途的开放许可。

Animal-Bench

评测指标-Accuracy

适配方法:

多模态理解评估,使用VL模型直接处理视频和文本输入,通过提示工程方式引导模型生成答案。模型输出的文本回答与标准答案进行比对,计算准确率。该基准特别关注模型在非人类中心场景下的泛化能力,旨在解决现有模型在动物行为与生态环境理解上的"代理偏差"问题。

数据描述:

Animal-Bench是一个专注于动物中心的多模态视频理解基准测试集,专为评估大型视觉语言模型在自然界动物场景下的理解能力而设计。

该数据集由NeurIPS 2024发布,涵盖了7大类动物、819个物种,包含13项视频理解任务,内容涉及动物习性、保护生物学特征以及复杂的自然环境交互。数据通过自动化流水线构建并经过严格的人工校验,旨在全面评估模型在真实野生环境下的感知与推理能力。

数据集构成和规范:

源数据量:

Animal-Bench包含13个子任务,覆盖陆地、海洋、天空等多种生态环境,总计包含41,839条问答数据。

评测数据量:

评测使用Animal-Bench的完整测试集,包含所有13个任务的测试样本。

任务类型:

Animal-Bench涵盖以下13项动物视频理解任务,分为通用任务与特殊任务:

通用任务

text
- 物体: 物体存在性、物体识别
- 动作: 动作识别、动作序列、动作预测
- 时序: 动作定位
- 计数: 动作计数、物体计数
- 推理: 溯因推理

特殊任务

text
- 捕食行为监控
- 社会交互分析
- 繁殖行为监控
- 压力与疼痛检测

源数据集样例:

json
{
    "video": "leopard_hunt_001.mp4",
    "question": "What behavior is the leopard demonstrating in the video?",
    "candidates": ["Sleeping", "Hunting", "Playing", "Grooming"],
    "answer": "Hunting"
}

论文引用:

bibtex
@inproceedings{jing2024animalbench,
  title={Animal-Bench: Benchmarking Multimodal Video Models for Animal-centric Video Understanding},
  author={Jing, Yinuo and Zhang, Ruxu and Liang, Kongming and Li, Yongxiang and He, Zhongjiang and Ma, Zhanyu and Guo, Jun},
  booktitle={Proceedings of the Advances in Neural Information Processing Systems (NeurIPS)},
  year = "2024",
  url = "https://github.com/PRIS-CV/Animal-Bench"
}

源数据集版权使用说明:

Animal-Bench数据集遵循研究和非商业用途的开放许可。