Skip to content

评测数据

MVBench

评测指标-Accuracy

适配方法:

多模态理解评估,使用qwen2.5-vl模型直接处理视频和文本输入,通过提示工程方式引导模型生成答案。模型输出的文本回答与标准答案进行比对,计算准确率。

数据描述:

MVBench是一个多模态视频理解基准测试集,专为评估大型视觉语言模型(LVLMs)设计。该数据集涵盖20种视频理解任务,包括动作识别、物体交互、状态变化等多个方面,旨在全面评估模型的多模态视频理解能力。每个任务自动获取了200条问答数据,总计4000条数据用于高效评测。

数据集构成和规范:

源数据量:

MVBench包含20个子任务,每个子任务200个测试样本,总计4000个样本。

评测数据量:

评测使用MVBench的完整测试集,包含所有20个子任务的测试样本。

任务类型:

MVBench涵盖以下20项视频理解任务:

  1. 动作序列(Action Sequence)
  2. 动作预测(Action Prediction)
  3. 动作反义(Action Antonym)
  4. 细粒度动作(Fine-grained Action)
  5. 意外动作(Unexpected Action)
  6. 物体存在(Object Existence)
  7. 物体交互(Object Interaction)
  8. 物体位置交换(Object Shuffle)
  9. 移动方向(Moving Direction)
  10. 动作定位(Action Localization)
  11. 场景过渡(Scene Transition)
  12. 动作计数(Action Count)
  13. 移动计数(Moving Count)
  14. 移动属性(Moving Attribute)
  15. 状态变化(State Change)
  16. 细粒度姿态(Fine-grained Pose)
  17. 字符顺序(Character Order)
  18. 自我中心导航(Egocentric Navigation)
  19. 情节推理(Episodic Reasoning)
  20. 反事实推理(Counterfactual Inference)

源数据字段:

KEYSEXPLAIN
video视频文件路径
question针对视频的问题
candidates候选答案列表
answer标准答案

源数据集样例:

{
  "video": "166583.webm",
  "question": "What is the action performed by the person in the video?",
  "candidates": ["Not sure", "Scattering something down", "Piling something up"],
  "answer": "Piling something up"
}

论文引用:

@inproceedings{li2024mvbench,
  title={Mvbench: A comprehensive multi-modal video understanding benchmark},
  author={Li, Kunchang and Wang, Yali and He, Yinan and Li, Yizhuo and Wang, Yi and Liu, Yi and Wang, Zun and Xu, Jilan and Chen, Guo and Luo, Ping and others},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={22195--22206},
  year={2024}
}

源数据集版权使用说明:

MVBench数据集遵循研究和非商业用途的开放许可。