评测数据

MVBench

适配方法：

多模态理解评估，使用qwen2.5-vl模型直接处理视频和文本输入，通过提示工程方式引导模型生成答案。模型输出的文本回答与标准答案进行比对，计算准确率。

数据描述：

MVBench是一个多模态视频理解基准测试集，专为评估大型视觉语言模型(LVLMs)设计。该数据集涵盖20种视频理解任务，包括动作识别、物体交互、状态变化等多个方面，旨在全面评估模型的多模态视频理解能力。每个任务自动获取了200条问答数据，总计4000条数据用于高效评测。

数据集构成和规范：

源数据量：

MVBench包含20个子任务，每个子任务200个测试样本，总计4000个样本。

评测数据量：

评测使用MVBench的完整测试集，包含所有20个子任务的测试样本。

任务类型：

MVBench涵盖以下20项视频理解任务：

动作序列（Action Sequence）
动作预测（Action Prediction）
动作反义（Action Antonym）
细粒度动作（Fine-grained Action）
意外动作（Unexpected Action）
物体存在（Object Existence）
物体交互（Object Interaction）
物体位置交换（Object Shuffle）
移动方向（Moving Direction）
动作定位（Action Localization）
场景过渡（Scene Transition）
动作计数（Action Count）
移动计数（Moving Count）
移动属性（Moving Attribute）
状态变化（State Change）
细粒度姿态（Fine-grained Pose）
字符顺序（Character Order）
自我中心导航（Egocentric Navigation）
情节推理（Episodic Reasoning）
反事实推理（Counterfactual Inference）

源数据字段：

KEYS	EXPLAIN
video	视频文件路径
question	针对视频的问题
candidates	候选答案列表
answer	标准答案

源数据集样例：

{
  "video": "166583.webm",
  "question": "What is the action performed by the person in the video?",
  "candidates": ["Not sure", "Scattering something down", "Piling something up"],
  "answer": "Piling something up"
}

论文引用：

@inproceedings{li2024mvbench,
  title={Mvbench: A comprehensive multi-modal video understanding benchmark},
  author={Li, Kunchang and Wang, Yali and He, Yinan and Li, Yizhuo and Wang, Yi and Liu, Yi and Wang, Zun and Xu, Jilan and Chen, Guo and Luo, Ping and others},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={22195--22206},
  year={2024}
}

源数据集版权使用说明：

MVBench数据集遵循研究和非商业用途的开放许可。

评测数据 ​

MVBench ​

适配方法： ​

数据描述： ​

数据集构成和规范： ​

源数据量： ​

评测数据量： ​

任务类型： ​

源数据字段： ​

源数据集样例： ​

论文引用： ​

源数据集版权使用说明： ​