评测数据
MVBench
适配方法:
多模态理解评估,使用qwen2.5-vl模型直接处理视频和文本输入,通过提示工程方式引导模型生成答案。模型输出的文本回答与标准答案进行比对,计算准确率。
数据描述:
MVBench是一个多模态视频理解基准测试集,专为评估大型视觉语言模型(LVLMs)设计。该数据集涵盖20种视频理解任务,包括动作识别、物体交互、状态变化等多个方面,旨在全面评估模型的多模态视频理解能力。每个任务自动获取了200条问答数据,总计4000条数据用于高效评测。
数据集构成和规范:
源数据量:
MVBench包含20个子任务,每个子任务200个测试样本,总计4000个样本。
评测数据量:
评测使用MVBench的完整测试集,包含所有20个子任务的测试样本。
任务类型:
MVBench涵盖以下20项视频理解任务:
- 动作序列(Action Sequence)
- 动作预测(Action Prediction)
- 动作反义(Action Antonym)
- 细粒度动作(Fine-grained Action)
- 意外动作(Unexpected Action)
- 物体存在(Object Existence)
- 物体交互(Object Interaction)
- 物体位置交换(Object Shuffle)
- 移动方向(Moving Direction)
- 动作定位(Action Localization)
- 场景过渡(Scene Transition)
- 动作计数(Action Count)
- 移动计数(Moving Count)
- 移动属性(Moving Attribute)
- 状态变化(State Change)
- 细粒度姿态(Fine-grained Pose)
- 字符顺序(Character Order)
- 自我中心导航(Egocentric Navigation)
- 情节推理(Episodic Reasoning)
- 反事实推理(Counterfactual Inference)
源数据字段:
KEYS | EXPLAIN |
---|---|
video | 视频文件路径 |
question | 针对视频的问题 |
candidates | 候选答案列表 |
answer | 标准答案 |
源数据集样例:
{
"video": "166583.webm",
"question": "What is the action performed by the person in the video?",
"candidates": ["Not sure", "Scattering something down", "Piling something up"],
"answer": "Piling something up"
}
论文引用:
@inproceedings{li2024mvbench, title={Mvbench: A comprehensive multi-modal video understanding benchmark}, author={Li, Kunchang and Wang, Yali and He, Yinan and Li, Yizhuo and Wang, Yi and Liu, Yi and Wang, Zun and Xu, Jilan and Chen, Guo and Luo, Ping and others}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={22195--22206}, year={2024} }
源数据集版权使用说明:
MVBench数据集遵循研究和非商业用途的开放许可。