评测任务、评测数据集介绍
多模态领域评测(Multimodal)
主要考察模型在处理图文分类、图文匹配、图文生成、视觉定位等任务中的多维度性能表现。
目前包括以下评测任务:
- 图问答: 图问答旨在让计算机能够回答关于图像内容的自然语言问题,通常使用Accuracy等指标来衡量生成答案和参考答案之间的相似性。
- 文本生成图:文本生成图像旨在使计算机能够根据给定文本进行“联想”与“创造”,自动生成语义一致、内容真实的图像。
- 图像-文本匹配:致力于度量视觉和语言内容之间的语义关联度,实现图像与文本之间的语义匹配,包括图像到文本检索(i2t)与文本到图像检索(t2i)两种评测方式,常使用 Flickr30k、MS COCO 等数据集。
- 指代表达: 也称作视觉定位,致力于进行比图像-文本匹配更细粒度的视觉和语言内容定位,通常输入一张图像和一句指代表达内容,输出图像中关于指代表达对象的包围框作为视觉定位的结果,常使用 RefCOCO、RefCOCO+、RefCOCOg 等数据集进行评测。
- 视频检索:旨在从大规模视频集中,根据输入的文本描述检索出语义相关的视频片段。评测时通常使用 Top-k Recall(R@k)指标,表示前 k 个检索结果中包含的相关视频占所有相关视频的比例,常用于衡量系统在限定结果数下的检索覆盖率与准确性。
- 视频问答:聚焦于大规模视觉语言模型(LVLMs)的细粒度多模态理解任务。输入为视频和问题,输出为模型回答。MVBench 数据集涵盖动作预测、物体交互、状态变化、因果推理等 20 类任务,采用准确率作为评估指标,通过比较模型输出与标准答案来衡量性能。