评测任务、评测数据集介绍

多模态领域评测（Multimodal）

主要考察模型在处理图文分类、图文匹配、图文生成、视觉定位等任务中的多维度性能表现。

目前包括以下评测任务：

图问答：图问答旨在让计算机能够回答关于图像内容的自然语言问题，通常使用Accuracy等指标来衡量生成答案和参考答案之间的相似性。
文本生成图：文本生成图像旨在使计算机能够根据给定文本进行“联想”与“创造”，自动生成语义一致、内容真实的图像。
图像-文本匹配：致力于度量视觉和语言内容之间的语义关联度，实现图像与文本之间的语义匹配，包括图像到文本检索(i2t)与文本到图像检索(t2i)两种评测方式，常使用 Flickr30k、MS COCO 等数据集。
视觉定位：也称作指代表达，致力于进行比图像-文本匹配更细粒度的视觉和语言内容定位，通常输入一张图像和一句指代表达内容，输出图像中关于指代表达对象的包围框作为视觉定位的结果，常使用 RefCOCO、RefCOCO+、RefCOCOg 等数据集进行评测。
视频检索：旨在从大规模视频集中，根据输入的文本描述检索出语义相关的视频片段。评测时通常使用 Top-k Recall（R@k）指标，表示前 k 个检索结果中包含的相关视频占所有相关视频的比例，常用于衡量系统在限定结果数下的检索覆盖率与准确性。
视频问答：聚焦于大规模视觉语言模型（LVLMs）的细粒度多模态理解任务。输入为视频和问题，输出为模型回答。MVBench 数据集涵盖动作预测、物体交互、状态变化、因果推理等 20 类任务，采用准确率作为评估指标，通过比较模型输出与标准答案来衡量性能。
色彩理解: 旨在全面评估视觉语言模型（VLMs）在颜色理解方面的能力，包括颜色感知、推理和鲁棒性。包含ColorBench数据集。
文本生成视频: 文本到视频生成旨在根据用户给定的文本描述，进行“联想”和“创造”，自动生成语义一致、内容真实、时序连贯且符合逻辑的视频。包含MSR-VTT、UCF-101数据集。
文本检索视频: 文本检索视频旨在通过输入一段自然语言描述，从大规模视频库中自动找到与该文本语义最相关的视频片段。包含MSR-VTT、UCF-101数据集。

评测任务、评测数据集介绍 ​

多模态领域评测（Multimodal） ​

评测任务、评测数据集介绍

多模态领域评测（Multimodal）