Skip to content

评测任务、评测数据集介绍

多模态领域评测(Multimodal)

主要考察模型在处理图文分类、图文匹配、图文生成等任务中的多维度性能表现。

目前包括以下评测任务:

  • 图问答: 图问答旨在让计算机能够回答关于图像内容的自然语言问题,通常使用Accuracy等指标来衡量生成答案和参考答案之间的相似性。
  • 文本生成图:文本生成图像旨在使计算机能够根据给定文本进行“联想”与“创造”,自动生成语义一致、内容真实的图像。
  • 图像-文本匹配:致力于度量视觉和语言内容之间的语义关联度,实现图像与文本之间的语义匹配,包括图像到文本检索(i2t)与文本到图像检索(t2i)两种评测方式,常使用 Flickr30k、MS COCO 等数据集。