Skip to content

评测任务、评测数据集介绍

大语言模型(LLM)

主要评测大语言模型不同类型的能力。 除自建数据集外,针对一些主流能力类别,我们也选用了若干尚未饱和的公开数据集进行评测:

视觉领域评测(CV)

主要评测模型在下游任务上的三大能力,1)感知能力,包括局部感知和时序感知能力;2)分析能力,包括全局分析、局部分析和时序分析能力;3)理解能力,包括类比、归纳和推理能力。

目前包括以下评测任务:

  • 深度估计:包括NYUv2、SUN RGB-D、KITTI、DDAD等评测数据集。
  • 图像分类:包括ImageNet、Place365等评测数据集。
  • 图像检索:包括SOP、iNaturalist等评测数据集。
  • 语义分割:包括ADE20K、COCO-Stuff、Cityscapes等评测数据集。
  • 半监督图像分类:包括ImageNet、Place365等评测数据集。
  • 小样本图像分类:包括ImageNet、Place365、Stanford Cars、CUB-200-2011、FGVC-Aircraft、Food-101、DTD等评测数据集。

多模态领域评测(Multimodal)

主要考察模型在处理图文分类、图文匹配、图文生成等任务中的多维度性能表现。

目前包括以下评测任务:

  • 图问答: 图问答旨在让计算机能够回答关于图像内容的自然语言问题,通常使用Accuracy等指标来衡量生成答案和参考答案之间的相似性。
  • 文本生成图:文本生成图像旨在使计算机能够根据给定文本进行“联想”与“创造”,自动生成语义一致、内容真实的图像。
  • 图像-文本匹配:致力于度量视觉和语言内容之间的语义关联度,实现图像与文本之间的语义匹配,包括图像到文本检索(i2t)与文本到图像检索(t2i)两种评测方式,常使用 Flickr30k、MS COCO 等数据集。

语音领域评测(Audio)

目前包括以下评测任务: