评测任务、评测数据集介绍
大语言模型(LLM)
主要评测大语言模型不同类型的能力。 除自建数据集外,针对一些主流能力类别,我们也选用了若干尚未饱和的公开数据集进行评测:
- 综合能力:包括MMLU-Pro等评测数据集。
- 推理能力:包括MuSR等评测数据集。
- 数学能力:包括GPQA等评测数据集。
- 编程能力:包括LiveCodeBench等评测数据集。
- 工具调用:包括 CLCC 等评测数据集。
视觉领域评测(CV)
主要评测模型在下游任务上的三大能力,1)感知能力,包括局部感知和时序感知能力;2)分析能力,包括全局分析、局部分析和时序分析能力;3)理解能力,包括类比、归纳和推理能力。
目前包括以下评测任务:
- 深度估计:包括NYUv2、SUN RGB-D、KITTI、DDAD等评测数据集。
- 图像分类:包括ImageNet、Place365等评测数据集。
- 图像检索:包括SOP、iNaturalist等评测数据集。
- 语义分割:包括ADE20K、COCO-Stuff、Cityscapes等评测数据集。
- 半监督图像分类:包括ImageNet、Place365等评测数据集。
- 小样本图像分类:包括ImageNet、Place365、Stanford Cars、CUB-200-2011、FGVC-Aircraft、Food-101、DTD等评测数据集。
多模态领域评测(Multimodal)
主要考察模型在处理图文分类、图文匹配、图文生成等任务中的多维度性能表现。
目前包括以下评测任务:
- 图问答: 图问答旨在让计算机能够回答关于图像内容的自然语言问题,通常使用Accuracy等指标来衡量生成答案和参考答案之间的相似性。
- 文本生成图:文本生成图像旨在使计算机能够根据给定文本进行“联想”与“创造”,自动生成语义一致、内容真实的图像。
- 图像-文本匹配:致力于度量视觉和语言内容之间的语义关联度,实现图像与文本之间的语义匹配,包括图像到文本检索(i2t)与文本到图像检索(t2i)两种评测方式,常使用 Flickr30k、MS COCO 等数据集。
语音领域评测(Audio)
目前包括以下评测任务: