评测任务、评测数据集介绍

NLP大语言模型

主要评测大语言模型不同类型的能力。除自建数据集外，针对一些主流能力类别，我们也选用了若干尚未饱和的公开数据集进行评测：

综合能力：包括MMLU-Pro等评测数据集。
推理能力：包括MuSR等评测数据集。
数学能力：包括GPQA等评测数据集。
编程能力：包括LiveCodeBench等评测数据集。
工具调用：包括 CLCC 等评测数据集。