评测任务、评测数据集介绍

大语言模型

主要评测大语言模型不同类型的能力。除自建数据集外，针对一些主流能力类别，我们也选用了若干尚未饱和的公开数据集进行评测：

综合能力：包括MMLU-Pro等评测数据集。
推理能力：包括MuSR等评测数据集。
数学能力：包括MATH等评测数据集。
编程能力：包括LiveCodeBench等评测数据集。
工具调用：包括 BFCL 等评测数据集。

附录：更早期数据集（不再上榜）

自然语言处理（NLP）主要评测模型在下游任务上的三大能力，1）基础能力，包括简单理解、知识运用、推理能力；2）高级能力，包括特殊生成能力、语境理解能力；3）综合能力，包括通用综合能力、领域综合能力； 4）安全与价值观。

早前使用过的数据集包括以下评测任务：

中文选择问答：包括Chinese_MMLU、CSL、ChiD 等评测数据集。
英文选择问答：包括MMLU、HellaSwag、OpenBookQA等评测数据集。
中文文本分类：包括EPRSTMT、TNEWS、OCNLI等评测数据集。
英文文本分类：包括 IMDB、RAFT等评测数据集。
中文开放问答：包括 CLCC 等评测数据集。
英文开放问答：包括 CNN / DailyMail、GSM8K 等评测数据集。
代码生成：包含 HumanEval 评测数据集。

点击任务名称查看任务详情，任务详情包括任务介绍、评测数据介绍、评测指标介绍、评测prompt介绍。