评测任务、评测数据集介绍
大语言模型
主要评测大语言模型不同类型的能力。 除自建数据集外,针对一些主流能力类别,我们也选用了若干尚未饱和的公开数据集进行评测:
- 综合能力:包括MMLU-Pro等评测数据集。
- 推理能力:包括MuSR等评测数据集。
- 数学能力:包括GPQA等评测数据集。
- 编程能力:包括LiveCodeBench等评测数据集。
- 工具调用:包括 CLCC 等评测数据集。
附录:更早期数据集(不再上榜)
自然语言处理(NLP)主要评测模型在下游任务上的三大能力,1)基础能力,包括简单理解、知识运用、推理能力;2)高级能力,包括特殊生成能力、语境理解能力;3)综合能力,包括通用综合能力、领域综合能力; 4)安全与价值观。
早前使用过的数据集包括以下评测任务:
- 中文选择问答:包括Chinese_MMLU、CSL、ChiD 等评测数据集。
- 英文选择问答:包括MMLU、HellaSwag、OpenBookQA等评测数据集。
- 中文文本分类:包括EPRSTMT、TNEWS、OCNLI等评测数据集。
- 英文文本分类:包括 IMDB、RAFT等评测数据集。
- 中文开放问答:包括 CLCC 等评测数据集。
- 英文开放问答:包括 CNN / DailyMail、GSM8K 等评测数据集。
- 代码生成:包含 HumanEval 评测数据集。
点击任务名称查看任务详情,任务详情包括任务介绍、评测数据介绍、评测指标介绍、评测prompt介绍。