Skip to content

评测任务、评测数据集介绍

大语言模型

主要评测大语言模型不同类型的能力。 除自建数据集外,针对一些主流能力类别,我们也选用了若干尚未饱和的公开数据集进行评测:

附录:更早期数据集(不再上榜)

自然语言处理(NLP)主要评测模型在下游任务上的三大能力,1)基础能力,包括简单理解、知识运用、推理能力;2)高级能力,包括特殊生成能力、语境理解能力;3)综合能力,包括通用综合能力、领域综合能力; 4)安全与价值观。

早前使用过的数据集包括以下评测任务:

点击任务名称查看任务详情,任务详情包括任务介绍、评测数据介绍、评测指标介绍、评测prompt介绍。