Skip to content
Main Navigation
数据集介绍
大语言模型(LLM)
多模态(Multimodal)
计算机视觉(CV)
语音(Audio)
评测规则
排行榜
大模型角斗场
Debate辩论赛
简体中文
English
简体中文
English
Appearance
Menu
Return to top
On this page
评测任务、评测数据集介绍
NLP大语言模型
主要评测大语言模型不同类型的能力。 除自建数据集外,针对一些主流能力类别,我们也选用了若干尚未饱和的公开数据集进行评测:
综合能力
:包括MMLU-Pro等评测数据集。
推理能力
:包括MuSR等评测数据集。
数学能力
:包括GPQA等评测数据集。
编程能力
:包括LiveCodeBench等评测数据集。
工具调用
:包括 CLCC 等评测数据集。