Skip to content

评测数据

CLCC

#Metrics-正确率

数据描述:

由经过培训的不同专业大学生或研究生,根据FlagEval能力维度进行编制。编制时,确保人员准确理解各能力维度的含义和细分领域,并通过多人协同、交叉核验的方式确保题目的代表性和准确性

Chinese Linguistics & Cognition Challenge (CLCC)数据集主要由两部分组成:

  1. CLCC-H-v1.0:190个问题,从多个开源数据集中采样,再由人工筛选而组成。评测结果由人工评价产生。

  2. CLCC-H-v2.0:对CLCC-H-v1.0上的数据进行了筛选和修改,同时增补了人工拟定的大量问题。评测结果均由人工评价产生。

CLCC数据集为未公开的评测数据集。

数据集构成和规范:

数据字段:

KEYSEXPLAIN
ID问题序号
prompt问题
answer参考答案
capability对应能力标签

源数据集样例:

{
  "ID": "20",
  "prompt": "从以下句子中抽取时间和地点:“昨天下午,他在图书馆学习了两个小时。”",
  "answer": "时间:昨天下午;地点:图书馆"
  "capability": "信息提取"
}