评测数据
CLCC
数据描述:
由经过培训的不同专业大学生或研究生,根据FlagEval能力维度进行编制。编制时,确保人员准确理解各能力维度的含义和细分领域,并通过多人协同、交叉核验的方式确保题目的代表性和准确性
Chinese Linguistics & Cognition Challenge (CLCC)数据集主要由两部分组成:
CLCC-H-v1.0:190个问题,从多个开源数据集中采样,再由人工筛选而组成。评测结果由人工评价产生。
CLCC-H-v2.0:对CLCC-H-v1.0上的数据进行了筛选和修改,同时增补了人工拟定的大量问题。评测结果均由人工评价产生。
CLCC数据集为未公开的评测数据集。
数据集构成和规范:
数据字段:
KEYS | EXPLAIN |
---|---|
ID | 问题序号 |
prompt | 问题 |
answer | 参考答案 |
capability | 对应能力标签 |
源数据集样例:
{
"ID": "20",
"prompt": "从以下句子中抽取时间和地点:“昨天下午,他在图书馆学习了两个小时。”",
"answer": "时间:昨天下午;地点:图书馆"
"capability": "信息提取"
}