评测数据
以下数据集均转化为标准评测Prompt后再进行评测。
C_MMLU
数据描述:
CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个学科。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。详见:cmmlu github
数据集构成和规范:
源数据量:
测试集(11582),开发集(335)
评测数据量:
评测数据为源数据测试集中的11582个实例
源数据字段:
KEYS | EXPLAIN |
---|---|
Question | 问题 |
A | 包含四个选项的列表 |
B | 包含四个选项的列表 |
C | 包含四个选项的列表 |
D | 包含四个选项的列表 |
Answer | 正确选项 |
源数据集样例:
{
"Question": "壁胸膜的分部不包括",
"A": "肋胸膜",
"B": "肺胸膜",
"C": "膈胸膜",
"D": "胸膜顶",
"Answer":"B"
}
源数据集版权使用说明:
Chinese_MMLU
数据描述:
Chinese_MMLU是MMLU的汉化版本,先经过机器翻译再人工校正获得。MMLU是一个大型的多任务测试数据集,由来自多个知识分支的多项选择题组成。MMLU涵盖了人文科学、社会科学、自然科学以及其他一些重要领域的数据,共有57个任务,包括初等数学、美国历史、计算机科学、法律等等。
数据集构成和规范:
源数据量:
数据集分成训练集(99842),验证集(1531),测试集(14042),开发集(285)
评测数据量:
评测数据为源数据测试集中的14042个实例
源数据字段:
KEYS | EXPLAIN |
---|---|
question | 问题 |
choices | 包含四个选项的列表 |
answer | 正确选项 |
源数据集样例:
{
"question" "舌骨的胚胎起源是什么?"
“choices”:[“第一咽弓”,“第一和第二咽弓”,“第二咽弓”,“第二和第三咽弓”],
“answer”:“D”
}
源数据集版权使用说明:
CSL
数据描述:
中文科技文献数据集(CSL)取自中文论文摘要及其关键词,论文选自部分中文社会科学和自然科学核心期刊,任务目标是根据摘要判断关键词是否全部为真实关键词(真实为1,伪造为0)。
数据集构成和规范:
源数据量:
训练集(32),验证集(32),公开测试集(2828),测试集(3000),无标签语料(19841)
评测数据量:
评测数据为源数据公开测试集中的2828个实例
数据字段:
KEYS | EXPLAIN |
---|---|
id | 数据ID |
abst | 论文摘要 |
keyword | 关键词 |
label | 真假标签 |
源数据集样例:
{
"id": 1,
"abst": "为解决传统均匀FFT波束形成算法引起的3维声呐成像分辨率降低的问题,该文提出分区域FFT波束形成算法.远场条件下,以保证成像分辨率为约束条件,以划分数量最少为目标,采用遗传算法作为优化手段将成像区域划分为多个区域.在每个区域内选取一个波束方向,获得每一个接收阵元收到该方向回波时的解调输出,以此为原始数据在该区域内进行传统均匀FFT波束形成.对FFT计算过程进行优化,降低新算法的计算量,使其满足3维成像声呐实时性的要求.仿真与实验结果表明,采用分区域FFT波束形成算法的成像分辨率较传统均匀FFT波束形成算法有显著提高,且满足实时性要求.",
"keyword": ["水声学", "FFT", "波束形成", "3维成像声呐"],
"label": "1"
}
论文引用:
{FewCLUE,
title={FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark},
author={Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei, Xiang Pan, Xin Tian, Libo Qin, Hu Hai},
year={2021},
howpublished={https://arxiv.org/abs/2107.07498},
}
ChID
数据描述:
ChID是一个大规模的汉语完形测试数据集,该数据集用于研究汉语中独特的语言现象成语的理解。在这个语料库中,段落中的习语被空白符号取代,以成语完形填空形式实现,文中多处成语被mask,候选项中包含了近义的成语。
数据集构成和规范:
源数据量:
训练集(42),验证集(42),公开测试集(2002),测试集(2000),无标签语料(7585)
评测数据量:
评测数据为源数据公开测试集中的2002个实例
源数据字段:
KEYS | EXPLAIN |
---|---|
id | 数据id |
candidates | 成语候选项 |
content | 文本 |
answer | 正确成语所在位置 |
源数据集样例:
{
"id": 1421,
"candidates": ["巧言令色", "措手不及", "风流人物", "八仙过海", "平铺直叙", "草木皆兵", "言行一致"],
"content": "当广州憾负北控,郭士强黯然退场那一刻,CBA季后赛悬念仿佛一下就消失了,可万万没想到,就在时隔1天后,北控外援约瑟夫-杨因个人裁决案(拖欠上一家经纪公司的费用),导致被禁赛,打了马布里一个#idiom#,加上郭士强带领广州神奇逆转天津,让...",
"answer": 1
}
论文引用:
{FewCLUE,
title={FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark},
author={Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei, Xiang Pan, Xin Tian, Libo Qin, Hu Hai},
year={2021},
howpublished={https://arxiv.org/abs/2107.07498},
}
CLUEWSC
数据描述:
Winograd Scheme Challenge(WSC)是一类代词消歧的任务,即判断句子中的代词指代的是哪个名词。题目以真假判别的方式出现,如:
句子:这时候放在[床]上[枕头]旁边的[手机]响了,我感到奇怪,因为欠费已被停机两个月,现在[它]突然响了。需要判断“它”指代的是“床”、“枕头”,还是“手机”? 数据由CLUE benchmark提供,从中国现当代作家文学作品中抽取,再经语言专家人工挑选、标注。
数据集构成和规范:
源数据量:
训练集(32),验证集(32),公开测试集(976),测试集(290)
评测数据量:
评测数据为源数据公开测试集中的976个实例
数据字段:
KEYS | EXPLAIN |
---|---|
target | 代词和名词分别是什么以及它们在句子中的出现位置 |
idx | 数据id |
label | 真假标签 "true"表示代词确实是指代span1_text中的名词的,"false"代表不是。 |
text | 句子 |
源数据集样例:
{
"target":
{
"span1_index": 5,
"span1_text": "床",
"span2_index": 37,
"span2_text": "它"
},
"idx": 261,
"label": "false",
"text": "这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。"
}
论文引用:
{FewCLUE,
title={FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark},
author={Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei, Xiang Pan, Xin Tian, Libo Qin, Hu Hai},
year={2021},
howpublished={https://arxiv.org/abs/2107.07498},
}
C-SEM
在自然语言处理领域的研究和应用中,语义理解被视为关键基石。然而,当前在中文大语言模型评测领域,仍然比较缺乏从语言学角度出发的公开评测基准。
北京大学与闽江学院作为FlagEval旗舰项目的共建单位,合作构建了 C-SEM(Chinese SEMantic evaluation dataset)语义评测基准数据集。
C-SEM 针对当前大模型的可能存在的缺陷和不足,创新地构造多种层次、多种难度的评测数据, 并参考人类的语言思维习惯,考察模型在理解语义时的“思考”过程。当前开源的 C-SEM v1.0版本共包括四个子评测项,分别从词汇、句子两个级别评测模型的语义理解能力,通用性较强,适用于研究对照。
当前 C-SEM 的子评测项分别为词汇级的语义关系判断(LLSRC)、句子级别的语义关系判断(SLSRC)、词汇的多义理解问题(SLPWC),以及基础修饰知识检测(SLRFC)。后续 C-SEM 评测基准将会持续迭代,覆盖更多语义理解相关知识,形成多层次的语义理解评测体系。同时,FlagEval 大模型评测平台将在第一时间集成最新版本,加强对大语言模型的中文能力评测的全面性。
注:为了确保评测结果公平公正、防范评测集泄露的风险,FlagEval 官网采用的 C-SEM 评测集将保持与开源版本的异步更新。当前FlagEval 采用最新版本相较于开源版本而言,题目数量更多,题目形式更为丰富,并参考HELM工作采用5-shot的形成进行评测。
LLSRC(词汇级别的语义关系判断)
数据描述:
LLSRC(Lexical Level Semantic Relationship Classification)采用选择题的形式,包括关系选择、选词、选词对等,要求模型给出正确的选项,涉及的中文词汇语义关系包括类义、近义、反义、上下位关系。用于评估模型词汇级别的语义关系理解能力。本数据集为未公开的评测数据集。
数据集构成和规范:
数据字段:
KEYS | EXPLAIN |
---|---|
question | 字符串 |
choices | 含有四个选项的列表 |
answer | 正确答案 |
源数据集样例:
{
"question": "花与菊花是什么关系?",
"choices": ["上下位", "整体与部分", "近义", "反义"],
"answer": "A"
}
SLSRC(句子级别的语义关系判断)
数据描述:
SLSRC(Sentence Level Semantic Relationship Classification)采用选择题的形式,通过给出一个句子和指定的词,要求模型根据句中上下文给出正确的语义关系判断,用于评估模型对词汇在句子上下文中的语义理解能力。本数据集为未公开的评测数据集。
数据集构成和规范:
数据字段:
KEYS | EXPLAIN |
---|---|
question | 字符串 |
choices | 含有四个选项的列表 |
answer | 正确答案 |
源数据集样例:
{
"question": "“我最喜欢吃包心菜了。”这句话中“包心菜”与哪个词是同义或近义关系?",
"choices":["大头菜", "茼蒿", "圆白菜", "西兰花"],
"answer":"A"
}
SLPWC(多义词理解)
数据描述:
SLPWC(Sentence Level Polysemous Words Classification)采用选择题的形式,通过给出一个句子和若干候选句子,要求模型根据指定词汇给出正确的语义关系判断,用于评估模型对多义词词汇在句子中的语义理解能力。本数据集为未公开的评测数据集。
数据集构成和规范:
数据字段:
KEYS | EXPLAIN |
---|---|
question | 字符串 |
choices | 含有四个选项的列表 |
answer | 正确答案 |
源数据集样例:
{
"question": "以下哪句话中“泰山”的含义与其他句子意思不同。",
"choices":[
"为人民而死重于泰山。",
"登上泰山顶峰,眺望海上日出。",
"我们都知道,岳父还有一个称呼,叫“老泰山”",
"人固有一死,或重于泰山,或轻于鸿毛。司马迁"],
"answer":"C"
}
SLRFC(修辞手法判断)
数据描述:
SLRFC(Sentence Level Rhetoric Figure Classification)采用选择题的形式,要求模型给出正确的修辞手法判断,主要包括包括比喻、排比、反问、拟人,用于评估模型对多义词词汇在句子中的语义理解能力。本数据集为未公开的评测数据集。
数据集构成和规范:
数据字段:
KEYS | EXPLAIN |
---|---|
question | 字符串 |
choices | 含有四个选项的列表 |
answer | 正确答案 |
源数据集样例:
{
"question": "以下哪个句子使用了比喻修辞手法?",
"choices":[
"友谊是火,在寒风中给你温暖。",
"桃树杏树梨树,你不让我,我不让你,都开满了花赶趟儿",
"成功是什么,是一次考试的优异成绩,成功是什么,是给我们自信的泉源,成功是什么,是经过不懈努力最终达到目的的喜悦……", "月明人静的夜里,它们便唱起歌来,织,织,织,织呀。织,织,织,织呀。那歌声真好听。赛过催眠曲。"],
"answer":"A"
}
GaoKao2023_v2
数据描述:
Gaokao2023_v2 从2023年高考考中整理了364 道客观题(其中生物62道、化学20道、语文12道、英语59道、地理 13道、历史64道、数学66道、物理11道题、政治57道题),排除了特殊符号等干扰因素。
数据集构成和规范:
数据量:
测试集(364)
数据字段:
KEYS | EXPLAIN |
---|---|
question | 问题 |
choices | 包含四个选项的列表 |
answer | 正确选项 |
source | 该问题的试卷来源 |
源数据集样例:
{
"question": "孟子说:“五亩之宅,树之以桑,五十(岁)者可以衣帛矣;鸡豚狗彘之畜,无失其时,七十(岁)者可以食肉矣;百亩之田,勿夺其时,数口之家可以无饥矣。”这一观点所依托的时代背景是",
"choices":[
"休养生息政策的实施",
"井田制度的繁荣",
"农业生产技术的发展",
"商业活动的衰退"],
"answer":"C"
"source":"2023年全国乙卷文综历史高考真题文档版"
}
disturbance-word-masked-lm
disturbance-word-masked-Im
C-Eval
数据描述:
C-Eval是一个综合性、用于基础模型的中文评估数据集。它包含13948个涵盖52个不同学科和4个难度级别的多项选择题。每个学科包括3个部分:开发集、验证集和测试集。开发集包含5个少样本评估的解释示例。验证集用于超参数调优,测试集用于模型评估。
数据集构成和规范:
数据量:
测试集(12342),验证集(1346),开发集(260)
数据字段:
KEYS | EXPLAIN |
---|---|
id | 整数 |
question | 字符串 |
A | 选项A字符串 |
B | 选项B字符串 |
C | 选项C字符串 |
D | 选项D字符串 |
answer | 字符串 |
explanation | 字符串 |
源数据集样例:
id: 1
question: 25 °C时,将pH=2的强酸溶液与pH=13的强碱溶液混合,所得混合液的pH=11,则强酸溶液与强碱溶液 的体积比是(忽略混合后溶液的体积变化)____
A: 11:1
B: 9:1
C: 1:11
D: 1:9
answer: B
explanation:
1. pH=13的强碱溶液中c(OH-)=0.1mol/L, pH=2的强酸溶液中c(H+)=0.01mol/L,酸碱混合后pH=11,即c(OH-)=0.001mol/L。
2. 设强酸和强碱溶液的体积分别为x和y,则:c(OH-)=(0.1y-0.01x)/(x+y)=0.001,解得x:y=9:1。
论文引用:
@inproceedings{huang2023ceval,
title={C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models},
author={Huang, Yuzhen and Bai, Yuzhuo and Zhu, Zhihao and Zhang, Junlei and Zhang, Jinghan and Su, Tangjun and Liu, Junteng and Lv, Chuancheng and Zhang, Yikai and Lei, Jiayi and Fu, Yao and Sun, Maosong and He, Junxian},
booktitle={Advances in Neural Information Processing Systems},
year={2023}
}
数据集版权使用说明:
cc-by-nc-sa 4.0, MIT License