评测数据
以下数据集均转化为标准评测Prompt再进行评测
EPRSTMT
数据描述:
EPRSTMT是一个电商产品评论情感分析数据集( E-commerce Product Review Dataset for Sentiment Analysis)
数据集构成和规范:
源数据量:
训练集(32),验证集(32),公开测试集(610),测试集(753),无标签语料(19565)
评测数据量:
评测数据为源数据中的公开测试集(610)
数据字段:
KEYS | EXPLAIN |
---|---|
id | 数据在该json文件的id |
sentence | 句子 |
label | 标签,Positive 表示正向,Negative 表示负向 |
源数据集样例:
{
"id": 23,
"sentence": "外包装上有点磨损,试听后感觉不错",
"label": "Positive"
}
论文引用:
{FewCLUE,
title={FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark},
author={Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei, Xiang Pan, Xin Tian, Libo Qin, Hu Hai},
year={2021},
howpublished={https://arxiv.org/abs/2107.07498},
}
TNEWS
数据描述:
TNEWS 今日头条中文新闻(短文本)分类数据集 (Toutiao Short Text Classificaiton for News), 该数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游、教育、金融、军事等。
数据集构成和规范:
源数据量:
训练集(240),验证集(240),公开测试集(2010),测试集(1500),无标签语料(20000)
采样数据量:
评测数据为源数据中的公开测试集中的2010个实例
数据字段:
KEYS | EXPLAIN |
---|---|
label | 分类ID |
label_des | 分类名称 |
setence | 新闻字符串(仅含标题) |
源数据集样例:
{
"label": "102",
"label_des": "news_entertainment",
"sentence": "江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物"
}
论文引用:
{FewCLUE,
title={FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark},
author={Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei, Xiang Pan, Xin Tian, Libo Qin, Hu Hai},
year={2021},
howpublished={\url{https://arxiv.org/abs/2107.07498}},
}
OCNLI
数据描述:
OCNLI,即原生中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。 OCNLI包含5万余训练数据,3千验证数据及3千测试数据。除测试数据外,我们将提供数据及标签。测试数据仅提供数据。OCNLI为中文语言理解基准测评(CLUE)的一部分。
数据集构成和规范:
源数据量:
训练集(32),验证集(32),公开测试集(2520),测试集(3000),无标签语料(20000)
采样数据量:
评测数据为为源数据公开测试集中的2520个实例
数据字段:
KEYS | EXPLAIN |
---|---|
level | 【难度】: easy , medium , hard 分别代表标注人员为某一标签(如entailment)写的第一、第二、第三个假设。 |
sentence1 | 【句子1】,即前提 |
sentence2 | 【句子2】,即假设 |
label | 【标签】,即标签0 -- 标签4的majority vote。如果标签为'-',则此数据应除去 |
label0 -- label4 | 【5个标签】,验证集与测试集的数据均有5个标签。训练集仅部分数据有5个标签。 |
genre | 【文本类别】,共5类:政府公报、新闻、文学、电视谈话节目、电话转写。 |
prem_id | 【前提编号】 |
id | 【总编号】 |
源数据集样例:
{
"level":"medium",
"sentence1":"身上裹一件工厂发的棉大衣,手插在袖筒里",
"sentence2":"身上至少一件衣服",
"label":"entailment",
"label0":"entailment",
"label1":"entailment",
"label2":"entailment",
"label3":"entailment",
"label4":"entailment",
"genre":"lit",
"prem_id":"lit_635",
"id":0
}
论文引用:
@inproceedings{ocnli,
title={OCNLI: Original Chinese Natural Language Inference},
author={Hai Hu and Kyle Richardson and Liang Xu and Lu Li and Sandra Kuebler and Larry Moss},
booktitle={Findings of EMNLP},
year={2020},
url={https://arxiv.org/abs/2010.05444}
}
数据集版权使用说明:
•署名-非商业性2.0通用(CC BY-NC 2.0) •新闻类型的前提从LCMC语料库(ISLRN ID: 990-638-120- 227 -2, ELRA参考:ELRA- w0039)中采样,并获得ELRA的许可。
BUSTM
数据描述:
对话短文本语义匹配数据集,源于小布助手。它是OPPO为品牌手机和IoT设备自研的语音助手,为用户提供便捷对话式服务。 意图识别是对话系统中的一个核心任务,而对话短文本语义匹配是意图识别的主流算法方案之一。要求根据短文本query-pair,预测它们是否属于同一语义。
数据集构成和规范:
源数据量:
训练集(32),验证集(32),公开测试集(1772),测试集(2000),无标签语料(4251)
采样数据量:
评测数据为源数据公开测试集中的1772个实例
数据字段:
KEYS | EXPLAIN |
---|---|
id | 数据id |
sentence1 | 句子1 |
sentence2 | 句子2 |
label | 真假标签,“1”表示两个句子属于同一语义,“0”表示不是 |
源数据集样例:
{
"id": 5,
"sentence1": "女孩子到底是不是你",
"sentence2": "你不是女孩子吗",
"label": "1"
}
论文引用:
{FewCLUE,
title={FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark},
author={Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei, Xiang Pan, Xin Tian, Libo Qin, Hu Hai},
year={2021},
howpublished={\url{https://arxiv.org/abs/2107.07498}},
}