Skip to content

评测数据

以下数据集均转化为标准评测Prompt再进行评测

EPRSTMT

#评测指标-Exact Match

数据描述:

EPRSTMT是一个电商产品评论情感分析数据集( E-commerce Product Review Dataset for Sentiment Analysis)

数据集构成和规范:

源数据量:

训练集(32),验证集(32),公开测试集(610),测试集(753),无标签语料(19565)

评测数据量:

评测数据为源数据中的公开测试集(610)

数据字段:

KEYSEXPLAIN
id数据在该json文件的id
sentence句子
label标签,Positive 表示正向,Negative 表示负向

源数据集样例:

{
  "id": 23,
  "sentence": "外包装上有点磨损,试听后感觉不错", 
  "label": "Positive"
}

论文引用:

{FewCLUE,
  title={FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark},
  author={Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei, Xiang Pan, Xin Tian, Libo Qin, Hu Hai},
  year={2021},
  howpublished={https://arxiv.org/abs/2107.07498},
}

TNEWS

#评测指标-Exact Match

数据描述:

TNEWS 今日头条中文新闻(短文本)分类数据集 (Toutiao Short Text Classificaiton for News), 该数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游、教育、金融、军事等。

数据集构成和规范:

源数据量:

训练集(240),验证集(240),公开测试集(2010),测试集(1500),无标签语料(20000)

采样数据量:

评测数据为源数据中的公开测试集中的2010个实例

数据字段:

KEYSEXPLAIN
label分类ID
label_des分类名称
setence新闻字符串(仅含标题)

源数据集样例:

{
  "label": "102", 
  "label_des": "news_entertainment", 
  "sentence": "江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物"
}

论文引用:

{FewCLUE,
  title={FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark},
  author={Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei, Xiang Pan, Xin Tian, Libo Qin, Hu Hai},
  year={2021},
  howpublished={\url{https://arxiv.org/abs/2107.07498}},
}

OCNLI

#评测指标-Exact Match

数据描述:

OCNLI,即原生中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。 OCNLI包含5万余训练数据,3千验证数据及3千测试数据。除测试数据外,我们将提供数据及标签。测试数据仅提供数据。OCNLI为中文语言理解基准测评(CLUE)的一部分。

数据集构成和规范:

源数据量:

训练集(32),验证集(32),公开测试集(2520),测试集(3000),无标签语料(20000)

采样数据量:

评测数据为为源数据公开测试集中的2520个实例

数据字段:

KEYSEXPLAIN
level【难度】: easy, medium, hard分别代表标注人员为某一标签(如entailment)写的第一、第二、第三个假设。
sentence1【句子1】,即前提
sentence2【句子2】,即假设
label【标签】,即标签0 -- 标签4的majority vote。如果标签为'-',则此数据应除去
label0 -- label4【5个标签】,验证集与测试集的数据均有5个标签。训练集仅部分数据有5个标签。
genre【文本类别】,共5类:政府公报、新闻、文学、电视谈话节目、电话转写。
prem_id【前提编号】
id【总编号】

源数据集样例:

{
  "level":"medium",
  "sentence1":"身上裹一件工厂发的棉大衣,手插在袖筒里",
  "sentence2":"身上至少一件衣服",
  "label":"entailment",
  "label0":"entailment",
  "label1":"entailment",
  "label2":"entailment",
  "label3":"entailment",
  "label4":"entailment",
  "genre":"lit",
  "prem_id":"lit_635",
  "id":0
}

论文引用:

@inproceedings{ocnli,
	title={OCNLI: Original Chinese Natural Language Inference},
	author={Hai Hu and Kyle Richardson and Liang Xu and Lu Li and Sandra Kuebler and Larry Moss},
	booktitle={Findings of EMNLP},
	year={2020},
	url={https://arxiv.org/abs/2010.05444}
}

数据集版权使用说明:

•署名-非商业性2.0通用(CC BY-NC 2.0) •新闻类型的前提从LCMC语料库(ISLRN ID: 990-638-120- 227 -2, ELRA参考:ELRA- w0039)中采样,并获得ELRA的许可。

BUSTM

#评测指标-Exact Match

数据描述:

对话短文本语义匹配数据集,源于小布助手。它是OPPO为品牌手机和IoT设备自研的语音助手,为用户提供便捷对话式服务。 意图识别是对话系统中的一个核心任务,而对话短文本语义匹配是意图识别的主流算法方案之一。要求根据短文本query-pair,预测它们是否属于同一语义。

数据集构成和规范:

源数据量:

训练集(32),验证集(32),公开测试集(1772),测试集(2000),无标签语料(4251)

采样数据量:

评测数据为源数据公开测试集中的1772个实例

数据字段:

KEYSEXPLAIN
id数据id
sentence1句子1
sentence2句子2
label真假标签,“1”表示两个句子属于同一语义,“0”表示不是

源数据集样例:

{
  "id": 5,
  "sentence1": "女孩子到底是不是你",
  "sentence2": "你不是女孩子吗",
  "label": "1"
}

论文引用:

{FewCLUE,
  title={FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark},
  author={Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei, Xiang Pan, Xin Tian, Libo Qin, Hu Hai},
  year={2021},
  howpublished={\url{https://arxiv.org/abs/2107.07498}},
}