评测数据

以下数据集均转化为标准评测Prompt再进行评测

EPRSTMT

#评测指标-Exact Match

数据描述：

EPRSTMT是一个电商产品评论情感分析数据集（ E-commerce Product Review Dataset for Sentiment Analysis）

数据集构成和规范：

源数据量：

训练集（32），验证集（32），公开测试集（610），测试集（753），无标签语料（19565）

评测数据量：

评测数据为源数据中的公开测试集(610)

数据字段：

KEYS	EXPLAIN
id	数据在该json文件的id
sentence	句子
label	标签，Positive 表示正向，Negative 表示负向

源数据集样例：

{
  "id": 23,
  "sentence": "外包装上有点磨损，试听后感觉不错", 
  "label": "Positive"
}

论文引用：

{FewCLUE,
  title={FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark},
  author={Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei, Xiang Pan, Xin Tian, Libo Qin, Hu Hai},
  year={2021},
  howpublished={https://arxiv.org/abs/2107.07498},
}

TNEWS

#评测指标-Exact Match

数据描述：

TNEWS 今日头条中文新闻（短文本）分类数据集（Toutiao Short Text Classificaiton for News），该数据集来自今日头条的新闻版块，共提取了15个类别的新闻，包括旅游、教育、金融、军事等。

数据集构成和规范：

源数据量：

训练集（240），验证集（240），公开测试集（2010），测试集（1500），无标签语料（20000）

采样数据量：

评测数据为源数据中的公开测试集中的2010个实例

数据字段：

KEYS	EXPLAIN
label	分类ID
label_des	分类名称
setence	新闻字符串（仅含标题）

源数据集样例：

{
  "label": "102", 
  "label_des": "news_entertainment", 
  "sentence": "江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物"
}

论文引用：

{FewCLUE,
  title={FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark},
  author={Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei, Xiang Pan, Xin Tian, Libo Qin, Hu Hai},
  year={2021},
  howpublished={\url{https://arxiv.org/abs/2107.07498}},
}

OCNLI

#评测指标-Exact Match

数据描述：

OCNLI，即原生中文自然语言推理数据集，是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。 OCNLI包含5万余训练数据，3千验证数据及3千测试数据。除测试数据外，我们将提供数据及标签。测试数据仅提供数据。OCNLI为中文语言理解基准测评（CLUE）的一部分。

数据集构成和规范：

源数据量：

训练集（32），验证集（32），公开测试集（2520），测试集（3000），无标签语料（20000）

采样数据量:

评测数据为为源数据公开测试集中的2520个实例

数据字段：

KEYS	EXPLAIN
level	【难度】: `easy`, `medium`, `hard`分别代表标注人员为某一标签（如entailment）写的第一、第二、第三个假设。
sentence1	【句子1】，即前提
sentence2	【句子2】，即假设
label	【标签】，即标签0 -- 标签4的majority vote。如果标签为'-'，则此数据应除去
label0 -- label4	【5个标签】，验证集与测试集的数据均有5个标签。训练集仅部分数据有5个标签。
genre	【文本类别】，共5类：政府公报、新闻、文学、电视谈话节目、电话转写。
prem_id	【前提编号】
id	【总编号】

源数据集样例：

{
  "level":"medium",
  "sentence1":"身上裹一件工厂发的棉大衣,手插在袖筒里",
  "sentence2":"身上至少一件衣服",
  "label":"entailment",
  "label0":"entailment",
  "label1":"entailment",
  "label2":"entailment",
  "label3":"entailment",
  "label4":"entailment",
  "genre":"lit",
  "prem_id":"lit_635",
  "id":0
}

论文引用：

@inproceedings{ocnli,
	title={OCNLI: Original Chinese Natural Language Inference},
	author={Hai Hu and Kyle Richardson and Liang Xu and Lu Li and Sandra Kuebler and Larry Moss},
	booktitle={Findings of EMNLP},
	year={2020},
	url={https://arxiv.org/abs/2010.05444}
}

数据集版权使用说明：

•署名-非商业性2.0通用(CC BY-NC 2.0) •新闻类型的前提从LCMC语料库(ISLRN ID: 990-638-120- 227 -2, ELRA参考:ELRA- w0039)中采样，并获得ELRA的许可。

BUSTM

#评测指标-Exact Match

数据描述：

对话短文本语义匹配数据集，源于小布助手。它是OPPO为品牌手机和IoT设备自研的语音助手，为用户提供便捷对话式服务。意图识别是对话系统中的一个核心任务，而对话短文本语义匹配是意图识别的主流算法方案之一。要求根据短文本query-pair，预测它们是否属于同一语义。

数据集构成和规范：

源数据量：

训练集（32），验证集（32），公开测试集（1772），测试集（2000），无标签语料（4251）

采样数据量:

评测数据为源数据公开测试集中的1772个实例

数据字段：

KEYS	EXPLAIN
id	数据id
sentence1	句子1
sentence2	句子2
label	真假标签，“1”表示两个句子属于同一语义，“0”表示不是

源数据集样例：

{
  "id": 5,
  "sentence1": "女孩子到底是不是你",
  "sentence2": "你不是女孩子吗",
  "label": "1"
}

论文引用：

{FewCLUE,
  title={FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark},
  author={Liang Xu, Xiaojing Lu, Chenyang Yuan, Xuanwei Zhang, Huilin Xu, Hu Yuan, Guoao Wei, Xiang Pan, Xin Tian, Libo Qin, Hu Hai},
  year={2021},
  howpublished={\url{https://arxiv.org/abs/2107.07498}},
}

C-FCT(CiteCheck)

评测指标：

为了评测模型在处理正负样本时的性能表现以及任务上的总体性能表现，使用如下评测指标：

准确率（Accuracy）：正确预测数与总预测数的比值。

正样本准确率（Accuracy-p）：正确预测的正样本数与总正样本数的比值。

负样本准确率（Accuracy-n）：正确预测的负样本数与总负样本数的比值。

数据描述

CiteCheck数据集包含3000条中文样本，每个样本包含以下字段：

问题：输入到RAG系统的问题
回答：RAG系统根据检索文档生成的回答
陈述：从回答中抽取的带有引用的语句
文档：被引用的参考文本
标签：1表示陈述完全得到文档支撑，0表示不完全支撑

数据集特点：

平衡分布：正负样本各1500条
引用验证：每个陈述对应1~5篇引用文档
严格标注：完全支撑才标记为1

适配方法

采用基于prompt的zero-shot方法：判断陈述是否完全得到参考文本的支撑。陈述：{statement} 参考文本：{quote} 答案（仅输出一个字，是或否）：

text

预测规则：

仅输出"是" → 预测为正(1)
仅输出"否" → 预测为负(0)
其他输出 → 视为无效预测

数据集构成和规范

数据量

总样本量：3000条

数据字段

字段名	说明
query	输入问题
answer	RAG系统回答
statement	抽取的陈述
quote	引用文档
label	支撑性标签(0/1)

源数据集样例

json

{
  "query": "特斯拉在中国的纯电动汽车销量占比是多少？",
  "answer": "特斯拉在2023年上半年纯电动汽车市场的占有率为21.7%。",
  "statement": "特斯拉在2023年上半年纯电动汽车市场的占有率为21.7%。",
  "quote": "[1] 【2023上半年 全球纯电动汽车销量出炉...",
  "label": 1
}
{
  "query": "海信40E2F有几个USB接口？",
  "answer": "海信40E2F有2个USB接口...",
  "statement": "这款电视的USB接口位于机身的侧面...",
  "quote": "[1] 参考价: ￥1299...",
  "label": 0
}

论文引用

bibtex

@misc{xu2025citecheckaccuratecitationfaithfulness,
  title={CiteCheck: Towards Accurate Citation Faithfulness Detection}, 
  author={Ziyao Xu and Shaohang Wei and Zhuoheng Han and Jing Jin and Zhe Yang and Xiaoguang Li and Haochen Tan and Zhijiang Guo and Houfeng Wang},
  year={2025},
  eprint={2502.10881},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2502.10881}
}

源数据集版权使用说明

MIT License

评测数据 ​

EPRSTMT ​

数据描述： ​

数据集构成和规范： ​

源数据量： ​

评测数据量： ​

数据字段： ​

源数据集样例： ​

论文引用： ​

TNEWS ​

数据描述： ​

数据集构成和规范： ​

源数据量： ​

采样数据量： ​

数据字段： ​

源数据集样例： ​

论文引用： ​

OCNLI ​

数据描述： ​

数据集构成和规范： ​

源数据量： ​

采样数据量: ​

数据字段： ​

源数据集样例： ​

论文引用： ​

数据集版权使用说明： ​

BUSTM ​

数据描述： ​

数据集构成和规范： ​

源数据量： ​

采样数据量: ​

数据字段： ​

源数据集样例： ​

论文引用： ​

C-FCT(CiteCheck) ​

评测指标： ​

数据描述 ​

适配方法 ​

数据集构成和规范 ​

数据量 ​

数据字段 ​

源数据集样例 ​

论文引用 ​

源数据集版权使用说明 ​

评测数据

EPRSTMT

数据描述：

数据集构成和规范：

源数据量：

评测数据量：

数据字段：

源数据集样例：

论文引用：

TNEWS

数据描述：

数据集构成和规范：

源数据量：

采样数据量：

数据字段：

源数据集样例：

论文引用：

OCNLI

数据描述：

数据集构成和规范：

源数据量：

采样数据量:

数据字段：

源数据集样例：

论文引用：

数据集版权使用说明：

BUSTM

数据描述：

数据集构成和规范：

源数据量：

采样数据量:

数据字段：

源数据集样例：

论文引用：

C-FCT(CiteCheck)

评测指标：

数据描述

适配方法

数据集构成和规范

数据量

数据字段

源数据集样例

论文引用

源数据集版权使用说明