SF评测数据

SNIPS

#准确率-Accuracy, 鲁棒性-Robustness

适配方法

CTC Decoder，上游模型输出的特征经过两层LSTM和一个全连接层的线性分类器中。输入维度与特征向量维度相等，输出维度与槽类型数量相等。

数据描述

SNIPS自然语言理解基准测试是一个包含超过16,000个众包查询的数据集，语种为英语，分布在7个不同复杂性的用户意图中：SearchCreativeWork（例如找一个机器人电视节目），GetWeather（例如，现在马萨诸塞州波士顿刮风吗？），BookRestaurant（例如，我想明天晚上在巴黎预订一家评价很高的餐厅），PlayMusic（例如，在Spotify上播放碧昂斯的最后一首曲目）， AddToPlaylist（例如，将钻石添加到我的公路旅行播放列表），RateBook（例如给老鼠和男人6星），SearchScreeningEvent（例如查看神奇女侠在巴黎的放映时间）。

数据集构成和规范

源数据量

训练集13084条, 验证集700条, 测试集700条。

评测数据量

评测数据量为公开的测试集700条。

源数据字段

KEYS	EXPLAIN
id	数据的MP3文件路径
text	MP3文件对应的文本
label	每个token的槽类型

源数据集样例

{
    "id":"Aditi-snips-test-0",
    "text":"BOS I'D LIKE TO HAVE THIS TRACK ONTO MY CLASSICAL RELAXATIONS PLAYLIST EOS"	
    "label":"O O O O O O music_item O playlist_owner playlist playlist O AddToPlaylist"
}

论文引用

@inproceedings{graves2006connectionist,
title={Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks},
author={Graves, Alex and Fern{'a}ndez, Santiago and Gomez, Faustino and Schmidhuber, J{"u}rgen},
booktitle={Proceedings of the 23rd international conference on Machine learning},
pages={369–376},
year={2006}
}

源数据集版权使用说明

Creative Commons Zero v1.0 Universal

RealTalk-CN

#准确率-Accuracy

适配方法

CTC Decoder，上游模型输出的特征经过两层LSTM和一个全连接层的线性分类器中。输入维度与特征向量维度相等，输出维度与槽类型数量相等。

数据描述

RealTalk-CN 数据集是首个中文多轮、多领域语音-文本双模态任务型对话（Task-Oriented Dialogue, TOD）基准数据集，用于评测语音语言模型（Speech-based LLMs）在真实语音环境下的理解、鲁棒性与跨模态交互能力。

该数据集包含 5.4k 条对话（约 60,000 个话语），共计 150 小时音频。对话均来自真实中文语音录制，覆盖 58 个主题领域、55 种意图类别 与 115 个槽位类型，并显式标注自然语音的 非流畅现象（Disfluency）。

RealTalk-CN 还设计了 跨模态对话任务（Cross-Modal Chat），允许用户在语音与文本输入间动态切换，以模拟真实多模态人机交互场景。

数据集构成和规范

源数据量

集合	子集	样本数	平均话语长度	平均对话轮次
训练集	MD-Col	6,269	27.60	8.54
	MD-Sys	28,363	19.36	7.74
	SD-Col	1,458	25.56	8.23
	SD-Sys	5,848	28.90	7.58
验证集	MD-Col	2,687	27.62	8.54
	MD-Sys	8,728	19.51	7.72
	SD-Col	626	25.00	8.17
	SD-Sys	2,504	20.89	7.75
测试集	MD-Col	3,837	27.42	8.54
	MD-Sys	3,837	19.27	7.73
	SD-Col	892	25.61	8.14
	SD-Sys	892	20.76	7.58

数据集共计 5,400 条对话，划分比例约为 7:2:1。 “MD” 表示 Multi-Domain（多领域）， “SD” 表示 Single-Domain（单领域）； “Col” 表示带有口语特征（Colloquial）， “Sys” 表示系统化文本（System）。

评测数据量

评测数据量为公开测试集，共计约 9,458 条样本（含 MD-Col、MD-Sys、SD-Col、SD-Sys 四类）。

源数据字段

KEYS	EXPLAIN
id	数据样本唯一编号
audio_file	音频文件路径
text	语音转录文本
original_data.对话ID	对话唯一标识
original_data.roleID	角色 ID（1=用户, 2=系统）
original_data.性别	说话人性别
original_data.年龄	说话人年龄
original_data.籍贯	说话人籍贯信息
original_data.topicName	对话主题（如“天气、美食、旅游”）
original_data.context	上下文轮次内容
original_data.文本content	当前语句文本内容
original_data.意图	对应意图编号
original_data.槽类型	槽位类型编码
original_data.生成式标签	生成式标签描述（带槽位填充）
original_data.槽值字典	槽位类型及对应值的字典
original_data.choices	候选意图列表
original_data.hdTimeStart / hdTimeEnd	音频起止时间（秒）

源数据集样例

{
  "id": "G40032S1017_3",
  "audio_file": "Spoken3MC/wavs/G40032/G40032S1017.wav",
  "text": "提供定位",
  "original_data": {
    "对话ID": "G40032S1017",
    "roleID": 2,
    "性别": "男",
    "年龄": 21.0,
    "籍贯": "安徽合肥",
    "topicName": "天气，美食，旅游",
    "context": [
      {
        "roleID": 1,
        "text": "帮我推荐两天的美食旅行。",
        "hdTimeStart": 0.055,
        "hdTimeEnd": 2.645,
        "性别": "男",
        "年龄": 21.0,
        "籍贯": "河南信阳"
      },
      {
        "roleID": 2,
        "text": "那您可以考虑去黑龙江国家森林公园雪乡，那里有你想看的雪景，美食以东北农家菜为主。",
        "hdTimeStart": 9.790,
        "hdTimeEnd": 16.500,
        "性别": "男",
        "年龄": 21.0,
        "籍贯": "安徽合肥"
      }
    ],
    "文本content": "雪乡的地理位置位于黑龙江省⁇牡丹江市。",
    "意图": 24,
    "槽类型": "58 58 0 0 0 0 0 0 0 88 88 88 88 0 32 32 32 32 0",
    "生成式标签": "提供定位(旅游景点=雪乡, 省份=黑龙江省, 城市=牡丹江市)",
    "槽值字典": {
      "旅游景点": ["雪乡"],
      "省份": ["黑龙江省"],
      "城市": ["牡丹江市"]
    },
    "choices": "['介绍作品','介绍历史','提供定位','推荐景点','询问天气','询问路线']",
    "hdTimeStart": 54.795,
    "hdTimeEnd": 58.365
  }
}

论文引用

@article{wang2025realtalkcn,
  title={RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis},
  author={Wang, Enzhi and Li, Qicheng and Zhao, Shiwan and Kong, Aobo and Zhou, Jiaming and Yang, Xi and Wang, Yequan and Lin, Yonghua and Qin, Yong},
  journal={arXiv preprint arXiv:2508.10015},
  year={2025}
}

源数据集版权使用说明

CC BY-NC-SA 4.0 license 详情参见 RealTalk-CN 官方页面。

SF评测数据 ​

SNIPS ​

适配方法 ​

数据描述 ​

数据集构成和规范 ​

源数据量 ​

评测数据量 ​

源数据字段 ​

源数据集样例 ​

论文引用 ​

源数据集版权使用说明 ​

RealTalk-CN ​

适配方法 ​

数据描述 ​

数据集构成和规范 ​

源数据量 ​

评测数据量 ​

源数据字段 ​

源数据集样例 ​

论文引用 ​

源数据集版权使用说明 ​

SF评测数据

SNIPS

适配方法

数据描述

数据集构成和规范

源数据量

评测数据量

源数据字段

源数据集样例

论文引用

源数据集版权使用说明

RealTalk-CN

适配方法

数据描述

数据集构成和规范

源数据量

评测数据量

源数据字段

源数据集样例

论文引用

源数据集版权使用说明