SF评测数据
SNIPS
#准确率-Accuracy, 鲁棒性-Robustness
适配方法:
CTC Decoder,上游模型输出的特征经过两层LSTM和一个全连接层的线性分类器中。输入维度与特征向量维度相等,输出维度与槽类型数量相等。
相关论文引用:
@inproceedings{graves2006connectionist,
title={Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks},
author={Graves, Alex and Fern{'a}ndez, Santiago and Gomez, Faustino and Schmidhuber, J{"u}rgen},
booktitle={Proceedings of the 23rd international conference on Machine learning},
pages={369–376},
year={2006}
}
数据描述:
SNIPS自然语言理解基准测试是一个包含超过16,000个众包查询的数据集,语种为英语,分布在7个不同复杂性的用户意图中:SearchCreativeWork(例如找一个机器人电视节目),GetWeather(例如,现在马萨诸塞州波士顿刮风吗?),BookRestaurant(例如,我想明天晚上在巴黎预订一家评价很高的餐厅),PlayMusic(例如,在Spotify上播放碧昂斯的最后一首曲目), AddToPlaylist(例如,将钻石添加到我的公路旅行播放列表),RateBook(例如给老鼠和男人6星),SearchScreeningEvent(例如查看神奇女侠在巴黎的放映时间)。
数据集构成和规范:
源数据量:
训练集13084条, 验证集700条, 测试集700条。
评测数据量:
评测数据量为公开的测试集700条。
源数据字段:
KEYS | EXPLAIN |
---|---|
id | 数据的MP3文件路径 |
text | MP3文件对应的文本 |
label | 每个token的槽类型 |
源数据集样例:
{
"id":"Aditi-snips-test-0",
"text":"BOS I'D LIKE TO HAVE THIS TRACK ONTO MY CLASSICAL RELAXATIONS PLAYLIST EOS"
"label":"O O O O O O music_item O playlist_owner playlist playlist O AddToPlaylist"
}
论文引用:
@article{coucke2018snips, title={Snips voice platform: an embedded spoken language understanding system for private-by-design voice interfaces}, author={Coucke, Alice and Saade, Alaa and Ball, Adrien and Bluche, Th{\'e}odore and Caulier, Alexandre and Leroy, > David and Doumouro, Cl{\'e}ment and Gisselbrecht, Thibault and Caltagirone, Francesco and Lavril, Thibaut and others}, journal={arXiv preprint arXiv:1805.10190}, year={2018} } ```
源数据集版权使用说明:
Creative Commons Zero v1.0 Universal
RealTalk-CN
#准确率-Accuracy
适配方法:
CTC Decoder,上游模型输出的特征经过两层LSTM和一个全连接层的线性分类器中。输入维度与特征向量维度相等,输出维度与槽类型数量相等。
数据描述:
RealTalk-CN 数据集是首个中文多轮、多领域语音-文本双模态任务型对话(Task-Oriented Dialogue, TOD)基准数据集,用于评测语音语言模型(Speech-based LLMs)在真实语音环境下的理解、鲁棒性与跨模态交互能力。
该数据集包含 5.4k 条对话(约 60,000 个话语),共计 150 小时音频。对话均来自真实中文语音录制,覆盖 58 个主题领域、55 种意图类别 与 115 个槽位类型,并显式标注自然语音的 非流畅现象(Disfluency)。
RealTalk-CN 还设计了 跨模态对话任务(Cross-Modal Chat),允许用户在语音与文本输入间动态切换,以模拟真实多模态人机交互场景。
数据集构成和规范:
源数据量:
集合 | 子集 | 样本数 | 平均话语长度 | 平均对话轮次 |
---|---|---|---|---|
训练集 | MD-Col | 6,269 | 27.60 | 8.54 |
MD-Sys | 28,363 | 19.36 | 7.74 | |
SD-Col | 1,458 | 25.56 | 8.23 | |
SD-Sys | 5,848 | 28.90 | 7.58 | |
验证集 | MD-Col | 2,687 | 27.62 | 8.54 |
MD-Sys | 8,728 | 19.51 | 7.72 | |
SD-Col | 626 | 25.00 | 8.17 | |
SD-Sys | 2,504 | 20.89 | 7.75 | |
测试集 | MD-Col | 3,837 | 27.42 | 8.54 |
MD-Sys | 3,837 | 19.27 | 7.73 | |
SD-Col | 892 | 25.61 | 8.14 | |
SD-Sys | 892 | 20.76 | 7.58 |
数据集共计 5,400 条对话,划分比例约为 7:2:1。 “MD” 表示 Multi-Domain(多领域), “SD” 表示 Single-Domain(单领域); “Col” 表示带有口语特征(Colloquial), “Sys” 表示系统化文本(System)。
评测数据量:
评测数据量为公开测试集,共计约 9,458 条样本(含 MD-Col、MD-Sys、SD-Col、SD-Sys 四类)。
源数据字段:
KEYS | EXPLAIN |
---|---|
id | 数据样本唯一编号 |
audio_file | 音频文件路径 |
text | 语音转录文本 |
original_data.对话ID | 对话唯一标识 |
original_data.roleID | 角色 ID(1=用户, 2=系统) |
original_data.性别 | 说话人性别 |
original_data.年龄 | 说话人年龄 |
original_data.籍贯 | 说话人籍贯信息 |
original_data.topicName | 对话主题(如“天气、美食、旅游”) |
original_data.context | 上下文轮次内容 |
original_data.文本content | 当前语句文本内容 |
original_data.意图 | 对应意图编号 |
original_data.槽类型 | 槽位类型编码 |
original_data.生成式标签 | 生成式标签描述(带槽位填充) |
original_data.槽值字典 | 槽位类型及对应值的字典 |
original_data.choices | 候选意图列表 |
original_data.hdTimeStart / hdTimeEnd | 音频起止时间(秒) |
源数据集样例:
{
"id": "G40032S1017_3",
"audio_file": "Spoken3MC/wavs/G40032/G40032S1017.wav",
"text": "提供定位",
"original_data": {
"对话ID": "G40032S1017",
"roleID": 2,
"性别": "男",
"年龄": 21.0,
"籍贯": "安徽合肥",
"topicName": "天气,美食,旅游",
"context": [
{
"roleID": 1,
"text": "帮我推荐两天的美食旅行。",
"hdTimeStart": 0.055,
"hdTimeEnd": 2.645,
"性别": "男",
"年龄": 21.0,
"籍贯": "河南信阳"
},
{
"roleID": 2,
"text": "那您可以考虑去黑龙江国家森林公园雪乡,那里有你想看的雪景,美食以东北农家菜为主。",
"hdTimeStart": 9.790,
"hdTimeEnd": 16.500,
"性别": "男",
"年龄": 21.0,
"籍贯": "安徽合肥"
}
],
"文本content": "雪乡的地理位置位于黑龙江省⁇牡丹江市。",
"意图": 24,
"槽类型": "58 58 0 0 0 0 0 0 0 88 88 88 88 0 32 32 32 32 0",
"生成式标签": "提供定位(旅游景点=雪乡, 省份=黑龙江省, 城市=牡丹江市)",
"槽值字典": {
"旅游景点": ["雪乡"],
"省份": ["黑龙江省"],
"城市": ["牡丹江市"]
},
"choices": "['介绍作品','介绍历史','提供定位','推荐景点','询问天气','询问路线']",
"hdTimeStart": 54.795,
"hdTimeEnd": 58.365
}
}
论文引用:
@article{wang2025realtalkcn, title={RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis}, author={Wang, Enzhi and Li, Qicheng and Zhao, Shiwan and Kong, Aobo and Zhou, Jiaming and Yang, Xi and Wang, Yequan and Lin, Yonghua and Qin, Yong}, journal={arXiv preprint arXiv:2508.10015}, year={2025} }
源数据集版权使用说明:
CC BY-NC-SA 4.0 license 详情参见 RealTalk-CN 官方页面。