Skip to content

SF评测数据

SNIPS

#准确率-Accuracy, 鲁棒性-Robustness

适配方法:

CTC Decoder,上游模型输出的特征经过两层LSTM和一个全连接层的线性分类器中。输入维度与特征向量维度相等,输出维度与槽类型数量相等。

相关论文引用:

@inproceedings{graves2006connectionist,
title={Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks},
author={Graves, Alex and Fern{'a}ndez, Santiago and Gomez, Faustino and Schmidhuber, J{"u}rgen},
booktitle={Proceedings of the 23rd international conference on Machine learning},
pages={369–376},
year={2006}
}

数据描述:

SNIPS自然语言理解基准测试是一个包含超过16,000个众包查询的数据集,语种为英语,分布在7个不同复杂性的用户意图中:SearchCreativeWork(例如找一个机器人电视节目),GetWeather(例如,现在马萨诸塞州波士顿刮风吗?),BookRestaurant(例如,我想明天晚上在巴黎预订一家评价很高的餐厅),PlayMusic(例如,在Spotify上播放碧昂斯的最后一首曲目), AddToPlaylist(例如,将钻石添加到我的公路旅行播放列表),RateBook(例如给老鼠和男人6星),SearchScreeningEvent(例如查看神奇女侠在巴黎的放映时间)。

数据集构成和规范:

源数据量:

训练集13084条, 验证集700条, 测试集700条。

评测数据量:

评测数据量为公开的测试集700条。

源数据字段:

KEYSEXPLAIN
id数据的MP3文件路径
textMP3文件对应的文本
label每个token的槽类型

源数据集样例:

{
    "id":"Aditi-snips-test-0",
    "text":"BOS I'D LIKE TO HAVE THIS TRACK ONTO MY CLASSICAL RELAXATIONS PLAYLIST EOS"	
    "label":"O O O O O O music_item O playlist_owner playlist playlist O AddToPlaylist"
}

论文引用:

@article{coucke2018snips,
  title={Snips voice platform: an embedded spoken language understanding system for private-by-design voice interfaces},
  author={Coucke, Alice and Saade, Alaa and Ball, Adrien and Bluche, Th{\'e}odore and Caulier, Alexandre and Leroy, >   David and Doumouro, Cl{\'e}ment and Gisselbrecht, Thibault and Caltagirone, Francesco and Lavril, Thibaut and others},
  journal={arXiv preprint arXiv:1805.10190},
  year={2018}
  }
  ```

源数据集版权使用说明:

Creative Commons Zero v1.0 Universal

RealTalk-CN

#准确率-Accuracy

适配方法:

CTC Decoder,上游模型输出的特征经过两层LSTM和一个全连接层的线性分类器中。输入维度与特征向量维度相等,输出维度与槽类型数量相等。

数据描述:

RealTalk-CN 数据集是首个中文多轮、多领域语音-文本双模态任务型对话(Task-Oriented Dialogue, TOD)基准数据集,用于评测语音语言模型(Speech-based LLMs)在真实语音环境下的理解、鲁棒性与跨模态交互能力。

该数据集包含 5.4k 条对话(约 60,000 个话语),共计 150 小时音频。对话均来自真实中文语音录制,覆盖 58 个主题领域55 种意图类别115 个槽位类型,并显式标注自然语音的 非流畅现象(Disfluency)

RealTalk-CN 还设计了 跨模态对话任务(Cross-Modal Chat),允许用户在语音与文本输入间动态切换,以模拟真实多模态人机交互场景。

数据集构成和规范:

源数据量:

集合子集样本数平均话语长度平均对话轮次
训练集MD-Col6,26927.608.54
MD-Sys28,36319.367.74
SD-Col1,45825.568.23
SD-Sys5,84828.907.58
验证集MD-Col2,68727.628.54
MD-Sys8,72819.517.72
SD-Col62625.008.17
SD-Sys2,50420.897.75
测试集MD-Col3,83727.428.54
MD-Sys3,83719.277.73
SD-Col89225.618.14
SD-Sys89220.767.58

数据集共计 5,400 条对话,划分比例约为 7:2:1。 “MD” 表示 Multi-Domain(多领域), “SD” 表示 Single-Domain(单领域); “Col” 表示带有口语特征(Colloquial), “Sys” 表示系统化文本(System)。

评测数据量:

评测数据量为公开测试集,共计约 9,458 条样本(含 MD-Col、MD-Sys、SD-Col、SD-Sys 四类)。

源数据字段:

KEYSEXPLAIN
id数据样本唯一编号
audio_file音频文件路径
text语音转录文本
original_data.对话ID对话唯一标识
original_data.roleID角色 ID(1=用户, 2=系统)
original_data.性别说话人性别
original_data.年龄说话人年龄
original_data.籍贯说话人籍贯信息
original_data.topicName对话主题(如“天气、美食、旅游”)
original_data.context上下文轮次内容
original_data.文本content当前语句文本内容
original_data.意图对应意图编号
original_data.槽类型槽位类型编码
original_data.生成式标签生成式标签描述(带槽位填充)
original_data.槽值字典槽位类型及对应值的字典
original_data.choices候选意图列表
original_data.hdTimeStart / hdTimeEnd音频起止时间(秒)

源数据集样例:

{
  "id": "G40032S1017_3",
  "audio_file": "Spoken3MC/wavs/G40032/G40032S1017.wav",
  "text": "提供定位",
  "original_data": {
    "对话ID": "G40032S1017",
    "roleID": 2,
    "性别": "男",
    "年龄": 21.0,
    "籍贯": "安徽合肥",
    "topicName": "天气,美食,旅游",
    "context": [
      {
        "roleID": 1,
        "text": "帮我推荐两天的美食旅行。",
        "hdTimeStart": 0.055,
        "hdTimeEnd": 2.645,
        "性别": "男",
        "年龄": 21.0,
        "籍贯": "河南信阳"
      },
      {
        "roleID": 2,
        "text": "那您可以考虑去黑龙江国家森林公园雪乡,那里有你想看的雪景,美食以东北农家菜为主。",
        "hdTimeStart": 9.790,
        "hdTimeEnd": 16.500,
        "性别": "男",
        "年龄": 21.0,
        "籍贯": "安徽合肥"
      }
    ],
    "文本content": "雪乡的地理位置位于黑龙江省⁇牡丹江市。",
    "意图": 24,
    "槽类型": "58 58 0 0 0 0 0 0 0 88 88 88 88 0 32 32 32 32 0",
    "生成式标签": "提供定位(旅游景点=雪乡, 省份=黑龙江省, 城市=牡丹江市)",
    "槽值字典": {
      "旅游景点": ["雪乡"],
      "省份": ["黑龙江省"],
      "城市": ["牡丹江市"]
    },
    "choices": "['介绍作品','介绍历史','提供定位','推荐景点','询问天气','询问路线']",
    "hdTimeStart": 54.795,
    "hdTimeEnd": 58.365
  }
}

论文引用:

@article{wang2025realtalkcn,
  title={RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis},
  author={Wang, Enzhi and Li, Qicheng and Zhao, Shiwan and Kong, Aobo and Zhou, Jiaming and Yang, Xi and Wang, Yequan and Lin, Yonghua and Qin, Yong},
  journal={arXiv preprint arXiv:2508.10015},
  year={2025}
}

源数据集版权使用说明:

CC BY-NC-SA 4.0 license 详情参见 RealTalk-CN 官方页面