Skip to content

IC评测数据

Fluent Speech Commands

#准确率-Accuracy

适配方法:

线性分类器(Linear Classifier),上游模型输出的特征先经过全局平均池化层进行特征提取,再输入包含一层线性全连接层的线性分类器中。线性分类器输入维度与特征向量的维度相等,输出维度与类别数相等。

数据描述:

Fluent Speech Commands数据集包含来自97位发言者的30043个话语。每个文件包含一个用于控制智能家电或虚拟助理的声音。数据集共有三类对话意图(Action、Object、Location), 包括总共31种独特的子意图, 语种为英语。

数据集构成和规范:

源数据量:

训练集23132条, 验证集3118条, 测试集793条。

评测数据量:

评测数据量为公开的测试集793条。

源数据字段:

KEYSEXPLAIN
id数据id
pathMP3文件对应的路径
speakerId说话人id
transcription语音对应的文本
actionaction类型的意图
objectobject类型的意图
locationlocation类型的意图

源数据集样例:

{
  "id":0,
  "path":"wavs/speakers/4BrX8aDqK2cLZRYl/cbdf5700-452c-11e9-b1e4-e5985dca719e.wav",
  "speakerId":"4BrX8aDqK2cLZRYl",
  "transcription":"Turn on the lights",
  "action":"activate",
  "object":"lights",
  "location":"none"
}

论文引用:

@article{lugosch2019speech,
  title={Speech model pre-training for end-to-end spoken language understanding},
  author={Lugosch, Loren and Ravanelli, Mirco and Ignoto, Patrick and Tomar, Vikrant Singh and Bengio, Yoshua},
  journal={arXiv preprint arXiv:1904.03670},
  year={2019}
}

源数据集版权使用说明:

Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International license

RealTalk-CN

#准确率-Accuracy

适配方法:

线性分类器(Linear Classifier),上游模型输出的特征先经过全局平均池化层进行特征提取,再输入包含一层线性全连接层的线性分类器中。线性分类器输入维度与特征向量的维度相等,输出维度与类别数相等。

数据描述:

RealTalk-CN 数据集是首个中文多轮、多领域语音-文本双模态任务型对话(Task-Oriented Dialogue, TOD)基准数据集,用于评测语音语言模型(Speech-based LLMs)在真实语音环境下的理解、鲁棒性与跨模态交互能力。

该数据集包含 5.4k 条对话(约 60,000 个话语),共计 150 小时音频。对话均来自真实中文语音录制,覆盖 58 个主题领域55 种意图类别115 个槽位类型,并显式标注自然语音的 非流畅现象(Disfluency)

RealTalk-CN 还设计了 跨模态对话任务(Cross-Modal Chat),允许用户在语音与文本输入间动态切换,以模拟真实多模态人机交互场景。

数据集构成和规范:

源数据量:

集合子集样本数平均话语长度平均对话轮次
训练集MD-Col6,26927.608.54
MD-Sys28,36319.367.74
SD-Col1,45825.568.23
SD-Sys5,84828.907.58
验证集MD-Col2,68727.628.54
MD-Sys8,72819.517.72
SD-Col62625.008.17
SD-Sys2,50420.897.75
测试集MD-Col3,83727.428.54
MD-Sys3,83719.277.73
SD-Col89225.618.14
SD-Sys89220.767.58

数据集共计 5,400 条对话,划分比例约为 7:2:1。 “MD” 表示 Multi-Domain(多领域), “SD” 表示 Single-Domain(单领域); “Col” 表示带有口语特征(Colloquial), “Sys” 表示系统化文本(System)。

评测数据量:

评测数据量为公开测试集,共计约 9,458 条样本(含 MD-Col、MD-Sys、SD-Col、SD-Sys 四类)。

源数据字段:

KEYSEXPLAIN
id数据样本唯一编号
audio_file音频文件路径
text语音转录文本
original_data.对话ID对话唯一标识
original_data.roleID角色 ID(1=用户, 2=系统)
original_data.性别说话人性别
original_data.年龄说话人年龄
original_data.籍贯说话人籍贯信息
original_data.topicName对话主题(如“天气、美食、旅游”)
original_data.context上下文轮次内容
original_data.文本content当前语句文本内容
original_data.意图对应意图编号
original_data.槽类型槽位类型编码
original_data.生成式标签生成式标签描述(带槽位填充)
original_data.槽值字典槽位类型及对应值的字典
original_data.choices候选意图列表
original_data.hdTimeStart / hdTimeEnd音频起止时间(秒)

源数据集样例:

{
  "id": "G40032S1017_3",
  "audio_file": "Spoken3MC/wavs/G40032/G40032S1017.wav",
  "text": "提供定位",
  "original_data": {
    "对话ID": "G40032S1017",
    "roleID": 2,
    "性别": "男",
    "年龄": 21.0,
    "籍贯": "安徽合肥",
    "topicName": "天气,美食,旅游",
    "context": [
      {
        "roleID": 1,
        "text": "帮我推荐两天的美食旅行。",
        "hdTimeStart": 0.055,
        "hdTimeEnd": 2.645,
        "性别": "男",
        "年龄": 21.0,
        "籍贯": "河南信阳"
      },
      {
        "roleID": 2,
        "text": "那您可以考虑去黑龙江国家森林公园雪乡,那里有你想看的雪景,美食以东北农家菜为主。",
        "hdTimeStart": 9.790,
        "hdTimeEnd": 16.500,
        "性别": "男",
        "年龄": 21.0,
        "籍贯": "安徽合肥"
      }
    ],
    "文本content": "雪乡的地理位置位于黑龙江省⁇牡丹江市。",
    "意图": 24,
    "槽类型": "58 58 0 0 0 0 0 0 0 88 88 88 88 0 32 32 32 32 0",
    "生成式标签": "提供定位(旅游景点=雪乡, 省份=黑龙江省, 城市=牡丹江市)",
    "槽值字典": {
      "旅游景点": ["雪乡"],
      "省份": ["黑龙江省"],
      "城市": ["牡丹江市"]
    },
    "choices": "['介绍作品','介绍历史','提供定位','推荐景点','询问天气','询问路线']",
    "hdTimeStart": 54.795,
    "hdTimeEnd": 58.365
  }
}

论文引用:

@article{wang2025realtalkcn,
  title={RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis},
  author={Wang, Enzhi and Li, Qicheng and Zhao, Shiwan and Kong, Aobo and Zhou, Jiaming and Yang, Xi and Wang, Yequan and Lin, Yonghua and Qin, Yong},
  journal={arXiv preprint arXiv:2508.10015},
  year={2025}
}

源数据集版权使用说明:

CC BY-NC-SA 4.0 license 详情参见 RealTalk-CN 官方页面