Skip to content

IC评测数据

Fluent Speech Commands

#准确率-Accuracy

适配方法:

线性分类器(Linear Classifier),上游模型输出的特征先经过全局平均池化层进行特征提取,再输入包含一层线性全连接层的线性分类器中。线性分类器输入维度与特征向量的维度相等,输出维度与类别数相等。

数据描述:

Fluent Speech Commands数据集包含来自97位发言者的30043个话语。每个文件包含一个用于控制智能家电或虚拟助理的声音。数据集共有三类对话意图(Action、Object、Location), 包括总共31种独特的子意图, 语种为英语。

数据集构成和规范:

源数据量:

训练集23132条, 验证集3118条, 测试集793条。

评测数据量:

评测数据量为公开的测试集793条。

源数据字段:

KEYSEXPLAIN
id数据id
pathMP3文件对应的路径
speakerId说话人id
transcription语音对应的文本
actionaction类型的意图
objectobject类型的意图
locationlocation类型的意图

源数据集样例:

{
  "id":0,
  "path":"wavs/speakers/4BrX8aDqK2cLZRYl/cbdf5700-452c-11e9-b1e4-e5985dca719e.wav",
  "speakerId":"4BrX8aDqK2cLZRYl",
  "transcription":"Turn on the lights",
  "action":"activate",
  "object":"lights",
  "location":"none"
}

论文引用:

@article{lugosch2019speech,
  title={Speech model pre-training for end-to-end spoken language understanding},
  author={Lugosch, Loren and Ravanelli, Mirco and Ignoto, Patrick and Tomar, Vikrant Singh and Bengio, Yoshua},
  journal={arXiv preprint arXiv:1904.03670},
  year={2019}
}

源数据集版权使用说明:

Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International license