IC评测数据
Fluent Speech Commands
#准确率-Accuracy
适配方法:
线性分类器(Linear Classifier),上游模型输出的特征先经过全局平均池化层进行特征提取,再输入包含一层线性全连接层的线性分类器中。线性分类器输入维度与特征向量的维度相等,输出维度与类别数相等。
数据描述:
Fluent Speech Commands数据集包含来自97位发言者的30043个话语。每个文件包含一个用于控制智能家电或虚拟助理的声音。数据集共有三类对话意图(Action、Object、Location), 包括总共31种独特的子意图, 语种为英语。
数据集构成和规范:
源数据量:
训练集23132条, 验证集3118条, 测试集793条。
评测数据量:
评测数据量为公开的测试集793条。
源数据字段:
KEYS | EXPLAIN |
---|---|
id | 数据id |
path | MP3文件对应的路径 |
speakerId | 说话人id |
transcription | 语音对应的文本 |
action | action类型的意图 |
object | object类型的意图 |
location | location类型的意图 |
源数据集样例:
{
"id":0,
"path":"wavs/speakers/4BrX8aDqK2cLZRYl/cbdf5700-452c-11e9-b1e4-e5985dca719e.wav",
"speakerId":"4BrX8aDqK2cLZRYl",
"transcription":"Turn on the lights",
"action":"activate",
"object":"lights",
"location":"none"
}
论文引用:
@article{lugosch2019speech, title={Speech model pre-training for end-to-end spoken language understanding}, author={Lugosch, Loren and Ravanelli, Mirco and Ignoto, Patrick and Tomar, Vikrant Singh and Bengio, Yoshua}, journal={arXiv preprint arXiv:1904.03670}, year={2019} }
源数据集版权使用说明:
Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International license