SE评测数据

Voicebank-DEMAND

# 评测指标-PESQ,STOI

适配方法

我们使用类似语音分离任务的适配方法，针对上游模型的输出特征应用三层Bi-LSTM（SepRNN），输出一个预测的干净信号的频谱掩码。

数据描述

Voicebank-DEMAND数据集是一个将干净语音与噪声混合组成的合成数据集。干净的语音来自Voice Bank数据集，噪声来自DEMAND数据集。训练集包含28个说话人，有四种信噪比（SNR）（15、10、5和0 dB），测试集包含2个说话人，四种信噪比（17.5、12.5、7.5和2.5 dB）。训练集包含11572句话语（9.4h），测试集包含824句话语（0.6h）。话语的长度为1.1s至15.1s，平均长度为2.9s。

数据集构成和规范

源数据量

训练集：8.8h
验证集：0.6h
测试集：0.6h

评测数据量

评测数据量为源数据集中的测试集，包含824句话语，共0.6h

数据字段

训练集、验证集、测试集均包含spk2utt、utt2spk和wav.scp三个文件：

wav.scp：wav_id wav_path
spk2utt：wav_id wav_id
utt2spk：wav_id wav_id

数据集样例

wav.scp:
p226_001 /home/datasets/noisy-vctk-16k/noisy_trainset_28spk_wav_16k/p226_001.wav

spk2utt:
p226_001 p226_001

utt2spk:
p226_001 p226_001

评价指标

语音质量感知评价PESQ
短时间客观可懂度STOI

论文引用

@inproceedings{ValentiniBotinhao2017NoisySD,
   title={Noisy speech database for training speech enhancement algorithms and TTS models},
   author={Cassia Valentini-Botinhao},
   year={2017},
   url={https://api.semanticscholar.org/CorpusID:64530884}
 }

数据集版权使用说明

CC BY 4.0 Licensed

SE评测数据 ​

Voicebank-DEMAND ​

适配方法 ​

数据描述 ​

数据集构成和规范 ​

源数据量 ​

评测数据量 ​

数据字段 ​

数据集样例 ​

评价指标 ​

论文引用 ​

数据集版权使用说明 ​