Skip to content

SE评测数据

Voicebank-DEMAND

# 评测指标-PESQ,STOI

数据描述

Voicebank-DEMAND数据集是一个将干净语音与噪声混合组成的合成数据集。干净的语音来自Voice Bank数据集,噪声来自DEMAND数据集。训练集包含28个说话人,有四种信噪比(SNR)(15、10、5和0 dB),测试集包含2个说话人,四种信噪比(17.5、12.5、7.5和2.5 dB)。训练集包含11572句话语(9.4h),测试集包含824句话语(0.6h)。话语的长度为1.1s至15.1s,平均长度为2.9s。

数据集构成和规范

源数据量

  • 训练集:8.8h
  • 验证集:0.6h
  • 测试集:0.6h

评测数据量

评测数据量为源数据集中的测试集,包含824句话语,共0.6h

数据字段

训练集、验证集、测试集均包含spk2utt、utt2spk和wav.scp三个文件:

  • wav.scp:wav_id wav_path
  • spk2utt:wav_id wav_id
  • utt2spk:wav_id wav_id

数据集样例

wav.scp:
p226_001 /home/datasets/noisy-vctk-16k/noisy_trainset_28spk_wav_16k/p226_001.wav

spk2utt:
p226_001 p226_001

utt2spk:
p226_001 p226_001

评价指标

  • 语音质量感知评价PESQ
  • 短时间客观可懂度STOI

论文引用

@inproceedings{ValentiniBotinhao2017NoisySD,
   title={Noisy speech database for training speech enhancement algorithms and TTS models},
   author={Cassia Valentini-Botinhao},
   year={2017},
   url={https://api.semanticscholar.org/CorpusID:64530884}
 }

数据集版权使用说明

CC BY 4.0 Licensed