语音分离评测数据
LibriMix
#评测指标si-sdr
适配方法
针对上游模型的输出特征,我们应用了三层双向LSTM(SepRNN)进行处理。模型通过两个独立的线性层生成两个掩码矩阵,随后将这两个掩码矩阵分别与原始音频的特征相乘,从而得到两个分离后的说话人音频特征。
数据描述
LibriMix 是一个用于在嘈杂环境中进行不同说话人语音源分离的开源数据集。该数据集基于 LibriSpeech 信号的干净子集(包括 train-clean-100 和 train-clean-360)以及 WHAM 噪声。通过开源脚本的混合处理,生成了 LibriMix 的不同版本,包括双人混合、三人混合以及加噪混合等多种形式。
数据集构成和规范
源数据量
我们选定LibriMix里两个说话人重叠的不带噪子集Libri2Mix,数据量如下:
训练数据有两组可供选择,分别为 train-360(使用 LibriSpeech 的 train-clean-360 进行混合的语音分离数据集)和 train-100(使用 LibriSpeech 的 train-clean-100 进行混合的语音分离数据集:
- train-360:212h
- train-100:58h
此外,还有一组验证集和一组测试集,时长均为:
- dev:11h
- test:11h
评测数据量
训练集:train-100 58h,13900条;
验证集:dev 11h,3000条;
测试集:test 11h,3000条;
数据字段
训练集、验证集、测试集均包含mixture_{dataset_name}_mix_clean.csv:
- mixture_{dataset_name}_mix_clean.csv: mixture_ID, mixture_path, source_1_path, source_2_path, length
数据集样例
下面展示的是mixture_train-100_mix_clean.csv中的一条数据
32911-12359-0018_1723-141149-0013,
/media/hlt/chenyang_space/chenyang_space/speech_editing_and_tts/projects/s3prl/LibriMix/storage_dir/Libri2Mix/wav16k/min/train-100/mix_clean/2911-12359-0018_1723-141149-0013.wav,
/media/hlt/chenyang_space/chenyang_space/speech_editing_and_tts/projects/s3prl/LibriMix/storage_dir/Libri2Mix/wav16k/min/train-100/s1/2911-12359-0018_1723-141149-0013.wav,
/media/hlt/chenyang_space/chenyang_space/speech_editing_and_tts/projects/s3prl/LibriMix/storage_dir/Libri2Mix/wav16k/min/train-100/s2/2911-12359-0018_1723-141149-0013.wav,
221120
评价指标
- si-sdr
论文引用
@article{Cosentino_Pariente_Cornell_Deleforge_Vincent_2020, title={LibriMix: An open-source dataset for generalizable speech separation}, journal={Le Centre pour la Communication Scientifique Directe - HAL - memSIC,Le Centre pour la Communication Scientifique Directe - HAL - memSIC}, author={Cosentino, Joris and Pariente, Manuel and Cornell, Samuele and Deleforge, Antoine and Vincent, Emmanuel}, year={2020}, month={May}, language={en-US} }
### 数据集版权使用说明
LibriSpeech 数据集采用的是 CC BY 4.0 许可证。
生成 LibriMix 的脚本采用的是 MIT 许可证。