Skip to content

SR 测评数据

CN-Celeb

# 准确率ACC

# 等错误率EER

适配方法

Xvector结合线性分类器(Linear Classifier)。训练时:上游模型输出特征经过Xvector进行说话人特征提取,再由线性分类器对说话人特征进行辨识,输出对应的说话人标识符编号。验证时:将验证表中的样本对音频输入上有模型,上游模型输出特征经过Xvector进行特征提取,样本对特征之间计算出相似度分数,再根据所有样本对的相似度分数计算等错误率。

ECAPA-TDNN模型结合加性角度间隔损失分类器(Additive Angular Margin Loss Classifier)。训练时:上游模型输出特征经过ECAPA-TDNN进行说话人特征提取,再由加性角度间隔损失分类器对说话人特征进行辨识,输出对应的说话人标识符编号。验证时:将验证表中的样本对音频输入上有模型,上游模型输出特征经过ECAPA-TDNN进行特征提取,样本对特征之间计算出相似度分数,再根据所有样本对的相似度分数计算等错误率。

数据描述

CN-Celeb,包含1000位中国明星声纹库,130109条中文语句(包括歌星、影星、说唱艺人等)在采访、歌舞及影视作品中的声音片段,共计273.72小时 该数据包含了11类实际场景,覆盖了噪音、信道、发音方式等各方面的复杂性,特别适合研究复杂场景下的说话人识别技术。

数据集构成和规范

源数据量

训练集包含800说话人共计111,260语音,测试集含200说话人共计18,849语音

评测数据量

来自CN-Celeb的测试集,含18,849条语音

数据字段

ASI任务中,训练集、中均用txt文件形式,文件的每行包含两个字段:音频文件索引和说话人标签

text
*.txt: audio_file_path speaker_id

ASV任务中的训练集和验证集采用上述形式,测试集仅采用文件索引作为字段的txt文件保存

text
*.txt: audio_file_path

数据集样例

downstream/spkrec/dataset/data/id00013/singing-03-036.flac id00013

评价指标

准确率ACC用于说话人识别任务

等错误率EER用于说话人验证任务

论文引用

@inproceedings{fan2020cn,
  title={CN-CELEB: a challenging Chinese speaker recognition dataset},
  author={Fan, Yue and Kang, JW and Li, LT and Li, KC and Chen, HL and Cheng, ST and Zhang, PY and Zhou, ZY and Cai, YQ and Wang, Dong},
  booktitle={ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7604--7608},
  year={2020},
  organization={IEEE}
}

@misc{li2020cn,
  title={CN-Celeb: multi-genre speaker recognition},
  author={Lantian Li and Ruiqi Liu and Jiawen Kang and Yue Fan and Hao Cui and Yunqi Cai and Ravichander Vipperla and Thomas Fang Zheng and Dong Wang},
  year={2020},
  eprint={2012.12468},
  archivePrefix={arXiv},
  primaryClass={eess.AS}
 }

开源协议

Attribution-ShareAlike 4.0 International