SR 测评数据
CN-Celeb
# 准确率ACC
# 等错误率EER
适配方法
Xvector结合线性分类器(Linear Classifier)。训练时:上游模型输出特征经过Xvector进行说话人特征提取,再由线性分类器对说话人特征进行辨识,输出对应的说话人标识符编号。验证时:将验证表中的样本对音频输入上有模型,上游模型输出特征经过Xvector进行特征提取,样本对特征之间计算出相似度分数,再根据所有样本对的相似度分数计算等错误率。
ECAPA-TDNN模型结合加性角度间隔损失分类器(Additive Angular Margin Loss Classifier)。训练时:上游模型输出特征经过ECAPA-TDNN进行说话人特征提取,再由加性角度间隔损失分类器对说话人特征进行辨识,输出对应的说话人标识符编号。验证时:将验证表中的样本对音频输入上有模型,上游模型输出特征经过ECAPA-TDNN进行特征提取,样本对特征之间计算出相似度分数,再根据所有样本对的相似度分数计算等错误率。
数据描述
CN-Celeb,包含1000位中国明星声纹库,130109条中文语句(包括歌星、影星、说唱艺人等)在采访、歌舞及影视作品中的声音片段,共计273.72小时 该数据包含了11类实际场景,覆盖了噪音、信道、发音方式等各方面的复杂性,特别适合研究复杂场景下的说话人识别技术。
数据集构成和规范
源数据量
训练集包含800说话人共计111,260语音,测试集含200说话人共计18,849语音
评测数据量
来自CN-Celeb的测试集,含18,849条语音
数据字段
ASI任务中,训练集、中均用txt文件形式,文件的每行包含两个字段:音频文件索引和说话人标签
*.txt: audio_file_path speaker_idASV任务中的训练集和验证集采用上述形式,测试集仅采用文件索引作为字段的txt文件保存
*.txt: audio_file_path数据集样例
downstream/spkrec/dataset/data/id00013/singing-03-036.flac id00013评价指标
准确率ACC用于说话人识别任务
等错误率EER用于说话人验证任务
论文引用
@inproceedings{fan2020cn,
title={CN-CELEB: a challenging Chinese speaker recognition dataset},
author={Fan, Yue and Kang, JW and Li, LT and Li, KC and Chen, HL and Cheng, ST and Zhang, PY and Zhou, ZY and Cai, YQ and Wang, Dong},
booktitle={ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7604--7608},
year={2020},
organization={IEEE}
}
@misc{li2020cn,
title={CN-Celeb: multi-genre speaker recognition},
author={Lantian Li and Ruiqi Liu and Jiawen Kang and Yue Fan and Hao Cui and Yunqi Cai and Ravichander Vipperla and Thomas Fang Zheng and Dong Wang},
year={2020},
eprint={2012.12468},
archivePrefix={arXiv},
primaryClass={eess.AS}
}开源协议
Attribution-ShareAlike 4.0 International