SR 测评数据
CN-Celeb
# 准确率ACC # 等错误率EER
数据描述
CN-Celeb
,包含1000位中国明星声纹库,130109条中文语句(包括歌星、影星、说唱艺人等)在采访、歌舞及影视作品中的声音片段,共计273.72小时 该数据包含了11类实际场景,覆盖了噪音、信道、发音方式等各方面的复杂性,特别适合研究复杂场景下的说话人识别技术。
数据集构成和规范
源数据量
训练集包含800说话人共计111,260语音,测试集含200说话人共计18,849语音
评测数据量
来自CN-Celeb的测试集,含18,849条语音
数据字段
ASI任务中,训练集、中均用txt文件形式,文件的每行包含两个字段:音频文件索引和说话人标签
text
*.txt: audio_file_path speaker_id
ASV任务中的训练集和验证集采用上述形式,测试集仅采用文件索引作为字段的txt文件保存
text
*.txt: audio_file_path
数据集样例
downstream/spkrec/dataset/data/id00013/singing-03-036.flac id00013
评价指标
准确率ACC用于说话人识别任务 等错误率EER用于说话人验证任务
论文引用
@inproceedings{fan2020cn,
title={CN-CELEB: a challenging Chinese speaker recognition dataset},
author={Fan, Yue and Kang, JW and Li, LT and Li, KC and Chen, HL and Cheng, ST and Zhang, PY and Zhou, ZY and Cai, YQ and Wang, Dong},
booktitle={ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7604--7608},
year={2020},
organization={IEEE}
}
@misc{li2020cn,
title={CN-Celeb: multi-genre speaker recognition},
author={Lantian Li and Ruiqi Liu and Jiawen Kang and Yue Fan and Hao Cui and Yunqi Cai and Ravichander Vipperla and Thomas Fang Zheng and Dong Wang},
year={2020},
eprint={2012.12468},
archivePrefix={arXiv},
primaryClass={eess.AS}
}
开源协议
Attribution-ShareAlike 4.0 International