SR 测评数据

CN-Celeb

# 准确率ACC

# 等错误率EER

适配方法

Xvector结合线性分类器（Linear Classifier）。训练时：上游模型输出特征经过Xvector进行说话人特征提取，再由线性分类器对说话人特征进行辨识，输出对应的说话人标识符编号。验证时：将验证表中的样本对音频输入上有模型，上游模型输出特征经过Xvector进行特征提取，样本对特征之间计算出相似度分数，再根据所有样本对的相似度分数计算等错误率。

ECAPA-TDNN模型结合加性角度间隔损失分类器（Additive Angular Margin Loss Classifier）。训练时：上游模型输出特征经过ECAPA-TDNN进行说话人特征提取，再由加性角度间隔损失分类器对说话人特征进行辨识，输出对应的说话人标识符编号。验证时：将验证表中的样本对音频输入上有模型，上游模型输出特征经过ECAPA-TDNN进行特征提取，样本对特征之间计算出相似度分数，再根据所有样本对的相似度分数计算等错误率。

数据描述

CN-Celeb，包含1000位中国明星声纹库，130109条中文语句（包括歌星、影星、说唱艺人等）在采访、歌舞及影视作品中的声音片段，共计273.72小时该数据包含了11类实际场景，覆盖了噪音、信道、发音方式等各方面的复杂性，特别适合研究复杂场景下的说话人识别技术。

数据集构成和规范

源数据量

训练集包含800说话人共计111,260语音，测试集含200说话人共计18,849语音

评测数据量

来自CN-Celeb的测试集，含18,849条语音

数据字段

ASI任务中，训练集、中均用txt文件形式，文件的每行包含两个字段：音频文件索引和说话人标签

text

*.txt: audio_file_path speaker_id

ASV任务中的训练集和验证集采用上述形式，测试集仅采用文件索引作为字段的txt文件保存

text

*.txt: audio_file_path

数据集样例

downstream/spkrec/dataset/data/id00013/singing-03-036.flac id00013

评价指标

准确率ACC用于说话人识别任务

等错误率EER用于说话人验证任务

论文引用

@inproceedings{fan2020cn,
  title={CN-CELEB: a challenging Chinese speaker recognition dataset},
  author={Fan, Yue and Kang, JW and Li, LT and Li, KC and Chen, HL and Cheng, ST and Zhang, PY and Zhou, ZY and Cai, YQ and Wang, Dong},
  booktitle={ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7604--7608},
  year={2020},
  organization={IEEE}
}

@misc{li2020cn,
  title={CN-Celeb: multi-genre speaker recognition},
  author={Lantian Li and Ruiqi Liu and Jiawen Kang and Yue Fan and Hao Cui and Yunqi Cai and Ravichander Vipperla and Thomas Fang Zheng and Dong Wang},
  year={2020},
  eprint={2012.12468},
  archivePrefix={arXiv},
  primaryClass={eess.AS}
 }

开源协议

Attribution-ShareAlike 4.0 International

SR 测评数据 ​

CN-Celeb ​

适配方法 ​

数据描述 ​

数据集构成和规范 ​

源数据量 ​

评测数据量 ​

数据字段 ​

数据集样例 ​

评价指标 ​

论文引用 ​

开源协议 ​