Skip to content

ST 评测数据

Common voice-en2(en-de) + Covost 2

#双语评估研究BLEU

数据描述

Common voice:一个用于语音技术研究和验证的大量多语言转录语音数据集,采用众包方式进行数据收集和数据验证。支持60种语言,共有7327个验证小时可用。

Covost 2基于Common voice,语料库中有 2,900 小时的语音。提供从英语(En)到15种语言的翻译:阿拉伯语(Ar)、加泰罗尼亚语(Ca)、威尔士语(Cy)、德语(De)、爱沙尼亚语(et)、波斯语(Fa)、印度尼西亚语(Id)、日语(Ja)、拉脱维亚语(Lv)、蒙古语(Mn)、斯洛文尼亚语(Sl)、瑞典语(Sv)、泰米尔语(Ta)、土耳其语(Tr)、汉语(Zh);从21种语言到英语的翻译:包括15种目标语言以及西班牙语(Es)、法语(Fr)、意大利语(It)、荷兰语(Nl)、葡萄牙语(Pt)、俄语(Ru)。

数据集构成和规范

源数据量

训练集429.24h, 验证集约26.07h, 测试集约24.64h

评测数据量

评测数据量为公开的24.64h测试集,共15524条

数据字段

训练集,验针集和测试集均有对应的tsv文件:train.tsv, dev.tsv, test.tsv

id audio n_frames sr src_text tgt_text

数据集样例

common_voice_en_78232	common_voice_en_78232.mp3	47232	48000	i wish you wouldn't	Ich wünschte, du ließest es bleiben.

评价指标

双语评估研究BLEU

论文引用

@article{ardila2019common,
 title={Common voice: A massively-multilingual speech corpus},
 author={Ardila, Rosana and Branson, Megan and Davis, Kelly and Henretty, Michael and Kohler, Michael and Meyer, Josh and Morais, Reuben and Saunders, Lindsay and Tyers, Francis M and Weber, Gregor},
 journal={arXiv preprint arXiv:1912.06670},
 year={2019}
}

@article{wang2020covost,
 title={Covost 2 and massively multilingual speech-to-text translation},
 author={Wang, Changhan and Wu, Anne and Pino, Juan},
 journal={arXiv preprint arXiv:2007.10310},
 year={2020}
}

数据集版权使用说明:

知识共享CC0许可证