ST 评测数据
Common voice-en2(en-de) + Covost 2
#双语评估研究BLEU
数据描述
Common voice:一个用于语音技术研究和验证的大量多语言转录语音数据集,采用众包方式进行数据收集和数据验证。支持60种语言,共有7327个验证小时可用。
Covost 2基于Common voice,语料库中有 2,900 小时的语音。提供从英语(En)到15种语言的翻译:阿拉伯语(Ar)、加泰罗尼亚语(Ca)、威尔士语(Cy)、德语(De)、爱沙尼亚语(et)、波斯语(Fa)、印度尼西亚语(Id)、日语(Ja)、拉脱维亚语(Lv)、蒙古语(Mn)、斯洛文尼亚语(Sl)、瑞典语(Sv)、泰米尔语(Ta)、土耳其语(Tr)、汉语(Zh);从21种语言到英语的翻译:包括15种目标语言以及西班牙语(Es)、法语(Fr)、意大利语(It)、荷兰语(Nl)、葡萄牙语(Pt)、俄语(Ru)。
数据集构成和规范
源数据量
训练集429.24h, 验证集约26.07h, 测试集约24.64h
评测数据量
评测数据量为公开的24.64h测试集,共15524条
数据字段
训练集,验针集和测试集均有对应的tsv文件:train.tsv, dev.tsv, test.tsv
id audio n_frames sr src_text tgt_text
数据集样例
common_voice_en_78232 common_voice_en_78232.mp3 47232 48000 i wish you wouldn't Ich wünschte, du ließest es bleiben.
评价指标
双语评估研究BLEU
论文引用
@article{ardila2019common, title={Common voice: A massively-multilingual speech corpus}, author={Ardila, Rosana and Branson, Megan and Davis, Kelly and Henretty, Michael and Kohler, Michael and Meyer, Josh and Morais, Reuben and Saunders, Lindsay and Tyers, Francis M and Weber, Gregor}, journal={arXiv preprint arXiv:1912.06670}, year={2019} } @article{wang2020covost, title={Covost 2 and massively multilingual speech-to-text translation}, author={Wang, Changhan and Wu, Anne and Pino, Juan}, journal={arXiv preprint arXiv:2007.10310}, year={2020} }
数据集版权使用说明:
知识共享CC0许可证