评测指标
1. 准确性(Accuracy)
Accuracy指的是模型在所有评估实例中的平均正确性。正确性的概念在不同情况下可能有所区别,因而我们列举了评测工作中所考虑到的主要的准确性度量指标、这些度量指标的运用场景以及相关的正式定义。准确性指标包含以下内容:
Metrics | Description |
---|---|
Slot_type_f1 | 评估自然语言理解任务中槽类型预测的准确性。 |
Slot_value_cer | 计算预测的槽值与真实槽值之间的字符错误率 (CER)。 |
Slot_value_wer | 计算预测的槽值与真实槽值之间的单词错误率 (WER)。 |
Slot_edit_f1_full | 使用槽编辑F1分数评估考虑所有槽的槽填充性能。 |
Slot_edit_f1_part | 使用槽编辑F1分数评估仅关注特定槽的槽填充性能。 |
WER | 计算预测序列与真实序列之间的单词错误率 (WER)。 |
CER | 计算预测序列与真实序列之间的字符错误率 (CER)。 |
2. 鲁棒性 (Robustness)
设计的数据集存在一定的错误和噪音,如重复、犹豫、更正、无意义音节、环境噪声等特征,衡量模型在此类数据(约10%)上的1. 准确性(Accuracy)