Skip to content

评测指标

1. 准确性(Accuracy)

Accuracy指的是模型在所有评估实例中的平均正确性。正确性的概念在不同情况下可能有所区别,因而我们列举了评测工作中所考虑到的主要的准确性度量指标、这些度量指标的运用场景以及相关的正式定义。准确性指标包含以下内容:

MetricsDescription
Slot_type_f1评估自然语言理解任务中槽类型预测的准确性。
Slot_value_cer计算预测的槽值与真实槽值之间的字符错误率 (CER)。
Slot_value_wer计算预测的槽值与真实槽值之间的单词错误率 (WER)。
Slot_edit_f1_full使用槽编辑F1分数评估考虑所有槽的槽填充性能。
Slot_edit_f1_part使用槽编辑F1分数评估仅关注特定槽的槽填充性能。
WER计算预测序列与真实序列之间的单词错误率 (WER)。
CER计算预测序列与真实序列之间的字符错误率 (CER)。

2. 鲁棒性 (Robustness)

设计的数据集存在一定的错误和噪音,如重复、犹豫、更正、无意义音节、环境噪声等特征,衡量模型在此类数据(约10%)上的1. 准确性(Accuracy)