评测指标
1. 准确性(Accuracy)
Accuracy指的是模型在所有评估实例中的平均正确性。正确性的概念在不同情况下可能有所区别,因而我们列举了评测工作中所考虑到的主要的准确性度量指标、这些度量指标的运用场景以及相关的正式定义。
1.1 Exact match
精确匹配是指:模型生成答案和正确的参考答案以字符串的形式完全匹配。在HellaSwag, OpenBookQA,TruthfulQA, MMLU等数据集上就是使用精确匹配作为默认的 Acc 度量指标。
1.2 Quasi-exact match
Quasi-exact匹配的正确性条件在精确匹配的基础上进一步扩展,可以对模型生成答案进行一些细小的后处理(如大小写转化、删除空白和标点符号等)。BoolQ, IMDB, RAFT等数据集上使用Quasi-exact match 指标作为默认的 Acc 度量指标。
1.3 ROUGE-2
使用标准 ROUGE 分数 (Lin, 2004),该分数考虑了 2-gram 重叠来确定正确性。这是 CNN/DailyMail 和 XSUM 的默认 Acc 指标。
1.4 正确率
在人工评测中,输入一个prompt,模型回答正确记为1,否则记为0。正确率=回答正确的prompt个数/prompt总个数。这是 CLCC 所使用的 Acc 度量指标。
2. Pass@k
对于代码生成模型的评测,模型针对每个单元测试问题生成 k(k=1,10,100)个代码样本,如果有任何样本通过单元测试,则认为问题已解决,并报告问题解决的总比例,即 Pass@k 得分。
注:实际测试中,一般的做法是采样n=200次,通过c次,用1-C(k, n-c)/C(k, n)来降低评测值的方差。