简体中文
Appearance
Accuracy指的是模型在所有评估实例中的平均正确性。正确性的概念在不同情况下可能有所区别,因而我们列举了评测工作中所考虑到的主要的准确性度量指标、这些度量指标的运用场景以及相关的正式定义。
分类正确的预测数与总预测数的比值。在MVBench评测中,准确率计算方式为模型正确回答的问题数量除以总问题数量。对于多选题形式的问题,模型需要从候选答案中选择正确选项;对于开放式问题,使用语义匹配方法判断答案是否正确。