评测指标
我们对于不同的数据集采用不同的方式进行评价,基本遵循数据集官方给出的评价指标。VAQ的评测主要用准确率及其变种来作为衡量指标。
准确率 (Accuracy)
我们使用经典的准确率计算公式:
其中,TP 表示真正例(True Positives),TN 表示真负例(True Negatives),FP 表示假正例(False Positives),FN 表示假负例(False Negatives)。
CircularEval 准确率
CircularEval 是一种针对选择题的严格评判方式,对于每一道题目,如果有 N 个选项,会把这些选项向右移动 N-1 次,构造出 N 道题目相同、选项位置不同的题目。例如,原始的选项为A: 1 B: 2 C: 3
经过一次移动后,则变为:A: 3 B: 1 C: 2
只有当这些题全部被答对,才被认为是一个 TP。
图像准确率
是一种计算图像级别准确率的方式。为了确保模型真正理解图片的内容,在 HallusionBench 中,对于一张图像有多个问题,只有当这些问题全部答对,才被认为是一个 TP。
一致性准确率(Consensus Accuracy)
对于VQA2.0和VQA-CP数据集,我们使用VQA数据集的标准评估指标进行评估。该准确率的计算方式来源于VQA数据集:link,具体计算方式如下:
每个问题有10个不同受试者提供的10个gt answers,为了与“人类准确性”保持一致,会在所有“10选9”个人类标注者组合的基础上进行平均:
在进行评测之前,按照VQA数据集提出的方法,我们对答案进行以下处理: 1. 将所有字符转换为小写 2. 删除句号,除非它出现在小数中 3. 将数字单词转换为数字 4. 移除冠词(a、an、the) 5. 添加撇号,如果缺少缩写(例如,将 "dont" 转换为 "don't") 6. 用空格字符替换所有标点符号(除了撇号和冒号)。
MPT Accuracy
Mean-per-type accuracy(MPT)是TDIUC数据集的标准评估方式,该指标可以处理不平衡的问题类型分布。整体指标包含所有问题类型准确度的算数均值和谐波均值,分别称为Arithmetic MPT和Harmonic MPT。与Arithmetic MPT不同,Harmonic MPT衡量了系统在所有问题类型上获得高分的能力,并偏向于性能最差的类别。
标准化的指标也被使用,以解决每个问题类型的答案分布的偏见。为了实现这一点,该指标在每个问题类型内分别计算唯一答案的准确性,然后将它们在该问题类型内求平均。为了计算整体性能,该指标计算arithmetic normalized N-MPT和harmonic N-MPT得分。未标准化和标准化得分之间的显著差异表明算法没有泛化到较少见的答案。
CSV文件格式
计算TDIUC数据集的MPT指标需要提供模型预测答案的csv文件,为每个答案赋予唯一id。其中文件第一列为答案字符,第二列为答案对应id:
raining 251
hats 784
yellow 13
...
数据集提供了sample answerkey,也可使用自己的csv文件。注意创建自己的csv文件时确保格式相同,且包含所有的预测答案。