评测指标
1. 召回率(Recall)
Recall 指的是在基于查询的信息检索任务(如: 图像-文本匹配任务)中,针对所有的评估实例(如: Flickr30k 数据集中的 1000 张图像和 5000 句文本),模型将正确的检索结果(如: 图到文 i2t 检索方向时的 5 句匹配的文本之一)排名到指定名次范围内(如: 进入前 10 名)的平均次数比例(如: 0.900 分,取值范围是 0~1 ;有时以百分比 % 作为单位进行表示,如: 90.0 分;该指标越大,表明模型的检索性能越强)。
召回率的概念在不同的评测情况下可能有所区别,因而我们列举了评测工作中所考虑到的主要的召回率度量指标、这些度量指标的运用场景以及相关的正式定义。
需要补充的是:
Recall 在用于评测图文比 1:5 的两类视觉-语言基准评测数据集:Flickr30k 和 MS COCO 时,具体评测方式略有不同:
- Flickr30k 数据集在评测时,图像数据量 N=1000 称作 1K Test。
- MS COCO 数据集在评测时,图像数据量 N=5000 称作 5K Test。
出于简洁性的考虑,本评测平台暂时对于 MS COCO 数据集在 N=1000、5*1000(5次评测取平均) 时的 1K Test、5 fold 1K Test 评测方式暂不提供评测接口。
两个基准评测数据集的基本评价指标都有 6 种,分别是:i2t 方向的 R@1/5/10(即: i2t_R@K),以及 t2i 方向的 R@1/5/10(即: t2i_R@K)。
组合评价指标有 2 个,分别是:这 6 个指标之和 Recall Sum(即: Rsum),以及这 6 个指标的平均值 mean Recall(即: mR)。
需要注意的是,Flickr30k 和 MS COCO 都是图文比 1:5 的数据集(并不是理想情况中的 1:1,也不是其它固定或可变比例),每张图像有 5 句与之匹配的文本。因此 i2t 评测时只需要检索结果中出现 5 句匹配文本中的其中 1 句即可满足召回要求;但是 t2i 评测时只有唯一 1 张图像与之匹配,因此召回要求会更高,评测召回率会比 i2t 时偏低。若需要评测其它图文比的数据集时,用户需要根据实际数据的匹配情况灵活调整评测策略。以下评测指标的介绍内容均基于图文比为 1:5 时的设定。
1.1 图像到文本检索排名前K的召回率(i2t_R@K)
i2t_R@K 是指:当图文匹配任务进行图像到文本检索评测(i2t test)时,模型将与查询图像匹配的全部 5 个句子排名到前 K 名当中(取5句当中的最高排名计算)的平均召回率。
在 Flickr30k, MSCOCO 等图文比 1:5 的数据集上的 i2t test 就是使用 i2t_R@K(K=1, 5, 10) 作为默认的 Recall 基本度量指标。
1.2 文本到图像检索排名前K的召回率(t2i_R@K)
t2i_R@K 是指:当图文匹配任务进行文本到图像检索评测(t2i test)时,模型将与查询句子匹配的唯一 1 个图像排名到前 K 名当中的平均召回率。
在 Flickr30k, MSCOCO 等图文比 1:5 的数据集上的 t2i test 就是使用 t2i_R@K(K=1, 5, 10) 作为默认的 Recall 基本度量指标。
1.3 召回率总和(R@Sum)
R@Sum 是指:当图文匹配任务完成了图像到文本检索评测(i2t test)和文本到图像检索评测(t2i test)后, i2t_R@1 + i2t_R@5 + i2t_R@10 + t2i_R@1 + t2i_R@5 + t2i_R@10 六项评测指标之和得到的召回率总和。
1.4 召回率均值(m_R)
m_R 是指:当图文匹配任务完成了图像到文本检索评测(i2t test)和文本到图像检索评测(t2i test)后, R@Sum/6 六项评测指标之和取平均得到的召回率均值。