Skip to content

评测指标

1. 文本到视频检索召回率

跨模态视频检索任务旨在建立文本与视频之间的语义关联,实现双向检索能力。为全面评估检索系统的性能,通常采用基于召回率(Recall)的系列指标,包括视频到文本检索(Video-to-Text, V2T)和文本到视频检索(Text-to-Video, T2V)两个方向的 Top-K 召回率(R@K),以及综合衡量检索性能的平均召回率(Mean Recall)。这些指标能够有效反映模型在不同检索难度下的表现,其中 Top-1 反映精确匹配能力,Top-5/10 反映容错能力。进一步地,这些指标能够帮助研究者从多角度评估模型的优劣,例如在面对语义相似但细节差异较大的检索目标时,是否依然能稳定给出正确结果;在视频描述模糊或不完整时,是否依然能在前 K 名中包含对应的视频或文本,从而体现模型的鲁棒性和泛化能力。

1.1 召回率(Recall@K):

R@K=1Ni=1NI(rankiK)

其中 N 为测试样本数,ranki 表示第 i 个正样本在检索结果中的排名,I() 为指示函数。该指标用于衡量在给定的 Top-K 检索范围内,系统能够找到正确匹配结果的比例。较高的 R@K 表明模型能够在前 K 个返回结果中包含更多的真实匹配,直接反映了检索系统的有效性。

2.1 视频到文本召回率(V2T R@K):

V2TK=1Mj=1MmaxlLjI(rankjlK)

M 为视频数,Lj 为第 j 个视频对应的正例文本集合。该指标用于度量从视频出发检索对应文本的能力,能够反映模型在处理视频特征、提取语义信息并与文本描述进行匹配时的准确性和鲁棒性。

2.2 文本到视频召回率(T2V R@K):

T2VK=1Lk=1LmaxvVkI(rankkvK)

L 为文本数,Vk 为第 k 个文本对应的正例视频集合。该指标用于度量从文本出发检索对应视频的能力,能够反映模型是否能够根据不同形式、长度和细节丰富程度不一的文本描述,成功找到对应的视频内容。

2.3 平均召回率(Mean Recall):

MeanRecall=16(K{1,5,10}(V2TK+T2VK))

Mean Recall 将 V2T 和 T2V 两个方向的多种 Top-K 召回率汇总为一个综合指标,能够从整体上评价检索系统在不同方向和不同难度下的平均表现。较高的 Mean Recall 表示模型在各个检索维度上都具有良好的能力,不仅在单向检索中表现出色,也能兼顾多样化的匹配场景。

这些指标通过多粒度评估(K=1,5,10)全面反映检索系统的精确匹配能力和容错性,其中:

  • R@1 衡量严格匹配精度,反映系统是否可以在首位直接找到正确结果
  • R@5 / R@10 反映系统在放宽检索范围时的鲁棒性,说明在不那么严格的条件下,模型是否依然能够覆盖正确匹配
  • Mean Recall 提供整体性能的单一评价指标,使研究者可以快速比较不同模型或不同配置的综合表现 这些指标已被广泛应用于 MSR-VTT、ActivityNet 等主流视频检索基准的模型评估,具有较高的可信度和普适性。

2.4 代码

检索指标的计算代码:retrieval_evaluator