评测指标
1. 文本到视频检索召回率
跨模态视频检索任务旨在建立文本与视频之间的语义关联,实现双向检索能力。为全面评估检索系统的性能,通常采用基于召回率(Recall)的系列指标,包括视频到文本检索(Video-to-Text, V2T)和文本到视频检索(Text-to-Video, T2V)两个方向的 Top-K 召回率(R@K),以及综合衡量检索性能的平均召回率(Mean Recall)。这些指标能够有效反映模型在不同检索难度下的表现,其中 Top-1 反映精确匹配能力,Top-5/10 反映容错能力。进一步地,这些指标能够帮助研究者从多角度评估模型的优劣,例如在面对语义相似但细节差异较大的检索目标时,是否依然能稳定给出正确结果;在视频描述模糊或不完整时,是否依然能在前 K 名中包含对应的视频或文本,从而体现模型的鲁棒性和泛化能力。
1.1 召回率(Recall@K):
其中
2.1 视频到文本召回率(V2T R@K):
2.2 文本到视频召回率(T2V R@K):
2.3 平均召回率(Mean Recall):
Mean Recall 将 V2T 和 T2V 两个方向的多种 Top-K 召回率汇总为一个综合指标,能够从整体上评价检索系统在不同方向和不同难度下的平均表现。较高的 Mean Recall 表示模型在各个检索维度上都具有良好的能力,不仅在单向检索中表现出色,也能兼顾多样化的匹配场景。
这些指标通过多粒度评估(K=1,5,10)全面反映检索系统的精确匹配能力和容错性,其中:
- R@1 衡量严格匹配精度,反映系统是否可以在首位直接找到正确结果
- R@5 / R@10 反映系统在放宽检索范围时的鲁棒性,说明在不那么严格的条件下,模型是否依然能够覆盖正确匹配
- Mean Recall 提供整体性能的单一评价指标,使研究者可以快速比较不同模型或不同配置的综合表现 这些指标已被广泛应用于 MSR-VTT、ActivityNet 等主流视频检索基准的模型评估,具有较高的可信度和普适性。
2.4 代码
检索指标的计算代码:retrieval_evaluator