评测指标

1. 视频质量和多样性

视频质量指的是模型生成视频的视觉质量，包括视频清晰度、视频内容合理性等。视频多样性指的是模型生成视频间是否存在足够的差异性，不应出现所有生成的视频几乎一致的情况，否则视频生成任务将失去意义。

视频质量和多样性缺少客观的评价方式，因而我们列举了基于预训练视频特征提取网络的评价指标及其计算方式。

1.1 Frechet Video Distance (FVD)

FVD（Frechet Video Distance）是一种用于评估生成视频质量的指标，类似于图像领域的FID（Frechet Inception Distance）。它通过比较生成视频和真实视频在深度特征空间中的分布差异来衡量视频的逼真度和连贯性。FVD基于预训练的3D卷积神经网络（如I3D）提取视频特征，并计算生成视频特征分布与真实视频特征分布之间的Frechet距离，距离越小，表示生成视频的质量越高。

计算公式：

F V D = ∥ μ_{g} - μ_{r} ∥^{2} + Tr (Σ_{g} + Σ_{r} - 2 (Σ_{g} Σ_{r})^{1 / 2})

其中：

(\mu_g) 和 (\mu_r) 分别表示生成视频和真实视频特征的均值向量；
(\Sigma_g) 和 (\Sigma_r) 分别表示生成视频和真实视频特征的协方差矩阵；
(\text{Tr}) 表示矩阵的迹。

FVD广泛应用于视频生成模型（如GAN、扩散模型）的评估，能够有效反映视频的视觉质量和时间一致性。

1.2 Frechet Inception Distance (FID)

Inception Score仅考虑了模型生成的图像，而未考虑训练集中的图像分布，而且也未考虑生成图像的多样性。因此，Frechet Inception Distance通过计算同一批文本Prompt上的真实图像与生成图像在特征空间中分布之间的距离，衡量生成图像的质量和多样性。分布越接近，则评价结果约好，反之则越差。分布距离计算公式如下：

F I D (P_{r}, P_{g}) = | | μ_{r} - μ_{g} | | + T_{r} (C_{r} + C_{g} - 2 {(C_{r} C_{g})}^{1 / 2}) .

计算FID时，文本Prompt集合为从MS-COCO数据集中选取的30,000条文本，真实图像集合为其对应的30,000张图像，生成图像集合为待评测模型根据文本Prompt生成的结果。

1.3 代码

IS指标的计算代码：inception-score-pytorch。

FID指标的计算代码：fvd-comparison。

2. 视频语义一致性

在文本生成视频任务中，不仅需要评估生成视频的质量，还需要评估视频内容与文本Prompt的语义一致性。FVD指标虽然能从整体上评估视频生成质量，但对单个Prompt与生成视频的语义匹配敏感度不足。我们发现当前文本生成视频模型在处理包含复杂场景或多对象交互的Prompt时，生成的视频内容与文本语义常出现偏差。此外，视频的时序特性要求模型在时间维度上保持语义连贯性，这对评估提出了更高要求。

2.1 CLIP-SIM

CLIP-SIM通过计算文本嵌入与视频帧嵌入的余弦相似度来量化语义一致性。给定文本Prompt $t$ 和视频 $V = f_{1}, f_{2}, . . ., f_{N}$ （采样N个关键帧），其计算公式为：

CLIP-SIM (t, V) = \frac{1}{N} \sum_{i = 1}^{N} \frac{E_{t} (t) \cdot E_{v} (f_{i})}{| | E_{t} (t) | | \cdot | | E_{v} (f_{i}) | |}

其中 $E_{t} (\cdot)$ 和 $E_{v} (\cdot)$ 分别表示CLIP模型的文本编码器和图像编码器。该指标能有效捕捉文本与视频内容的细粒度语义对应关系，特别是对多对象交互场景的评估具有优势。相比基于分类网络的指标，CLIP-SIM得益于大规模预训练，对开放域内容的语义理解更加鲁棒。

2.3 代码

CLIP-SIM指标的计算代码：clip-score

评测指标 ​

1. 视频质量和多样性 ​

1.1 Frechet Video Distance (FVD) ​

1.2 Frechet Inception Distance (FID) ​

1.3 代码 ​

2. 视频语义一致性 ​

2.1 CLIP-SIM ​

2.3 代码 ​