评测指标
1. 图像质量和多样性
图像质量指的是模型生成图像的视觉质量,包括图像清晰度、图像内容合理性等。图像多样性指的是模型生成图像间是否存在足够的差异性,不应出现所有生成的图像几乎一致的情况,否则图像生成任务将失去意义。
图像质量和多样性缺少客观的评价方式,因而我们列举了基于预训练图像特征提取网络的评价指标及其计算方式。
1.1 Frechet Inception Distance (FID)
Inception Score仅考虑了模型生成的图像,而未考虑训练集中的图像分布,而且也未考虑生成图像的多样性。因此,Frechet Inception Distance通过计算同一批文本Prompt上的真实图像与生成图像在特征空间中分布之间的距离,衡量生成图像的质量和多样性。分布越接近,则评价结果约好,反之则越差。分布距离计算公式如下:
计算FID时,文本Prompt集合为从MS-COCO数据集中选取的30,000条文本,真实图像集合为其对应的30,000张图像,生成图像集合为待评测模型根据文本Prompt生成的结果。
1.2 CLIPScore
CLIPScore是一个用于评估图文一致性的指标。通过将输入的图像和prompt放入到特征提取器(CLIP)中获取embedding,然后计算两者的余弦距离来评估图像和文字的相似程度。本评测中使用了基于VIT-L-14的CLIP模型用于评测
1.3 AestheticScore
使用LAION-AI的aesthetic-predictor进行图像美学质量打分,得到aesthetic score,这是一个基于CLIP模型的线性估计器,旨在预测图像的审美质量。通过加载一个预先训练好的模型,可以对输入的图片进行评分,从而评估其审美价值。本评测中使用了sa_0_4_vit_l_14_linear模型用来计算生成图片的美学分数。