文本-图像匹配：

与图像-文本匹配运行脚本相同，区别在计算指标时，文本-图像匹配会计算t2i_Recall

评测数据

Flickr30k(F30k)

数据描述：

Flickr30k(F30k)是一个图像-句子成对数据集，图像来自Flickr网站，句子来自人工标注，每张图像标注5个不同的英文句子。Flickr30k是一个小型的视觉-语言多模态训练与测试基准数据集，可以用于评测图文匹配/跨模态检索等任务，图像内容多来自生活场景，句子描述通常是对于图像内容的直观描述。

数据集构成和规范：

源数据量：

数据集分成训练集(image/sentence: 29000/145000)，验证集/开发集(image/sentence: 1014/5070)，测试集(image/sentence: 1000/5000)

评测数据量:

评测数据为源数据测试集中的1000个图像实例和与图像相匹配的5000个句子实例

源数据字段：

KEYS	EXPLAIN
sentids	句子编号列表
imgid	图像编号
sentences	与图像相匹配的句子
tokens	句子中的单词列表
raw	句子
sentid	句子编号
split	所属数据集分割类型
filename	图像文件名

源数据集样例：

{
'sentids': [125, 126, 127, 128, 129], 
'imgid': 25, 
'sentences': [
                {
                'tokens': ['the', 'man', 'with', 'pierced', 'ears', 'is', 'wearing', 'glasses', 'and', 'an', 'orange', 'hat'], 
                'raw': 'The man with pierced ears is wearing glasses and an orange hat.', 
                'imgid': 25, 
                'sentid': 125
                }, 
                {
                'tokens': ['a', 'man', 'with', 'glasses', 'is', 'wearing', 'a', 'beer', 'can', 'crocheted', 'hat'], 
                'raw': 'A man with glasses is wearing a beer can crocheted hat.', 
                'imgid': 25, 
                'sentid': 126
                }, 
                {
                'tokens': ['a', 'man', 'with', 'gauges', 'and', 'glasses', 'is', 'wearing', 'a', 'blitz', 'hat'], 
                'raw': 'A man with gauges and glasses is wearing a Blitz hat.', 
                'imgid': 25, 
                'sentid': 127
                }, 
                {
                'tokens': ['a', 'man', 'in', 'an', 'orange', 'hat', 'starring', 'at', 'something'], 
                'raw': 'A man in an orange hat starring at something.', 
                'imgid': 25, 
                'sentid': 128
                }, 
                {
                'tokens': ['a', 'man', 'wears', 'an', 'orange', 'hat', 'and', 'glasses'], 
                'raw': 'A man wears an orange hat and glasses.', 'imgid': 25, 'sentid': 129
                }
             ], 
'split': 'test', 
'filename': '1007129816.jpg'
}

源数据集版权使用说明：

Flickr 30k Flickr 30k & Denotation Graph data Flickr Terms & Conditions of Use

论文引用：

{Flickr30k,
  title={From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions},
  author={Peter Young, Alice Lai, Micah Hodosh, Julia Hockenmaier},
  year={2014},
  howpublished={https://aclanthology.org/Q14-1006/},
}

Microsoft COCO(MSCOCO)

评测指标-1. 召回率(Recall)

数据描述：

Microsoft COCO(MSCOCO)是一个图像-句子成对数据集，简称COOO，图像来自Flickr网站，句子来自人工标注，每张图像标注5个不同的英文句子。MSCOCO是一个中型的视觉-语言多模态训练与测试基准数据集，可以用于评测图文匹配/跨模态检索等任务，图像内容多来自生活场景，句子描述通常是对于图像内容的直观描述。

数据集构成和规范：

源数据量：

数据集(根据Karpathy's split)分成训练集(image/sentence: 82783/413915)，补充训练集/剩余验证集用于训练(image/sentence: 30504/152520)，验证集/开发集(image/sentence: 5000/25000)，测试集(image/sentence: 5000/25000)

评测数据量:

评测数据为源数据测试集中的5000个图像实例和与图像相匹配的25000个句子实例

源数据字段：

KEYS	EXPLAIN
image_id	图像编号
id(txt)	句子编号
caption	句子
license	许可证
file_name	图像文件名
coco_url	图像url原网址(COCO)
height	图像高
width	图像宽
date_captured	拍摄日期
flickr_url	图像url原网址(Flickr)
id(img)	图像编号

源数据集样例：

{
'image_id': 391895, 
'id': 770337, 
'caption': 'A man with a red helmet on a small moped on a dirt road. '
}
[
    {
    'license': 3, 
    'file_name': 'COCO_val2014_000000391895.jpg', 
    'coco_url': 'http://images.cocodataset.org/val2014/COCO_val2014_000000391895.jpg', 
    'height': 360, 
    'width': 640, 
    'date_captured': '2013-11-14 11:18:45', 
    'flickr_url': 'http://farm9.staticflickr.com/8186/8119368305_4e622c8349_z.jpg', 
    'id': 391895
    }
]

源数据集版权使用说明：

COCO Terms of Use

论文引用：

{Microsoft COCO(MSCOCO),
  title={Microsoft COCO: Common Objects in Context},
  author={Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár & C. Lawrence Zitnick},
  year={2014},
  howpublished={http://link.springer.com/chapter/10.1007/978-3-319-10602-1_48},
}

文本-图像匹配： ​

评测数据 ​

Flickr30k(F30k) ​

数据描述： ​

数据集构成和规范： ​

源数据量： ​

评测数据量: ​

源数据字段： ​

源数据集样例： ​

源数据集版权使用说明： ​

论文引用： ​

Microsoft COCO(MSCOCO) ​

数据描述： ​

数据集构成和规范： ​

源数据量： ​

评测数据量: ​

源数据字段： ​

源数据集样例： ​

源数据集版权使用说明： ​

论文引用： ​

文本-图像匹配：

评测数据

Flickr30k(F30k)

数据描述：

数据集构成和规范：

源数据量：

评测数据量:

源数据字段：

源数据集样例：

源数据集版权使用说明：

论文引用：

Microsoft COCO(MSCOCO)

数据描述：

数据集构成和规范：

源数据量：

评测数据量:

源数据字段：

源数据集样例：

源数据集版权使用说明：

论文引用：