Skip to content

评测数据

Flickr30k(F30k)

评测指标-1. 召回率(Recall)

数据描述:

Flickr30k(F30k)是一个图像-句子成对数据集,图像来自Flickr网站,句子来自人工标注,每张图像标注5个不同的英文句子。Flickr30k是一个小型的视觉-语言多模态训练与测试基准数据集,可以用于评测图文匹配/跨模态检索等任务,图像内容多来自生活场景,句子描述通常是对于图像内容的直观描述。

数据集构成和规范:

源数据量:

数据集分成训练集(image/sentence: 29000/145000),验证集/开发集(image/sentence: 1014/5070),测试集(image/sentence: 1000/5000)

评测数据量:

评测数据为源数据测试集中的1000个图像实例和与图像相匹配的5000个句子实例

源数据字段:

KEYSEXPLAIN
sentids句子编号列表
imgid图像编号
sentences与图像相匹配的句子
tokens句子中的单词列表
raw句子
sentid句子编号
split所属数据集分割类型
filename图像文件名

源数据集样例:

{
'sentids': [125, 126, 127, 128, 129], 
'imgid': 25, 
'sentences': [
                {
                'tokens': ['the', 'man', 'with', 'pierced', 'ears', 'is', 'wearing', 'glasses', 'and', 'an', 'orange', 'hat'], 
                'raw': 'The man with pierced ears is wearing glasses and an orange hat.', 
                'imgid': 25, 
                'sentid': 125
                }, 
                {
                'tokens': ['a', 'man', 'with', 'glasses', 'is', 'wearing', 'a', 'beer', 'can', 'crocheted', 'hat'], 
                'raw': 'A man with glasses is wearing a beer can crocheted hat.', 
                'imgid': 25, 
                'sentid': 126
                }, 
                {
                'tokens': ['a', 'man', 'with', 'gauges', 'and', 'glasses', 'is', 'wearing', 'a', 'blitz', 'hat'], 
                'raw': 'A man with gauges and glasses is wearing a Blitz hat.', 
                'imgid': 25, 
                'sentid': 127
                }, 
                {
                'tokens': ['a', 'man', 'in', 'an', 'orange', 'hat', 'starring', 'at', 'something'], 
                'raw': 'A man in an orange hat starring at something.', 
                'imgid': 25, 
                'sentid': 128
                }, 
                {
                'tokens': ['a', 'man', 'wears', 'an', 'orange', 'hat', 'and', 'glasses'], 
                'raw': 'A man wears an orange hat and glasses.', 'imgid': 25, 'sentid': 129
                }
             ], 
'split': 'test', 
'filename': '1007129816.jpg'
}

源数据集版权使用说明:

Flickr 30kFlickr 30k & Denotation Graph dataFlickr Terms & Conditions of Use

论文引用:

{Flickr30k,
  title={From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions},
  author={Peter Young, Alice Lai, Micah Hodosh, Julia Hockenmaier},
  year={2014},
  howpublished={https://aclanthology.org/Q14-1006/},
}

Microsoft COCO(MSCOCO)

评测指标-1. 召回率(Recall)

数据描述:

Microsoft COCO(MSCOCO)是一个图像-句子成对数据集,图像来自Flickr网站,句子来自人工标注,每张图像标注5个不同的英文句子。MSCOCO是一个中型的视觉-语言多模态训练与测试基准数据集,可以用于评测图文匹配/跨模态检索等任务,图像内容多来自生活场景,句子描述通常是对于图像内容的直观描述。

数据集构成和规范:

源数据量:

数据集(根据Karpathy's split)分成训练集(image/sentence: 82783/413915),补充训练集/剩余验证集用于训练(image/sentence: 30504/152520),验证集/开发集(image/sentence: 5000/25000),测试集(image/sentence: 5000/25000)

评测数据量:

评测数据为源数据测试集中的5000个图像实例和与图像相匹配的25000个句子实例

源数据字段:

KEYSEXPLAIN
image_id图像编号
id(txt)句子编号
caption句子
license许可证
file_name图像文件名
coco_url图像url原网址(COCO)
height图像高
width图像宽
date_captured拍摄日期
flickr_url图像url原网址(Flickr)
id(img)图像编号

源数据集样例:

{
'image_id': 391895, 
'id': 770337, 
'caption': 'A man with a red helmet on a small moped on a dirt road. '
}
[
    {
    'license': 3, 
    'file_name': 'COCO_val2014_000000391895.jpg', 
    'coco_url': 'http://images.cocodataset.org/val2014/COCO_val2014_000000391895.jpg', 
    'height': 360, 
    'width': 640, 
    'date_captured': '2013-11-14 11:18:45', 
    'flickr_url': 'http://farm9.staticflickr.com/8186/8119368305_4e622c8349_z.jpg', 
    'id': 391895
    }
]

源数据集版权使用说明:

COCOTerms of Use

论文引用:

{Microsoft COCO(MSCOCO),
  title={Microsoft COCO: Common Objects in Context},
  author={Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár & C. Lawrence Zitnick},
  year={2014},
  howpublished={http://link.springer.com/chapter/10.1007/978-3-319-10602-1_48},
}