评测数据
Flickr30k(F30k)
数据描述:
Flickr30k(F30k)是一个图像-句子成对数据集,图像来自Flickr网站,句子来自人工标注,每张图像标注5个不同的英文句子。Flickr30k是一个小型的视觉-语言多模态训练与测试基准数据集,可以用于评测图文匹配/跨模态检索等任务,图像内容多来自生活场景,句子描述通常是对于图像内容的直观描述。
数据集构成和规范:
源数据量:
数据集分成训练集(image/sentence: 29000/145000),验证集/开发集(image/sentence: 1014/5070),测试集(image/sentence: 1000/5000)
评测数据量:
评测数据为源数据测试集中的1000个图像实例和与图像相匹配的5000个句子实例
源数据字段:
KEYS | EXPLAIN |
---|---|
sentids | 句子编号列表 |
imgid | 图像编号 |
sentences | 与图像相匹配的句子 |
tokens | 句子中的单词列表 |
raw | 句子 |
sentid | 句子编号 |
split | 所属数据集分割类型 |
filename | 图像文件名 |
源数据集样例:
{
'sentids': [125, 126, 127, 128, 129],
'imgid': 25,
'sentences': [
{
'tokens': ['the', 'man', 'with', 'pierced', 'ears', 'is', 'wearing', 'glasses', 'and', 'an', 'orange', 'hat'],
'raw': 'The man with pierced ears is wearing glasses and an orange hat.',
'imgid': 25,
'sentid': 125
},
{
'tokens': ['a', 'man', 'with', 'glasses', 'is', 'wearing', 'a', 'beer', 'can', 'crocheted', 'hat'],
'raw': 'A man with glasses is wearing a beer can crocheted hat.',
'imgid': 25,
'sentid': 126
},
{
'tokens': ['a', 'man', 'with', 'gauges', 'and', 'glasses', 'is', 'wearing', 'a', 'blitz', 'hat'],
'raw': 'A man with gauges and glasses is wearing a Blitz hat.',
'imgid': 25,
'sentid': 127
},
{
'tokens': ['a', 'man', 'in', 'an', 'orange', 'hat', 'starring', 'at', 'something'],
'raw': 'A man in an orange hat starring at something.',
'imgid': 25,
'sentid': 128
},
{
'tokens': ['a', 'man', 'wears', 'an', 'orange', 'hat', 'and', 'glasses'],
'raw': 'A man wears an orange hat and glasses.', 'imgid': 25, 'sentid': 129
}
],
'split': 'test',
'filename': '1007129816.jpg'
}
源数据集版权使用说明:
Flickr 30kFlickr 30k & Denotation Graph dataFlickr Terms & Conditions of Use
论文引用:
{Flickr30k,
title={From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions},
author={Peter Young, Alice Lai, Micah Hodosh, Julia Hockenmaier},
year={2014},
howpublished={https://aclanthology.org/Q14-1006/},
}
Microsoft COCO(MSCOCO)
数据描述:
Microsoft COCO(MSCOCO)是一个图像-句子成对数据集,图像来自Flickr网站,句子来自人工标注,每张图像标注5个不同的英文句子。MSCOCO是一个中型的视觉-语言多模态训练与测试基准数据集,可以用于评测图文匹配/跨模态检索等任务,图像内容多来自生活场景,句子描述通常是对于图像内容的直观描述。
数据集构成和规范:
源数据量:
数据集(根据Karpathy's split)分成训练集(image/sentence: 82783/413915),补充训练集/剩余验证集用于训练(image/sentence: 30504/152520),验证集/开发集(image/sentence: 5000/25000),测试集(image/sentence: 5000/25000)
评测数据量:
评测数据为源数据测试集中的5000个图像实例和与图像相匹配的25000个句子实例
源数据字段:
KEYS | EXPLAIN |
---|---|
image_id | 图像编号 |
id(txt) | 句子编号 |
caption | 句子 |
license | 许可证 |
file_name | 图像文件名 |
coco_url | 图像url原网址(COCO) |
height | 图像高 |
width | 图像宽 |
date_captured | 拍摄日期 |
flickr_url | 图像url原网址(Flickr) |
id(img) | 图像编号 |
源数据集样例:
{
'image_id': 391895,
'id': 770337,
'caption': 'A man with a red helmet on a small moped on a dirt road. '
}
[
{
'license': 3,
'file_name': 'COCO_val2014_000000391895.jpg',
'coco_url': 'http://images.cocodataset.org/val2014/COCO_val2014_000000391895.jpg',
'height': 360,
'width': 640,
'date_captured': '2013-11-14 11:18:45',
'flickr_url': 'http://farm9.staticflickr.com/8186/8119368305_4e622c8349_z.jpg',
'id': 391895
}
]
源数据集版权使用说明:
论文引用:
{Microsoft COCO(MSCOCO),
title={Microsoft COCO: Common Objects in Context},
author={Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár & C. Lawrence Zitnick},
year={2014},
howpublished={http://link.springer.com/chapter/10.1007/978-3-319-10602-1_48},
}