注意事项
TDIUC数据集中counting类型的问题GT标注均为英文单词,而非阿拉伯数字,在模型评测时应注意转换,可使用num2words转换为对应英文单词;VQA2.0和VQA-CP数据集中此类型答案基本为阿拉伯数字,类似"three"的单词基本出现在短语中,因此在评测不同数据集时应注意此类型问题答案的格式。
评测数据
VQA2.0
数据描述:
VQA数据集包含有关图像的开放式问题,这些问题需要理解视觉、语言和常识知识才能回答。数据集选取了来自COCO和abstract scenes的265016张图像,每张图片至少3个问题(平均5.4个问题),每个问题10个真实答案,其中三个看似合理(但可能不正确)。我们选取其中balanced real images部分。
数据集构成和规范:
源数据量:
数据集分成训练集(82783),验证集(40504),测试集(81434)
评测数据量:
评测数据为源数据验证集中的40594个实例,共214354个question-answer pairs。
源数据字段:
Questions:
KEYS | EXPLAIN |
---|---|
info | 信息 |
task_type | json文件的注释类型 |
data_type | 图片来源 |
data_subtype | 属于训练集或测试集 |
questions | 问题 |
license | 许可 |
Annotations:
KEYS | EXPLAIN |
---|---|
info | 信息 |
data_type | 图片来源 |
data_subtype | 属于训练集或测试集 |
annotations | 标注 |
license | 许可 |
适配方法
BLIP
介绍
BLIP模型是由Salesforce公司提出的一种基于Transformer架构的多模态预训练模型,通过引入一种全新的多模态混合架构MED,可以分别作为单模态编码器(包括图像编码器和文本编码器)、图像引导文本编码器和图像引导文本解码器来进行操作,从而统一多模态的理解和生成任务。此外,BLIP还通过引入Captioner-Filter机制减少了监督文本的噪声,该模型在图像文本匹配、图像字幕生成、视觉问答等多模态任务中取得了良好的性能和广泛应用。
论文引用
@inproceedings{li2022blip,
title={Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation},
author={Li, Junnan and Li, Dongxu and Xiong, Caiming and Hoi, Steven},
booktitle={International conference on machine learning},
pages={12888--12900},
year={2022},
organization={PMLR}
}
源数据集版权使用说明:
http://creativecommons.org/licenses/by/4.0/
论文引用:
{{VQA},
author = {Stanislaw Antol and Aishwarya Agrawal and Jiasen Lu and Margaret Mitchell and Dhruv Batra and C. Lawrence Zitnick and Devi Parikh},
title = {{VQA}: {V}isual {Q}uestion {A}nswering},
booktitle = {International Conference on Computer Vision (ICCV)},
year = {2015},
}
TDIUC
数据描述:
TDIUC是一个新数据集,它将VQA分为12个组成任务,从而更容易测量和比较VQA算法的性能。VQA涵盖了许多其他计算机视觉的问题,例如目标检测、目标分类、属性分类、位置推理、计数等,之前的数据集对于某些类型的问题严重不平衡,例如,在许多数据集中,对象存在问题比需要位置推理的问题更为常见,这意味着擅长位置推理的算法无法在这些数据集上展示其能力,TDIUC的性能指标弥补了这种偏差。其他数据集的另一个问题是许多问题可以仅从问题中得到答案,因此算法会忽略图像,TDIUC引入了荒谬的问题,要求算法查看图像以确定问题是否适合该图像。
数据集构成和规范:
源数据量:
共167437张图片(来自MS-COCO和Visual Genome),1654167个question-answer对,其中训练集包含1115299个问题答案对,验证集包含538868个问题答案对。
评测数据量:
评测数据为源数据公开验证集中的538868个question-answer pairs
数据字段:
Questions:
KEYS | EXPLAIN |
---|---|
info | 信息 |
task_type | json文件的注释类型 |
data_type | 图片来源 |
data_subtype | 属于训练集或测试集 |
questions | 问题 |
licence | 许可 |
Annotations:
KEYS | EXPLAIN |
---|---|
info | 信息 |
task_type | json文件的注释类型 |
data_type | 图片来源 |
data_subtype | 属于训练集或测试集 |
annotations | 标注 |
licence | 许可 |
适配方法
BLIP
介绍
BLIP模型是由Salesforce公司提出的一种基于Transformer架构的多模态预训练模型,通过引入一种全新的多模态混合架构MED,可以分别作为单模态编码器(包括图像编码器和文本编码器)、图像引导文本编码器和图像引导文本解码器来进行操作,从而统一多模态的理解和生成任务。此外,BLIP还通过引入Captioner-Filter机制减少了监督文本的噪声,该模型在图像文本匹配、图像字幕生成、视觉问答等多模态任务中取得了良好的性能和广泛应用。
论文引用
@inproceedings{li2022blip,
title={Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation},
author={Li, Junnan and Li, Dongxu and Xiong, Caiming and Hoi, Steven},
booktitle={International conference on machine learning},
pages={12888--12900},
year={2022},
organization={PMLR}
}
源数据集版权使用说明:
http://creativecommons.org/licenses/by/4.0/
论文引用:
{kafle2017analysis,
title={An Analysis of Visual Question Answering Algorithms},
author={Kafle, Kushal and Kanan, Christopher},
booktitle={ICCV},
year={2017}
}
VQA-CP
数据描述:
VQA-CP v1,v2数据集是通过分别重新组织VQA v1和VQA v2数据集的训练集和验证集来创建的,使得每个问题类型的答案(例如,“有多少”、“什么颜色”等)在训练集和测试集中的分布是不同的。我们选取VQA-CP v2进行评测。
数据集构成和规范:
源数据量:
训练集包含个438183问题答案,测试集包含219928个问题答案,每个问题同样包含10个真实答案
评测数据量:
评测数据为源数据公开测试集中的219928个question-answer pairs
源数据字段:
Questions
KEYS | EXPLAIN |
---|---|
question_id | 问题id |
image_id | 图片id |
coco_split | 图片来自coco的训练集或验证集 |
question | 问题 |
Annotations
KEYS | EXPLAIN |
---|---|
question_id | 问题id |
image_id | 图片id |
coco_split | 图片来自coco的训练集或验证集 |
question_type | 问题类型 |
answer_type | 答案类型 |
multiple_choice_answer | 正确的多项选择答案 |
answers | 答案 |
适配方法
BLIP
介绍
BLIP模型是由Salesforce公司提出的一种基于Transformer架构的多模态预训练模型,通过引入一种全新的多模态混合架构MED,可以分别作为单模态编码器(包括图像编码器和文本编码器)、图像引导文本编码器和图像引导文本解码器来进行操作,从而统一多模态的理解和生成任务。此外,BLIP还通过引入Captioner-Filter机制减少了监督文本的噪声,该模型在图像文本匹配、图像字幕生成、视觉问答等多模态任务中取得了良好的性能和广泛应用。
论文引用
@inproceedings{li2022blip,
title={Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation},
author={Li, Junnan and Li, Dongxu and Xiong, Caiming and Hoi, Steven},
booktitle={International conference on machine learning},
pages={12888--12900},
year={2022},
organization={PMLR}
}
论文引用:
{vqa-cp,
author = {Aishwarya Agrawal and Dhruv Batra and Devi Parikh and Aniruddha Kembhavi},
title = {Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering},
booktitle = {IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2018},
}
MMMU
数据描述
全称Massive Multi-discipline Multimodal Understanding,这是一个新的基准测试,旨在评估多模态模型在需要大学级学科知识和深思熟虑推理的大规模多学科任务上的表现。MMMU包括来自大学考试、测验和教科书的11.5K个精心收集的多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程。这些问题涵盖30个学科和183个子领域,包括30种高度异构的图像类型,如图表、图表、地图、表格、乐谱和化学结构。
数据集构成
我们选取原始数据验证集,包含900个问题,包括选择题和填空题。
源数据集版权使用说明:
apache-2.0
论文引用
@article{yue2023mmmu, title={Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi}, author={Yue, Xiang and Ni, Yuansheng and Zhang, Kai and Zheng, Tianyu and Liu, Ruoqi and Zhang, Ge and Stevens, Samuel and Jiang, Dongfu and Ren, Weiming and Sun, Yuxuan and others}, journal={arXiv preprint arXiv:2311.16502}, year={2023} }
Seed-bench
数据描述
SEED-Bench是一个大规模基准测试,用于评估多模态大型语言模型(MLLMs)。它包括19,000个具有准确人工标注的多项选择问题,涵盖了12个评估维度,包括对图像和视频模态的理解。
SEED-Bench收集于2023年7月。
数据集构成
我们在原始数据中,选取了14232道选择题作为平台的测试数据。
源数据集版权使用说明:
http://creativecommons.org/licenses/by/4.0/
论文引用
@article{li2023seed,
title={Seed-bench: Benchmarking multimodal llms with generative comprehension},
author={Li, Bohao and Wang, Rui and Wang, Guangzhi and Ge, Yuying and Ge, Yixiao and Shan, Ying},
journal={arXiv preprint arXiv:2307.16125},
year={2023}
}
CMMU
评测指标:
- 单选题:CircularEval下的Accuracy
- 多选题:Accuracy
- 填空题:先基于规则在模型输出的结果中提取答案,然后计算与标准答案的相似度,相似度 > 0.7 认为是正确。计算方式:difflib.SequenceMatcher(None, cleaned_answer, gt).ratio()
数据描述
目前中文多模态模型领域缺乏全面、中立的评测基准。因此,为了推动该领域的进一步发展,智源研究院提出 CMMU —— 中文多模态多题型理解及推理评测基准,当前发布的 CMMU v0.1 版本从中国教育体系规范指导下的全国小学、初中、高中考试题中抽取并制作了 3603道题目,题型包括单选题、多选题、填空题,并采用多重评测手段避免模型“随机猜对答案”。
数据集构成
CMMU v0.1版本包含 3603 道题目,带有答案解析的题目有2585道。按照1:1划分验证集和测试集(验证集包含1800道题,测试集包含1803道题),验证集将完全公开,方便研究人员测试模型。
- 按照学段来划分,小学题目有250道,初中和高中分别为1697和1656道,其中,小学只包含了数学一门学科,初中和高中包含了七门学科。
- 难度划分为“普通”和“困难”的题目分布比例大致为8:2,难度划分依据是有经验的教师按照题目难度将分为“普通”和“困难”两类。
源数据集版权使用说明:
CMMMU
数据描述
CMMMU包括了来自大学考试、测验和教科书的12,000个手动收集的多模态问题,涵盖了艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程等六个核心学科,与其伴侣MMMU类似。这些问题涉及30个学科,包括39种高度异构的图像类型,如图表、图表、地图、表格、乐谱和化学结构。
数据集构成
我们选取原始数据验证集,包含900个问题,包括选择题,判断题和填空题。
源数据集版权使用说明:
apache-2.0
论文引用
@article{zhang2024cmmmu, title={CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark}, author={Ge, Zhang and Xinrun, Du and Bei, Chen and Yiming, Liang and Tongxu, Luo and Tianyu, Zheng and Kang, Zhu and Yuyang, Cheng and Chunpu, Xu and Shuyue, Guo and Haoran, Zhang and Xingwei, Qu and Junjie, Wang and Ruibin, Yuan and Yizhi, Li and Zekun, Wang and Yudong, Liu and Yu-Hsuan, Tsai and Fengji, Zhang and Chenghua, Lin and Wenhao, Huang and Wenhu, Chen and Jie, Fu}, journal={arXiv preprint arXiv:2401.20847}, year={2024}, }
ChartQA
评测指标:relaxed_accuracy (https://github.com/google-research/pix2struct/blob/main/pix2struct/metrics.py#L81)
数据描述
图表在数据分析中非常受欢迎。当探索图表时,人们经常提出各种涉及多种逻辑和算术操作的复杂推理问题。他们也经常在问题中参考图表的视觉特征。然而,大多数现有数据集并不专注于这种复杂的推理问题,因为它们的问题基于模板,并且答案来自固定的词汇表。ChartQA是一个大规模的基准,涵盖了9.6K个人工编写的问题以及从人工编写的图表摘要生成的23.1K个问题。
数据集构成
我们选取原始数据测试集部分,包括1250个问题
源数据集版权使用说明:
GPL-3.0 license
论文引用
@inproceedings{masry-etal-2022-chartqa, title = "{C}hart{QA}: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning", author = "Masry, Ahmed and Long, Do and Tan, Jia Qing and Joty, Shafiq and Hoque, Enamul", booktitle = "Findings of the Association for Computational Linguistics: ACL 2022", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.findings-acl.177", doi = "10.18653/v1/2022.findings-acl.177", pages = "2263--2279", }
MathVista
数据描述
MATHVISTA数据集是一个为了评估大型语言模型(LLMs)和大型多模态模型(LMMs)在视觉背景下的数学推理能力而设计的基准测试。该数据集由6,141个示例组成,这些示例来源于28个现有的多模态数据集,这些数据集涉及数学问题,以及3个新创建的数据集(IQTest、FunctionQA和PaperQA)。完成这些任务需要深入的视觉理解能力和组合推理能力,这些能力即使是最先进的基础模型也难以应对。
数据集构成
我们选取原始数据的testmini集合,包含1000个问题,包括选择题,问答题。
源数据集版权使用说明:
cc-by-sa-4.0
论文引用
@inproceedings{lu2024mathvista, author = {Lu, Pan and Bansal, Hritik and Xia, Tony and Liu, Jiacheng and Li, Chunyuan and Hajishirzi, Hannaneh and Cheng, Hao and Chang, Kai-Wei and Galley, Michel and Gao, Jianfeng}, title = {MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts}, booktitle = {International Conference on Learning Representations (ICLR)}, year = {2024} }
MMBench
评测指标:CircularEval评测选择题 在这种策略下,每个问题会被多次(等于选项数量)输入到VLM中,每次输入时都会对选项进行循环移位,以生成新的提示。VLM只有在所有循环通过中都能正确预测答案的情况下,才被认为是成功解决了该问题。
数据描述
MMBench是一个新颖的多模态基准测试,旨在全面评估大型视觉-语言模型(VLMs)的性能。该基准测试由大约3000个单选问题组成,涵盖了20个不同的能力维度,这些问题旨在系统地评估VLMs在诸如对象定位、社会推理等不同领域的能力。每个能力维度包含超过75个问题,以确保对各种能力的平衡和全面评估。
数据集构成
我们选取原始数据的dev集合,包含1164个选择题,有中文和英文两种版本。
源数据集版权使用说明:
Apache-2.0 license
论文引用
@article{MMBench, author = {Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, Kai Chen, Dahua Lin}, journal = {arXiv:2307.06281}, title = {MMBench: Is Your Multi-modal Model an All-around Player?}, year = {2023}, }
TextVQA
评测指标:VQA accuracy(https://visualqa.org/evaluation.html)
数据描述
TextVQA是一个专注于视觉问答(Visual Question Answering, VQA)领域的数据集,它旨在推动VQA模型在理解和处理图像中文本信息方面的能力。 TextVQA数据集包含了45,336个问题,这些问题是基于28,408张图像提出的,这些问题需要对图像中的文本进行推理才能回答。这些问题是由人类标注者提出的,他们被要求提出需要通过阅读图像中的文本来解答的问题。每个问题都有10个由人类标注者提供的答案,这些问题和答案的多样性和复杂性表明,VQA模型需要具备阅读和理解文本的能力
数据集构成
我们选取原始数据的val集合,包含5000个问题。
源数据集版权使用说明:
CC BY 4.0
论文引用
@article{Singh2019TextVQA, title={Towards VQA Models That Can Read}, author={Singh, Amanpreet and Natarajan, Vivek and Shah, Meet and Jiang, Yu and Chen, Xinlei and Batra, Dhruv and Parikh, Devi and Rohrbach, Marcus}, journal={arXiv preprint arXiv:1904.08920}, year={2019} }
ScienceQA
数据描述
ScienceQA是一个大规模的多模态科学问题回答数据集,由加州大学洛杉矶分校、亚利桑那州立大学和Allen人工智能研究所共同开发。该数据集旨在提高人工智能系统在科学问题回答中的多跳推理能力和可解释性。它包含了约21,208个问题,这些问题源自小学至高中的科学课程,涵盖了自然科学、社会科学和语言科学等多个学科领域。 每个问题都配有多种类型的上下文信息,如文本、图像(包括自然图像和图表)、选项以及正确答案。与众不同的是,ScienceQA不仅提供了问题的正确答案,还提供了详尽的讲解(lecture)和解释(explanation),这些讲解和解释旨在揭示解题过程中的推理链条(Chain of Thought,CoT),类似于人类解决问题时的思考过程。这种详细的注释有助于训练和评估AI模型如何理解和解释复杂的科学问题。
数据集构成
我们选取原始数据的测试集合,包含2017个问题。
源数据集版权使用说明:
MIT license
论文引用
@inproceedings{lu2022learn, title={Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering}, author={Lu, Pan and Mishra, Swaroop and Xia, Tony and Qiu, Liang and Chang, Kai-Wei and Zhu, Song-Chun and Tafjord, Oyvind and Clark, Peter and Ashwin Kalyan}, booktitle={The 36th Conference on Neural Information Processing Systems (NeurIPS)}, year={2022} }
HallusionBench
数据描述
HallusionBench是一个高级诊断套件,专为评估图像-上下文推理而设计。该数据集对先进的大型视觉-语言模型(LVLMs)提出了重大挑战,例如GPT-4V(ision)、Gemini Pro Vision、Claude 3和LLaVA1.5,强调对视觉数据的细微理解和解释。HallusionBench由346张图像和1129个问题组成,所有这些都是由人类专家精心制作的。HallusionBench的目标是通过提供更多的主题、更多的图像类型和更多的视觉输入模态(包括图像和视频),来填补现有基准测试在幻觉评估方面的空白。此外,HallusionBench专注于评估语言幻觉和视觉幻觉,超越了对象幻觉的狭窄范围。
数据集构成
选取原始数据中的346张图像和951个和图片相关的问题。
源数据集版权使用说明
论文引用
@misc{guan2023hallusionbench, title={HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination & Visual Illusion in Large Vision-Language Models}, author={Tianrui Guan and Fuxiao Liu and Xiyang Wu and Ruiqi Xian and Zongxia Li and Xiaoyu Liu and Xijun Wang and Lichang Chen and Furong Huang and Yaser Yacoob and Dinesh Manocha and Tianyi Zhou}, year={2023}, eprint={2310.14566}, archivePrefix={arXiv}, primaryClass={cs.CV} }
Charxiv
数据描述:
CharXiv,是一个综合评估套件,涉及来自科学论文的 2,323 个自然、具有挑战性和多样化的图表。 CharXiv 包括两种类型的问题: (1) 有关检查基本图表元素的描述性问题,以及 (2) 需要综合图表中复杂视觉元素信息的推理问题。为了确保质量,所有图表和问题均由人类专家精心挑选、策划和验证。
数据集构成和规范:
源数据量:
数据集分成验证集(1k) ,测试集(1.32k)
论文引用:
@article{wang2024charxiv,
title={CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs},
author={Wang, Zirui and Xia, Mengzhou and He, Luxi and Chen, Howard and Liu, Yitao and Zhu, Richard and Liang, Kaiqu and Wu, Xindi and Liu, Haotian and Malladi, Sadhika and Chevalier, Alexis and Arora, Sanjeev and Chen, Danqi},
journal={arXiv preprint arXiv:2406.18521},
year={2024}
}
源数据集版权使用说明:
CC BY-SA 4.0
CV_Bench
数据描述:
CV-Bench (Cambrian Vision-Centric Benchmark) 是一个全面的视觉评估基准数据集,包含 2,638 个经过人工验证的样本。该数据集通过重新利用标准视觉基准数据集(如 ADE20k、COCO 和 OMNI3D),评估多模态模型在经典视觉任务中的表现。数据集主要关注两个方面:2D 理解(通过空间关系和物体计数)和 3D 理解(通过深度顺序和相对距离)。每个样本包含图像、问题、多个选项和正确答案等字段。该基准的独特之处在于它将传统视觉任务转化为自然语言问题,从而在多模态环境下测试模型的基础视觉理解能力。
数据集构成和规范:
源数据量:
该数据集包含 2,638 个经过人工验证的样本。
论文引用:
@misc{tong2024cambrian1,
title={Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs},
author={Shengbang Tong and Ellis Brown and Penghao Wu and Sanghyun Woo and Manoj Middepogu and Sai Charitha Akula and Jihan Yang and Shusheng Yang and Adithya Iyer and Xichen Pan and Austin Wang and Rob Fergus and Yann LeCun and Saining Xie},
year={2024},
eprint={2406.16860},
}
MathVerse
数据描述:
MathVerse 是一个专门用于评估多模态大语言模型(MLLMs)在数学视觉问题解决能力的基准数据集。该数据集包含 2,612 个高质量的数学视觉问题,涵盖平面几何、立体几何和函数三个主要领域,并细分为 12 个详细类别。每个问题都被转化为 6 个不同版本,提供不同程度的多模态信息内容,总计产生 15,000 个测试样本。数据集的独特之处在于它能全面评估模型是否真正理解数学图表进行推理。
数据集构成和规范:
源数据量:
该数据集包含 2,612 个高质量的数学视觉问题,总计产生 15,000 个测试样本。
论文引用:
@inproceedings{zhang2024mathverse,
title={MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?},
author={Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li},
booktitle={arXiv},
year={2024}
}
MMMU-Pro
数据描述:
MMMU-Pro (A More Robust Multi-discipline Multimodal Understanding Benchmark) 是 MMMU 基准测试的增强版本,旨在更严格地评估先进 AI 模型的多模态理解能力。该数据集包含两个子集:标准子集和视觉子集。标准子集将候选答案从4个增加到10个,而视觉子集要求模型直接从截图或照片中整合视觉和文本信息来回答问题。数据集涵盖了多个学科领域,包括艺术、科学、医学等。
论文引用:
@article{yue2024mmmu,
title={MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark},
author={Xiang Yue and Tianyu Zheng and Yuansheng Ni and Yubo Wang and Kai Zhang and Shengbang Tong and Yuxuan Sun and Botao Yu and Ge Zhang and Huan Sun and Yu Su and Wenhu Chen and Graham Neubig},
journal={arXiv preprint arXiv:2409.02813},
year={2024}
}
MM-Vet v2
数据描述:
MM-Vet v2 是 MM-Vet 基准测试的增强版本,专门设计用于评估大型多模态模型的综合能力。该数据集在原有的六个核心视觉-语言能力评估(识别、知识、空间感知、语言生成、OCR和数学)基础上,新增了"图文序列理解"能力的评估,以更好地模拟真实场景中交错的图像和文本序列。这个基准测试为评估多模态模型的实际应用能力提供了更全面和严格的标准。
OCRBench
数据描述:
OCRBench 是一个全面的评估基准数据集,旨在评估大型多模态模型(在文本相关视觉任务中的能力。该数据集涵盖了五个主要任务:文本识别、场景文本视觉问答(VQA)、文档导向VQA、关键信息提取(KIE)和手写数学表达式识别(HMER)。数据集包含 1000 个经过人工验证和修正的问答对,涉及 29 个子数据集。
数据集构成和规范:
源数据量:
数据集包含 1000 个经过人工验证和修正的问答对,涉及 29 个子数据集。
论文引用:
@misc{liu2024ocrbenchhiddenmysteryocr,
title={OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models},
author={Yuliang Liu and Zhang Li and Mingxin Huang and Biao Yang and Wenwen Yu and Chunyuan Li and Xucheng Yin and Cheng-lin Liu and Lianwen Jin and Xiang Bai},
year={2024},
eprint={2305.07895},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2305.07895},
}
CII-Bench
数据描述:
CII-Bench (Chinese Image Implication Understanding Benchmark) 是首个专门评估多模态大语言模型对中国图像深层含义理解能力的基准数据集。该数据集包含 698 张图像,涵盖生活、艺术、社会、政治、环境和中国传统文化六大领域,共设计了 800 个多选题。数据集的独特之处在于所有图像都来源于中国互联网并经过人工审核,特别加入了能深度反映中国传统文化的名画等内容。
数据集构成和规范:
源数据量:
该数据集包含 698 张中国图像,涵盖生活、艺术、社会、政治、环境和中国传统文化六大领域,共设计了 800 个多选题。
论文引用:
@misc{zhang2024mllmsunderstanddeepimplication,
title={Can MLLMs Understand the Deep Implication Behind Chinese Images?},
author={Chenhao Zhang and Xi Feng and Yuelin Bai and Xinrun Du and Jinchang Hou and Kaixin Deng and Guangzeng Han and Qinrui Li and Bingli Wang and Jiaheng Liu and Xingwei Qu and Yifei Zhang and Qixuan Zhao and Yiming Liang and Ziqiang Liu and Feiteng Fang and Min Yang and Wenhao Huang and Chenghua Lin and Ge Zhang and Shiwen Ni},
year={2024},
eprint={2410.13854},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2410.13854},
}
Math_Vision
数据描述:
MATH-V (Math-Vision) 是一个专门用于评估大型多模态模型数学推理能力的基准数据集。该数据集包含 3,040 个高质量的数学问题,这些问题来源于真实的数学竞赛,涵盖了 16 个不同的数学学科(包括代数、解析几何、算术、组合几何等),并按 5 个难度等级进行分类。数据集的独特之处在于其全面性和真实性,能够深入评估模型在视觉数学推理方面的能力。
数据集构成和规范:
源数据量:
该数据集包含 3,040 个高质量的数学问题,这些问题来源于真实的数学竞赛,涵盖了 16 个不同的数学学科(包括代数、解析几何、算术、组合几何等),并按 5 个难度等级进行分类。
论文引用:
@misc{wang2024measuring,
title={Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset},
author={Ke Wang and Junting Pan and Weikang Shi and Zimu Lu and Mingjie Zhan and Hongsheng Li},
year={2024},
eprint={2402.14804},
archivePrefix={arXiv},
primaryClass={cs.CV}
}