FlagEval 天秤

评测文档

数据集介绍、评测规则介绍

科学

智源研究院是全球最早系统化布局大模型的科研机构之一，基于深厚的技术积累，推出“智源评测体系”，多维度考察大模型认知能力，覆盖自然语言处理、视觉与多模态等多领域大模型，对全球开源和商业闭源模型进行全面的、系统化评测。

作为非营利性科研机构，智源研究院有着业内稀缺的中立视角。评测方法上，客观评测保证在统一环境中进行，规范“起跑线”；主观评测集高频迭代、严格校准打分标准，同时构建大量原创、非公开评测集，防止数据泄露。

智源研究院参与和牵头制定大模型评测相关的国内及国际标准，力求推动业内达成“大模型评测方法和规范”共识；并率先与权威教育部门合作，以人类认知能力的发展阶梯为基准，横向对齐大模型所能达到的认知水平。

智源正在与十余家研究机构合作开展评测数据集和评测工具建设，未来将秉持“开源开放”的精神，以“评测”为抓手，联结更多大模型研发团队、评测研究团体以及大模型产业应用企业，共同促进大模型技术优化、应用落地、生态共享。