Skip to content

评测概览

北京智源人工智能研究院推出 FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。

天秤(FlagEval)开放评测平台打造了自动化评测与自适应评测机制,同时支持英伟达、昇腾(鹏城云脑)、寒武纪、昆仑芯等多种芯片架构及 PyTorch、MindSpore 等多种深度学习框架。

作为“科技创新2030”旗舰项目重要课题,天秤(FlagEval)正与北京大学、北京航空航天大学、北京师范大学、北京邮电大学、闽江学院、南开大学、中国电子技术标准化研究院、中国科学院自动化研究所等合作单位共建 (按首字母排序),发布权威评测榜单。

未来 FlagEval(天秤)将继续做好“AI大模型创新的助推器”,以评促“优”、以评促“用”、以评促“享”。

  1. 以评促“优”:提供详尽的评测结果和分析,帮助研究人员和开发者了解模型的优势和不足,从而进行有针对性的优化。
  2. 以评促“用”:提供多领域、丰富的下游任务的评测,用户可以参考评测结果,根据自己的需求选择最适合的模型和算法。
  3. 以评促“享”:秉持“开源开放”的精神,鼓励研究人员和开发者评测、分享他们的模型和算法。

自然语言处理领域评测(NLP)

自2022年底以来,大语言模型领域呈现出百花齐放的态势,技术发布甚至以周为单位更新。然而,随着新模型的快速出现,评测方法和工具的研究却相对滞后,使得需求方难以找到适合自己的模型。同时,生产侧也需要更公正的标准来评估模型的优缺点,以便研究人员持续优化模型。

当前大语言模型评测面临的难点主要有三点:

  • 基础模型的潜力难以准确评估,传统的基准测试方法已经不再适用。基础模型是一个庞大的知识库,具有极大的潜力,但我们尚无法确定其潜力的具体形式和上限。传统评测方法在基础模型的评测上面临失效的问题,单一的准确性指标无法全面反映模型完成任务的潜力,需要引入更多的指标综合衡量模型的潜力。
  • 大模型的训练成本高昂,因此必须在训练过程中结合评测结果,及时调整训练策略,以降低试错成本。
  • 缺乏广泛对比评测的权威中立榜单。大多数科研团队和企业受限于算力资源,无法进行广泛的模型对比评测,因此,一个权威中立的榜单是非常必要的,这对于大模型在产业落地层面的选型至关重要。

基于此背景,FlagEval 大语言模型评测体系创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果,当前包括 30+能力 x 5大任务 x 4大指标,总计 600+子维度,任务维度包括近30个主观&客观评测集,超10万道评测题目,更多维度的评测数据集正在陆续集成。

如下图所示,Model X 和 Model Y 在同一能力、同一任务中,考察不同指标。

能力框架:刻画模型认知能力边界

任务框架:细化任务的“能力”标签

通过“任务”与“能力”解耦 , 每个任务对应多样化的能力,并通过多样化的数据集来评定。目前包含 22 个主观&客观评测集,84,433道评测题目,后续将根据能力框架继续扩展数据集种类和数量。

除了知名的公开数据集 HellaSwag、MMLU等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学与闽江学院共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。

指标框架:不同任务有不同的侧重指标

FlagEval v0.5 版本仅支持准确性(Accuracy)指标。后续将持续更新迭代,增加不确定性(Uncertainty)、鲁棒性(Robustness)、效率(Efficiency)等指标。

  • 准确性(Accuracy):准确性是模型的基础属性,输出的准确性决定了模型是否可用。在 FlagEval 中,准确性是每个评测场景和任务中准确性度量的总称,包括文本分类中的精确匹配(exact-match accuracy),问题回答中基于词重叠的 F1 分数,信息检索的 MRR 和 NDCG 分数,以及摘要的 ROUGE 分数等。
  • 不确定性(Uncertainty):指模型对其预测结果的信心或确定性的度量,这对于在模型可能出错的情况下做出适当的预期和应对措施非常重要。例如,在高风险的环境中,如决策制定,模型的不确定性指标可以让我们对可能的错误结果有所预期,并进行适当调整和干预,避免潜在的风险。
  • 鲁棒性(Robustness):鲁棒性指的是模型在面对输入的扰动时能够保持其性能的能力。例如,一个鲁棒的模型应该能够在问题被稍微改写或包含轻微的打字错误的情况下,仍然能够正确地回答问题。鲁棒性对于实际应用特别重要,因为输入往往是嘈杂的或具有敌意的。在语言模型的背景下,可以通过扰动输入文本并测量模型输出的变化来评估鲁棒性。
  • 效率(Efficiency):效率通常指的是模型的计算效率,包括训练和推理的时间、算力资源。效率会影响模型在实际应用中的可行性。例如,一个非常准确的模型如果需要大量的计算资源或者时间来进行训练或推理,那么它可能就不适合在资源有限或者需要快速响应的环境中使用。

评测方法

FlagEval 针对基础模型和微调模型采用不同的评测方法:

针对基础模型与微调模型采用不同的评测方式

  1. 基础模型评测以“适配评测+提示学习评测”的客观评测为主。
    • 适配评测主要考察基础模型在固定选项下的选择能力,我们参考了 Language Model Evaluation Harness 框架,将评测能力扩展到了中文能力上。
    • 提示学习评测主要考察基础模型在体质学习下的开放生成能力,我们参考了HELM评测框架,将评测能力扩展到了中文能力上。
  2. 微调模型评测先复用基础模型的客观评测,考察微调过程是否对基础模型造成了某些能力的提升或下降。然后再引入主观评测。
    • 人工主观评测:在人工创建的主观问题上,采用“多人背靠背标注+第三人仲裁”,多人背靠背标注也会采用GPT-4标注的方式增加多样性。
    • 自动主观评测:在GPT-4根据能力框架创建的主观问题上,采用GPT-4自动化标注的方式进行标注。

客观评测与主观评测具体方式见下表:

客观评测 Objective Evaluation主观评测 Subjective Evaluation
评测任务 Tasks以可自动评测的、有标准答案的任务为主,如分类、选择题问答、信息检索等。以无法自动评测的、没有标准答案的任务为主,开放问答、条件文本生成等。
评测方式 Method以In-context的形式进行评测,支持Few-Shot/Zero-Shot。以对话的形式进行评测。以Zero-Shot为主。
评测规范 Evaluation Specifications算力、数据等评测基础设施保持统一。多轮评测标准培训,多人背靠背标注,标注工具辅助。
特点 Characteristics评测数据量大,速度快,方便进行快速验证,但能够评测的能力维度有限。评测数据量小,速度慢,但能够评测的能力维度丰富,易于发现模型弱点。
资源支持 Resource Support丰富的数据来源,如现有的 benchmark;丰富的自动化评测工具,如数据采样、指标计算等。经验丰富的评测标注团队。

支持自动化评测与自适应评测

自动化评测机制:

  • 部署推理服务,主观评测&客观评测全自动流水线
  • 各阶段自动监听,推理服务到评测全自动衔接 自适应评测机制:
  • 用户可根据模型类型和状态选择评测策略,平台将整合评测结果
  • 评测开始、结束和评测错误等全周期事件的自动通知告警

视觉领域评测

随着深度学习技术的飞速发展,视觉大模型已经成为了解决复杂视觉任务的重要工具。这些大模型通过海量的数据训练,具备了强大的表征学习能力,使其能够在多种下游任务上取得出色的性能。然而,随着模型规模的不断增大,评估它们的性能变得越来越困难。传统的评测方法往往只关注单一的任务或者指标,难以全面反映模型的通用性和性能优势。因此,构建一个合理、全面和客观的评测体系成为了业界的重要课题。

在小模型时代,模型往往针对特定任务进行优化,评测的重点主要集中在任务的表现上。但在大模型的时代,由于模型具有更强的通用性和转移学习能力,单一的任务评测已经不能满足需求。我们需要一个更为全面的评测体系,不仅能够评估模型在特定任务上的表现,而且能够评估其在多种任务和场景下的通用性和性能。

目前,行业内存在着多种评测视觉大模型的方法和标准,但缺乏一个统一和权威的评测体系。而且,由于视觉任务的多样性和复杂性,很难找到一种通用的评价指标能够完全涵盖所有情况。评测指标的选择和设计需要综合考虑不同任务的特点和需求,以及模型在不同层次上的表现。同时,随着模型参数量的增加,评测的算力成本也显著增加,使得许多科研团队和企业难以进行广泛的模型对比评测。

面对这些挑战,我们认为一个好的视觉大模型评测体系应具备几方面特点:

  • 全面性:能评估模型在多个不同任务和数据集上的表现。
  • 客观性:评估指标应是客观的、可重复的,并且不受人为因素影响。
  • 灵活性:适应不同的模型和任务需求,及时更新以反映最新的研究进展和技术发展。

通过构建这样一个评测体系,我们不仅能更准确地理解视觉大模型的性能和优势,而且能为模型的研发和应用提供有力的支持。

FlagEval 视觉大模型评测体系当前包含模型的感知、分析、理解维度的7个子能力,涵盖图像分类、语义分割,深度估计、视频分类,小样本图像分类等10多个视觉任务,当前包含 ImageNet,Place365,COCO,NYUv2,KITTI,ADE20K等20多个评测数据集。

“能力-任务”框架

指标体系

FlagEval 视觉大模型计划采用以下指标,详细指标说明见评测数据集介绍页面:

  • 性能(Performance):评测模型在特定任务的性能是评测最基本的功能。不同任务评测性能指标不同,如分类的正确率(Accuracy),检索的召回率(Recall)。
  • 鲁棒性(Robustness):鲁棒性指的是模型在面对输入的扰动时能够保持其性能的能力。鲁棒性对于实际应用特别重要,因为输入往往是嘈杂的或具有敌意的。
  • 效率(Efficiency):效率通常指的是模型的计算效率,包括训练和推理的时间、算力资源。效率会影响模型在实际应用中的可行性。例如,一个非常准确的模型如果需要大量的计算资源或者时间来进行训练或推理,那么它可能就不适合在资源有限或者需要快速响应的环境中使用。

评测方法

  • 视觉基础模型采用适配评测
  • 特定任务微调模型直接评测

目前,FlagEval平台已上线图像分类、半监督图像分类、图像检索等任务,后续还会持续迭代和完善视觉大模型评测体系,增加物体检测、实例分割、视频分类等多个视觉任务,增加AP、maskAP等评测指标。

多模态领域评测(Multimodal)

FlagEval 多模态大模型评测通过对多种模态数据的处理和分析,评估多模态基础模型的性能和效果,可以帮助我们更好地了解多模态基础模型的优势和不足之处。多模态基础模型对多模态数据处理和分析能力,可以通过其在多模态任务上的表现得以体现。例如,在多模态任务中,图问答和文本图像生成等是比较常用的任务,前者评测模型对文本和图像的理解,后者评测模型对文本的理解能力和图像的生成能力。因此,如何精准、高效地设计多模态任务是多模态基础模型评测需要面临的主要问题。

FlagEval 多模态大模型评测任务涵盖理解类任务和生成类任务,理解类任务包括文/图检索,视频/文本检索,图像问题,视频问答、visual grounding等;生成类任务包括文本生成图像、文本生成视频。支持不同框架评测,以及适配方法的灵活嵌入。

评测数据集计划涵盖公开数据集和自建数据集,支持跨模态自动生成、保证数据普适性、涵盖不同场景数据,支持数据的动态扩充。对生成类任务评测支持自动评测、人工评测、以及人机协同评测。

能力框架

FlagEval 多模态大模型能力体系当前包含模型的多模态理解、跨模态理解、跨模态生成的8个子能力,计划陆续覆盖图问答、图文检索、文本图像生成、Visual grounding等多个多模态任务,当前包含VQA2.0,TDIUC,MS-COCO,CUB,CelebA-HQ,Oxford-102 Flower,MSR-VTT,UCF-101,Flickr30k(F30k)等10多个评测数据集。

指标体系

多模态基础模型评测方旨在评估多模态基础模型的性能和效果,以便于研究人员和开发者可以更好地了解模型的优势和局限性,推动模型的改进和发展。模型的性能和效果的评估通常能够在诸如图像生成、图文检索等任务上的表现出来的准确性、鲁棒性、泛化能力等客观度量指标来衡量。因此,多模态基础模型评测方案计划在涵盖多种评测指标。

  • 性能(Performance):评测模型在特定任务性能是评测最基本的功能。不同多模态任务评测性能指标不同,如图问答的正确率(Accuracy),图像文本检索的召回率(Recall)。
  • 鲁棒性(Robustness):鲁棒性指的是模型在面对输入的扰动时能够保持其性能的能力。鲁棒性对于实际应用特别重要,因为输入往往是嘈杂的或具有敌意的。
  • 效率(Efficiency):效率通常指的是模型的计算效率,包括训练和推理的时间、算力资源。效率会影响模型在实际应用中的可行性。例如,一个非常准确的模型如果需要大量的计算资源或者时间来进行训练或推理,那么它可能就不适合在资源有限或者需要快速响应的环境中使用。

评测方法

  • 多模态基础模型采用适配评测
  • 特定任务微调多模态模型直接评测,采用客观和主观评测两种指标

语音领域基础模型评测

作为人工智能技术的一个热点领域,语音及相关多模态技术,包括语音识别、语音合成、语音转换、语音翻译、语音增强、口语理解、声纹识别、语音鉴伪等,已经融入到了人们的生活和生产活动当中,其应用场景包括智慧医疗、智能制造、智慧金融等。语音及相关多模态技术是通用人工智能技术的重要的组成部分,是未来支持多模态、多语种、多任务的通用大模型的支撑技术。针对语音及相关多模态基础模型的泛化能力、认知能力、鲁棒性和安全性的评测对于人工智能技术的普及和推广意义重大。

目前,针对基础模型评测和度量的研究已经取得了一定的进展。然而,这些研究仍然集中在针对简单任务的结果评估上,还无法形成对模型的整体性能的全面评估。因此,在评测基准、方法和工具方面,我们需要更加关注模型对不同任务和场景的泛化能力和通用性等方面的评估。

当前 FlagEval 正在建立基于多任务的语音大模型的泛化能力的公平评测体系,为开发人员和研究人员提供一套标准化的评估框架和工具,以确保他们的模型在不同任务和场景下具有高效、准确和安全的性能。

能力框架

FlagEval v1.0 版本目前仅覆盖语音识别和情感识别两类任务,未来将支持更丰富的评测任务,可能的任务包括:

任务框架

本评价体系从多任务角度评估语音基础模型的泛化能力,覆盖分类任务、识别任务、生成式任务、语义理解任务、多模态任务等。具体任务包括语音识别、语音转换、语种识别、对话槽填充、对话意图识别、情感识别、说话人确认、说话人识别、说话人日志等。

一期上线的测试任务包括语音识别和情感识别任务,更多任务敬请期待。

指标框架

不同任务有不同的侧重指标:

  • 准确性 (Accuracy):

    • 语音识别:
      • CER,字错误率,Character Error Rate
      • WER,词错误率,Word Error Rate
    • 情感识别:
      • WAR,加权平均召回率,Weighted Average Recall
      • UAR,非加权平均召回率,Unweighted Average Recall
    • 语音生成类任务(通用指标):
      • 客观评测指标:
        • MCD, 梅尔倒谱失真, Mel Cepstrum Distortion
        • CER,字错误率, Character Error Rate
        • WER,词错误率, Word Error Rate
        • 说话人相似度,Speaker Similarity
      • 主观评测指标
        • MOS, 人类专家根据语音的自然度进行1-5分的评级, Mean Opinion Score
    • 语种识别:
      • EER,等错误率,Equal Error Rate
      • ACC,准确率,Accuracy
    • 说话人辨识:
      • CER, 分类错误率, Classification Error Rate
    • 说话人确认:
      • EER, 等错误率, Equal Error Rate
    • 语音日志:
      • DER, 辨别错误率, Diarization Error Rate
      • SER, 说话人错误率,Speaker Error Rate
    • 音频分类:
      • ACC,准确率,Accuracy
    • 语音到文本的翻译:
      • BLEU, BiLingual Evaluation Understudy
    • 说话人分离:
      • SDR, 信号失真比,Signal-to-Distortion Ratio
      • SISNR, 尺度不变信噪比,Scale-Invariant Signal-to-Noise Ratio
    • 语音增强:
      • PESQ, 语音质量感知评估,Perceptual Evaluation of Speech Quality
      • STOI, 短期客观可懂度,Short Time Objective Intelligibility
    • 对话槽值填充:
      • F1,槽类型F1值,Slot Type F1 Score
      • WER, 槽值WER (Slot Value Word Error Rate)
    • 对话意图识别:
      • ACC, 准确率, Accuracy
  • 鲁棒性 (Robustness):

    通用模型(Universal Model)是多模态大模型的一个重要的发展方向,作为通用性的一个重要维度, 鲁棒性反映了模型在不同的声学或语言干扰下的性能变化,包括:噪声鲁棒性、领域鲁棒性、声学环境鲁棒性、说话人鲁棒性、口语鲁棒性、口音鲁棒性、语种鲁棒性等。

    针对具体任务,通过引入重要的干扰因素,设计相应的评测数据集,测试语音基础模型的通用性。

    • 口音鲁棒性:口音和方言带来的影响
    • 环境鲁棒性: 噪音和混响带来的影响
    • 设备鲁棒性:近场、远场、阵列麦克风带来的影响
    • 多说话人鲁棒性:模型是否可以处理多说话人
    • 多语种鲁棒性:模型是否可以处理多语种
    • 领域鲁棒性:反映了基础模型在多任务、不同应用场景方面的泛化能力
    • 口语鲁棒性:即兴语音(spantaneous speech)包含了各种常见的语音现象,如重复、犹豫、更正、无意义音节等,口语鲁棒性反应了基础模型在真实世界中的性能变化
  • 公平性 (Fairness):

    公平性(Fairness)是可信人工智能(Trusted AI)的重要维度之一,通过引入性别、年龄等用户相关的干扰因素,为语音基础模型的公平性提供了客观的评测标准,例如:老年人发音人和低幼儿童发音人的语音识别性能。

  • 高效性 (Efficiency):

    • RTF,实时因子,Real Time Factor
    • 平均推理时间(Average Inference cost),模型在推理时平均每个样本所耗时间长短

评测方法

为了评测语音基础模型的泛化能力,针对任务特点,构建统一的通用头模型,包括线性头模型和非线性头模型,实现对于语音基础模型的公平对比,利用基础模型覆盖大多数语音信息处理问题的解决。

参照 SuperB 的评测思想,本评测体系采用的在多个任务上以不同的微调方式进行评测,目前FlagEval v0.5 版本目前仅支持冻结/解冻基础模型参数进行评测,未来会开发不同的微调方法,如weighted sum, lora等,从而评测基础模型的泛化能力和通用性能力。具体业务流程如下:

评测流程

针对任务的差异性,本评测体系分为上游模型管理和下游任务管理两个模块。上游模型管理中定义了需要由模型提供者提供的基础模型接口,重点包括需要自定义上游模型以及对应的参数设置。下游任务管理模块中定义了具体任务的数据集、 数据增广策略、头模型、损失函数、优化器和测试指标计算器等。

未来展望

未来,我们希望通过跨学科的合作与研究,进一步完善对模型结构、泛化能力和安全性等方面的评测以及针对复杂任务的评测数据集的构建,建立更加全面的通用多模态大模型评测基准、方法和工具体系。