Skip to content

快速开始

未注册用户默认拥有查看平台的首页、新闻、排行榜、用户手册的权限和体验大模型角斗场、Debate辩论赛的权限。若需使用评测功能,用户需完成注册登录平台,在评测管理部分申请报名评测并补充完整个人信息,请确保提交信息准确有效,提交信息后,管理员审核通过后即可使用平台进行评测。

具体操作方式如下:

注册

用户点击【登录/注册】按钮,弹出如下界面,初次使用平台先用 微信扫描二维码 ,关注“智源社区小助手”微信公众号。

sign-1 扫码关注后,界面变成如下样式,线上填写邮箱、手机号、验证码进行注册。 sign-2

注册完成后,跳转到平台首页,点击【评测控制台】,可报名评测,用户补充完整个人信息,平台管理员根据个人信息进行审核,审核通过的用户方可使用平台的评测功能。审核结果会以邮件的方式通知用户。

输入图片说明

输入图片说明

参数说明
用户名
  • 用户名将作为平台唯一标识,建议使用姓名全拼加数字的方式,填写用户名后不允许修改。
  • 长度3——32个字符,支持小写字母和数字,以小写字母开头。
真实姓名
  • 请用户填写个人真实姓名,平台管理员审核时优先通过真实姓名。
组织机构
  • 建议机构+部门组成,例如智源研究院算力平台,清华计算机系等,平台管理员审核时优先通过真实组织机构。
  • 组织机构需要填写中英文双语。
报名任务
  • 选择【在线评测】或【离线评测】;
  • 在线评测:用户只需提供评测接口API,评测平台提供测试数据进行推理评测。
  • 离线评测:用户需上传已训练好的模型&推理代码,评测平台提供推理算力和数据,进行推理评测。
是否评测自研模型
  • 是 & 否,单选
协议声明
  • 需要用户阅读并同意该协议后,才能使用平台的评测功能。

注册流程如下图所示:

注:

  • 请认真填写个人信息,管理员会根据个人信息进行审核。
  • 请填写有效邮箱和手机号,审核状态会通过邮件和短信进行通知,后续的评测任务状态也会通过邮件通知用户。
  • 每个用户每个月有1次修改邮箱的机会。

登录

  • 如用户已完成注册,点击【登录/注册】按钮,弹出【登录】页面,用户可以选择【微信-扫一扫】扫描屏幕上方的二维码登录,也可以选择【手机验证码】方式登录。

  • 用户也可点击【Hugging Face】第三方平台登录,跳转到Hugging Face登录界面。流程如下所示:

输入图片说明

输入图片说明

输入【用户名/邮箱地址】、【密码】这两项信息

输入图片说明

若还没有Hugging Face账号,则先注册,也可通过Hugging Face账号授权登录

输入图片说明

输入图片说明

创建评测

用户点击【评测管理】进入评测管理页面,主要包括:模型评测、创新算法评测和镜像管理。

输入图片说明

用户根据自己的需求选择模型评测或者创新算法评测,点击【创建评测】,弹出【创建评测】对话框,根据不同的评测领域填写相应表单信息,提交生成一条评测任务。

提交创建评测后,自动跳转到详情页面,用户可以点击查看【上传模型&代码】规范,利用flageval-serving上传模型与代码。上传完成后,点击【推理验证】快速验证推理评测代码是否可运行,通过验证后,点击【启动推理评测】进行正式推理评测过程,等待评测结束,即可查看评测结果。评测过程中如果遇到问题中断失败,可以通过日志查看错误信息。

上传镜像

【镜像管理】中预置了部分镜像,如果用户在实际评测中需要自定义镜像,可以在【自定义镜像】中上传自己的镜像。

用户点击【镜像管理/自定义镜像/导入镜像】,弹出【导入镜像】对话框,填写表单提交表单,等待平台管理员审核,审核通过后,自动导入。镜像导入成功后,方可在评测任务中使用。

目前平台仅支持用户已有镜像导入,不支持利用dockerfile在平台构建镜像,用户填写的 dockerfile 仅用于平台审核人员审查镜像。

输入图片说明

自动评测

介绍

Auto-Evaluation是基于FlagEval平台搭建的多芯片适配的模型自动评测分析工具,覆盖LLM、VLM、和具身VLM三个领域,绑定了对应领域的经典数据集,目前仅支持开启在线评测。该工具提供了开启评测、查看评测进度、查看评测结果、停止评测、重启评测以及多芯片评测结果差异分析接口。无论是个人、团队或是企业,在算力资源上开启服务并支持公网可访问,就可以通过该工具进行自动评测。

工具说明

1、工具地址:

120.92.17.239:5050

2、工具接口简介:

接口名称接口方式接口介绍
/evaluationPOST开启评测,采用同步方式调用上传的服务url开始模型推理
/evaldiffsGET查询评测结果
/stop_evaluationPOST停止评测,如遇服务有问题需要暂停评测,可通过该接口停止
/resume_evaluationPOST重启评测,重启支持断点续评
/evaluation_progressPOST查看评测进度,会返回各个数据集已评测完成的详细信息
/evaluation_diffsPOST查看多个模型的结果差异

接口详细参数说明

1. 开启评测

request请求接口

header

```json
"Content-Type": "application/json" 
```

body:

参数名称参数类型参数意义是否必须
eval_infosEvalInfo[]模型评测服务信息列表
domainstring评测领域:NLP、MM
modestring评测项目标识,有默认值
regionstring评测工具集群:bj(默认)、sz
special_eventstring是否为芯片评测,默认是
user_idintFlagEval平台的用户id

EvalInfo 数据结构参数

参数名称参数类型参数意义是否必须
eval_modelstring开启评测的评测任务名称,需要唯一(为明确评测是否为nvidia基线模型,请使用xxx-nvidia-origin来命名)
modelstring模型部署为服务时使用的模型(模型一致开启的多次评测都会使用同一份缓存)
eval_urlstring各个模型部署服务的评测接口,eg:http://10.1.15.153:9010/v1/chat/completions
tokenizerstring厂商及模型信息,eg:Qwen/Qwen3-8B
api_keystring模型调用API_KEY,默认为"EMPTY"
batch_sizeint模型可开启的batch_size,默认为1
num_concurrentint并发数,默认为1
num_retryint重试次数,默认为10
gen_kwargsstring模型强调需要设定温度,topn等参数,以","为分割
eg:temperature=0.6,top_k=20,top_p=0.95,min_p=0
NLP使用max_gen_toks,对于max_model_len为16384的,请设置max_gen_toks=16000
MM、EV使用max_gen_toks字段指定
thinkingbool是否开启thinking模型,暂只对EmbodiedVerse的RoboBrain适用,默认为False
retry_timeint超时时间,暂支持MM、具身领域
目前默认为3600s
chipstring评测使用芯片名称,格式:厂商-芯片名称
默认为:Nvidia-H100
base_model_namestring评测使用的基础模型,eg:Qwen3-8B

Response返回数据

说明:因模型评测耗时较长,接口暂时返回对应的评测id及batchid,后续可通过该信息查询评测结果。

参数名称参数类型参数意义是否必须
err_codeint是否正确处理请求,0为成功,1为失败;为1时返回数据中不包含request_id
err_msgstring请求处理消息
request_idstring唯一标识
eval_tasksEvalTask[]各个服务开启的评测详细信息

2. 查看评测结果

request请求接口

header

```bash
"Content-Type": "application/json" 
```

body:

参数名称参数类型参数意义是否必须
request_idstring唯一标识

Response 返回数据

参数名称参数类型参数意义是否必须
err_codeint是否正确处理请求,0为成功,1为失败
err_messagestring请求处理消息
eval_resultsEvalResultMap各个服务开启的评测结果信息

EvalResultMap 数据结构

参数名称参数类型参数意义是否必须
EvalResultMapMap<string, EvalResult>一次开启的所有模型的评测结果
EvalResultMap.keystring开启评测对应的eval_model
EvalResultMap.valueEvalResult[]单个模型的评测结果

EvalResult 数据结构

参数名称参数类型参数意义是否必须
statusstring评测对应的状态。eg:S:成功、F:失败、C:取消、OOR:超过重试次数
detailsDetail[]对应评测服务的各个数据集评测结果(暂时只支持mmlu,gsm8k)
releasebool该模型是否可发布,diff是否在可接受范围内

Detail 数据结构

参数名称参数类型参数意义是否必须
datasetstring数据集名称
statusstring对应评测服务的运行状态,eg:S:成功、F:失败、C:取消
accuracyfloat数据集评测结果
difffloat数据集评测结果与nvidia的baseline的差异

3. 停止评测

request请求接口

header

```bash
"Content-Type": "application/json" 
```

body:

参数名称参数类型参数意义是否必须
request_idstring唯一标识

Response 返回数据

参数名称参数类型参数意义是否必须
err_codeint是否正确处理请求,0为成功,1为失败
err_messagestring请求处理消息

4. 重启评测

request请求接口

header

```bash
"Content-Type": "application/json" 
```

body:

参数名称参数类型参数意义是否必须
request_idstring唯一标识

Response 返回数据

参数名称参数类型参数意义是否必须
err_codeint是否正确处理请求,0为成功,1为失败
err_messagestring请求处理消息

5. 查询评测进度

request请求接口

header

```bash
"Content-Type": "application/json" 
```

body:

参数名称参数类型参数意义是否必须
request_idstring唯一标识
domainstring评测领域(NLP,MM)

Response 返回数据

参数名称参数类型参数意义是否必须
err_codeint是否正确处理请求,0为成功,1为失败
err_messagestring请求处理消息
finishedbool评测是否完成
statusstring评测状态
datasets_progressstring数据集进度
running_datasetstring正在运行数据集
running_progressstring运行数据集内评测进度

6. 查询评测差异

request请求接口

header

```bash
"Content-Type": "application/json" 
```

body:

参数名称参数类型参数意义是否必须
request_idsstring[]唯一标识

Response 返回数据

参数名称参数类型参数意义是否必须
err_codeint是否正确处理请求,0为成功,1为失败
err_messagestring请求处理消息
eval_diffsEvalDiff[]评测结果差异对比列表

EvalDiff 数据结构

参数名称参数类型参数意义是否必须
request_idstring被评估评测记录uuid
detailsDetail[]各数据集详细对比数据
releasebool是否满足发布条件

Detail 数据结构

参数名称参数类型参数意义是否必须
datasetstring数据集名称
base_accfloat基线得分
accuracyfloat被评估评测数据集得分
difffloat被评估数据集与基线数据集差值