快速开始
未注册用户默认拥有查看平台的首页、新闻、排行榜、用户手册的权限和体验大模型角斗场、Debate辩论赛的权限。若需使用评测功能,用户需完成注册登录平台,在评测管理部分申请报名评测并补充完整个人信息,请确保提交信息准确有效,提交信息后,管理员审核通过后即可使用平台进行评测。
具体操作方式如下:
注册
用户点击【登录/注册】按钮,弹出如下界面,初次使用平台先用 微信扫描二维码 ,关注“智源社区小助手”微信公众号。
扫码关注后,界面变成如下样式,线上填写邮箱、手机号、验证码进行注册。 
注册完成后,跳转到平台首页,点击【评测控制台】,可报名评测,用户补充完整个人信息,平台管理员根据个人信息进行审核,审核通过的用户方可使用平台的评测功能。审核结果会以邮件的方式通知用户。


| 参数 | 说明 |
|---|---|
| 用户名 |
|
| 真实姓名 |
|
| 组织机构 |
|
| 报名任务 |
|
| 是否评测自研模型 |
|
| 协议声明 |
|
注册流程如下图所示:

注:
- 请认真填写个人信息,管理员会根据个人信息进行审核。
- 请填写有效邮箱和手机号,审核状态会通过邮件和短信进行通知,后续的评测任务状态也会通过邮件通知用户。
- 每个用户每个月有1次修改邮箱的机会。
登录
如用户已完成注册,点击【登录/注册】按钮,弹出【登录】页面,用户可以选择【微信-扫一扫】扫描屏幕上方的二维码登录,也可以选择【手机验证码】方式登录。
用户也可点击【Hugging Face】第三方平台登录,跳转到Hugging Face登录界面。流程如下所示:


输入【用户名/邮箱地址】、【密码】这两项信息

若还没有Hugging Face账号,则先注册,也可通过Hugging Face账号授权登录


创建评测
用户点击【评测管理】进入评测管理页面,主要包括:模型评测、创新算法评测和镜像管理。

用户根据自己的需求选择模型评测或者创新算法评测,点击【创建评测】,弹出【创建评测】对话框,根据不同的评测领域填写相应表单信息,提交生成一条评测任务。
提交创建评测后,自动跳转到详情页面,用户可以点击查看【上传模型&代码】规范,利用flageval-serving上传模型与代码。上传完成后,点击【推理验证】快速验证推理评测代码是否可运行,通过验证后,点击【启动推理评测】进行正式推理评测过程,等待评测结束,即可查看评测结果。评测过程中如果遇到问题中断失败,可以通过日志查看错误信息。

上传镜像
【镜像管理】中预置了部分镜像,如果用户在实际评测中需要自定义镜像,可以在【自定义镜像】中上传自己的镜像。
用户点击【镜像管理/自定义镜像/导入镜像】,弹出【导入镜像】对话框,填写表单提交表单,等待平台管理员审核,审核通过后,自动导入。镜像导入成功后,方可在评测任务中使用。
目前平台仅支持用户已有镜像导入,不支持利用dockerfile在平台构建镜像,用户填写的 dockerfile 仅用于平台审核人员审查镜像。

自动评测
介绍
Auto-Evaluation是基于FlagEval平台搭建的多芯片适配的模型自动评测分析工具,覆盖LLM、VLM、和具身VLM三个领域,绑定了对应领域的经典数据集,目前仅支持开启在线评测。该工具提供了开启评测、查看评测进度、查看评测结果、停止评测、重启评测以及多芯片评测结果差异分析接口。无论是个人、团队或是企业,在算力资源上开启服务并支持公网可访问,就可以通过该工具进行自动评测。
工具说明
1、工具地址:
120.92.17.239:5050
2、工具接口简介:
| 接口名称 | 接口方式 | 接口介绍 |
|---|---|---|
| /evaluation | POST | 开启评测,采用同步方式调用上传的服务url开始模型推理 |
| /evaldiffs | GET | 查询评测结果 |
| /stop_evaluation | POST | 停止评测,如遇服务有问题需要暂停评测,可通过该接口停止 |
| /resume_evaluation | POST | 重启评测,重启支持断点续评 |
| /evaluation_progress | POST | 查看评测进度,会返回各个数据集已评测完成的详细信息 |
| /evaluation_diffs | POST | 查看多个模型的结果差异 |
接口详细参数说明
1. 开启评测
request请求接口
header
```json
"Content-Type": "application/json"
```
body:
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| eval_infos | EvalInfo[] | 模型评测服务信息列表 | 是 |
| domain | string | 评测领域:NLP、MM | 是 |
| mode | string | 评测项目标识,有默认值 | 否 |
| region | string | 评测工具集群:bj(默认)、sz | 否 |
| special_event | string | 是否为芯片评测,默认是 | 否 |
| user_id | int | FlagEval平台的用户id | 否 |
EvalInfo 数据结构参数
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| eval_model | string | 开启评测的评测任务名称,需要唯一(为明确评测是否为nvidia基线模型,请使用xxx-nvidia-origin来命名) | 是 |
| model | string | 模型部署为服务时使用的模型(模型一致开启的多次评测都会使用同一份缓存) | 是 |
| eval_url | string | 各个模型部署服务的评测接口,eg:http://10.1.15.153:9010/v1/chat/completions | 是 |
| tokenizer | string | 厂商及模型信息,eg:Qwen/Qwen3-8B | 是 |
| api_key | string | 模型调用API_KEY,默认为"EMPTY" | 否 |
| batch_size | int | 模型可开启的batch_size,默认为1 | 否 |
| num_concurrent | int | 并发数,默认为1 | 否 |
| num_retry | int | 重试次数,默认为10 | 否 |
| gen_kwargs | string | 模型强调需要设定温度,topn等参数,以","为分割 eg:temperature=0.6,top_k=20,top_p=0.95,min_p=0 NLP使用max_gen_toks,对于max_model_len为16384的,请设置max_gen_toks=16000 MM、EV使用max_gen_toks字段指定 | 否 |
| thinking | bool | 是否开启thinking模型,暂只对EmbodiedVerse的RoboBrain适用,默认为False | 否 |
| retry_time | int | 超时时间,暂支持MM、具身领域 目前默认为3600s | 否 |
| chip | string | 评测使用芯片名称,格式:厂商-芯片名称 默认为:Nvidia-H100 | 否 |
| base_model_name | string | 评测使用的基础模型,eg:Qwen3-8B | 否 |
Response返回数据
说明:因模型评测耗时较长,接口暂时返回对应的评测id及batchid,后续可通过该信息查询评测结果。
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| err_code | int | 是否正确处理请求,0为成功,1为失败;为1时返回数据中不包含request_id | 是 |
| err_msg | string | 请求处理消息 | 是 |
| request_id | string | 唯一标识 | 是 |
| eval_tasks | EvalTask[] | 各个服务开启的评测详细信息 | 是 |
2. 查看评测结果
request请求接口
header
```bash
"Content-Type": "application/json"
```
body:
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| request_id | string | 唯一标识 | 是 |
Response 返回数据
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| err_code | int | 是否正确处理请求,0为成功,1为失败 | 是 |
| err_message | string | 请求处理消息 | 是 |
| eval_results | EvalResultMap | 各个服务开启的评测结果信息 | 是 |
EvalResultMap 数据结构
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| EvalResultMap | Map<string, EvalResult> | 一次开启的所有模型的评测结果 | 是 |
| EvalResultMap.key | string | 开启评测对应的eval_model | 是 |
| EvalResultMap.value | EvalResult[] | 单个模型的评测结果 | 是 |
EvalResult 数据结构
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| status | string | 评测对应的状态。eg:S:成功、F:失败、C:取消、OOR:超过重试次数 | 是 |
| details | Detail[] | 对应评测服务的各个数据集评测结果(暂时只支持mmlu,gsm8k) | 是 |
| release | bool | 该模型是否可发布,diff是否在可接受范围内 | 是 |
Detail 数据结构
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| dataset | string | 数据集名称 | 是 |
| status | string | 对应评测服务的运行状态,eg:S:成功、F:失败、C:取消 | 是 |
| accuracy | float | 数据集评测结果 | 是 |
| diff | float | 数据集评测结果与nvidia的baseline的差异 | 是 |
3. 停止评测
request请求接口
header
```bash
"Content-Type": "application/json"
```
body:
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| request_id | string | 唯一标识 | 是 |
Response 返回数据
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| err_code | int | 是否正确处理请求,0为成功,1为失败 | 是 |
| err_message | string | 请求处理消息 | 是 |
4. 重启评测
request请求接口
header
```bash
"Content-Type": "application/json"
```
body:
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| request_id | string | 唯一标识 | 是 |
Response 返回数据
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| err_code | int | 是否正确处理请求,0为成功,1为失败 | 是 |
| err_message | string | 请求处理消息 | 是 |
5. 查询评测进度
request请求接口
header
```bash
"Content-Type": "application/json"
```
body:
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| request_id | string | 唯一标识 | 是 |
| domain | string | 评测领域(NLP,MM) | 是 |
Response 返回数据
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| err_code | int | 是否正确处理请求,0为成功,1为失败 | 是 |
| err_message | string | 请求处理消息 | 是 |
| finished | bool | 评测是否完成 | 是 |
| status | string | 评测状态 | 是 |
| datasets_progress | string | 数据集进度 | 是 |
| running_dataset | string | 正在运行数据集 | 是 |
| running_progress | string | 运行数据集内评测进度 | 是 |
6. 查询评测差异
request请求接口
header
```bash
"Content-Type": "application/json"
```
body:
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| request_ids | string[] | 唯一标识 | 是 |
Response 返回数据
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| err_code | int | 是否正确处理请求,0为成功,1为失败 | 是 |
| err_message | string | 请求处理消息 | 是 |
| eval_diffs | EvalDiff[] | 评测结果差异对比列表 | 是 |
EvalDiff 数据结构
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| request_id | string | 被评估评测记录uuid | 是 |
| details | Detail[] | 各数据集详细对比数据 | 是 |
| release | bool | 是否满足发布条件 | 是 |
Detail 数据结构
| 参数名称 | 参数类型 | 参数意义 | 是否必须 |
|---|---|---|---|
| dataset | string | 数据集名称 | 是 |
| base_acc | float | 基线得分 | 是 |
| accuracy | float | 被评估评测数据集得分 | 是 |
| diff | float | 被评估数据集与基线数据集差值 | 是 |