快速开始

未注册用户默认拥有查看平台的首页、新闻、排行榜、用户手册的权限和体验大模型角斗场、Debate辩论赛的权限。若需使用评测功能，用户需完成注册登录平台，在评测管理部分申请报名评测并补充完整个人信息，请确保提交信息准确有效，提交信息后，管理员审核通过后即可使用平台进行评测。

具体操作方式如下：

注册

用户点击【登录/注册】按钮，弹出如下界面，初次使用平台先用 微信扫描二维码 ，关注“智源社区小助手”微信公众号。

sign-1 扫码关注后，界面变成如下样式，线上填写邮箱、手机号、验证码进行注册。 sign-2

注册完成后，跳转到平台首页，点击【评测控制台】，可报名评测，用户补充完整个人信息，平台管理员根据个人信息进行审核，审核通过的用户方可使用平台的评测功能。审核结果会以邮件的方式通知用户。

输入图片说明

参数	说明
用户名	用户名将作为平台唯一标识，建议使用姓名全拼加数字的方式，填写用户名后不允许修改。长度3——32个字符，支持小写字母和数字，以小写字母开头。
真实姓名	请用户填写个人真实姓名，平台管理员审核时优先通过真实姓名。
组织机构	建议机构+部门组成，例如智源研究院算力平台，清华计算机系等，平台管理员审核时优先通过真实组织机构。组织机构需要填写中英文双语。
报名任务	选择【在线评测】或【离线评测】；在线评测：用户只需提供评测接口API，评测平台提供测试数据进行推理评测。离线评测：用户需上传已训练好的模型&推理代码，评测平台提供推理算力和数据，进行推理评测。
是否评测自研模型	是 & 否，单选
协议声明	需要用户阅读并同意该协议后，才能使用平台的评测功能。

注册流程如下图所示：

注：

请认真填写个人信息，管理员会根据个人信息进行审核。
请填写有效邮箱和手机号，审核状态会通过邮件和短信进行通知，后续的评测任务状态也会通过邮件通知用户。
每个用户每个月有1次修改邮箱的机会。

如用户已完成注册，点击【登录/注册】按钮，弹出【登录】页面，用户可以选择【微信-扫一扫】扫描屏幕上方的二维码登录，也可以选择【手机验证码】方式登录。
用户也可点击【Hugging Face】第三方平台登录，跳转到Hugging Face登录界面。流程如下所示：

输入图片说明

输入【用户名/邮箱地址】、【密码】这两项信息

输入图片说明

若还没有Hugging Face账号，则先注册，也可通过Hugging Face账号授权登录

输入图片说明

创建评测

用户点击【评测管理】进入评测管理页面，主要包括：模型评测、创新算法评测和镜像管理。

输入图片说明

用户根据自己的需求选择模型评测或者创新算法评测，点击【创建评测】，弹出【创建评测】对话框，根据不同的评测领域填写相应表单信息，提交生成一条评测任务。

提交创建评测后，自动跳转到详情页面，用户可以点击查看【上传模型&代码】规范，利用flageval-serving上传模型与代码。上传完成后，点击【推理验证】快速验证推理评测代码是否可运行，通过验证后，点击【启动推理评测】进行正式推理评测过程，等待评测结束，即可查看评测结果。评测过程中如果遇到问题中断失败，可以通过日志查看错误信息。

上传镜像

【镜像管理】中预置了部分镜像，如果用户在实际评测中需要自定义镜像，可以在【自定义镜像】中上传自己的镜像。

用户点击【镜像管理/自定义镜像/导入镜像】，弹出【导入镜像】对话框，填写表单提交表单，等待平台管理员审核，审核通过后，自动导入。镜像导入成功后，方可在评测任务中使用。

目前平台仅支持用户已有镜像导入，不支持利用dockerfile在平台构建镜像，用户填写的 dockerfile 仅用于平台审核人员审查镜像。

输入图片说明

自动评测

介绍

Auto-Evaluation是基于FlagEval平台搭建的多芯片适配的模型自动评测分析工具，覆盖LLM、VLM、和具身VLM三个领域，绑定了对应领域的经典数据集，目前仅支持开启在线评测。该工具提供了开启评测、查看评测进度、查看评测结果、停止评测、重启评测以及多芯片评测结果差异分析接口。无论是个人、团队或是企业，在算力资源上开启服务并支持公网可访问，就可以通过该工具进行自动评测。

工具说明

1、工具地址：

120.92.17.239:5050

2、工具接口简介：

接口名称	接口方式	接口介绍
/evaluation	POST	开启评测，采用同步方式调用上传的服务url开始模型推理
/evaldiffs	GET	查询评测结果
/stop_evaluation	POST	停止评测，如遇服务有问题需要暂停评测，可通过该接口停止
/resume_evaluation	POST	重启评测，重启支持断点续评
/evaluation_progress	POST	查看评测进度，会返回各个数据集已评测完成的详细信息
/evaluation_diffs	POST	查看多个模型的结果差异

接口详细参数说明

1. 开启评测

request请求接口

header

```json
"Content-Type": "application/json" 
```

body:

参数名称	参数类型	参数意义	是否必须
eval_infos	EvalInfo[]	模型评测服务信息列表	是
domain	string	评测领域：NLP、MM	是
mode	string	评测项目标识，有默认值	否
region	string	评测工具集群：bj（默认）、sz	否
special_event	string	是否为芯片评测，默认是	否
user_id	int	FlagEval平台的用户id	否

EvalInfo 数据结构参数

参数名称	参数类型	参数意义	是否必须
eval_model	string	开启评测的评测任务名称，需要唯一（为明确评测是否为nvidia基线模型，请使用xxx-nvidia-origin来命名）	是
model	string	模型部署为服务时使用的模型（模型一致开启的多次评测都会使用同一份缓存）	是
eval_url	string	各个模型部署服务的评测接口，eg：http://10.1.15.153:9010/v1/chat/completions	是
tokenizer	string	厂商及模型信息，eg:Qwen/Qwen3-8B	是
api_key	string	模型调用API_KEY,默认为"EMPTY"	否
batch_size	int	模型可开启的batch_size,默认为1	否
num_concurrent	int	并发数，默认为1	否
num_retry	int	重试次数，默认为10	否
gen_kwargs	string	模型强调需要设定温度，topn等参数，以","为分割 eg：temperature=0.6,top_k=20,top_p=0.95,min_p=0 NLP使用max_gen_toks，对于max_model_len为16384的，请设置max_gen_toks=16000 MM、EV使用max_gen_toks字段指定	否
thinking	bool	是否开启thinking模型，暂只对EmbodiedVerse的RoboBrain适用，默认为False	否
retry_time	int	超时时间，暂支持MM、具身领域目前默认为3600s	否
chip	string	评测使用芯片名称，格式：厂商-芯片名称默认为：Nvidia-H100	否
base_model_name	string	评测使用的基础模型，eg：Qwen3-8B	否

Response返回数据

说明：因模型评测耗时较长，接口暂时返回对应的评测id及batchid，后续可通过该信息查询评测结果。

参数名称	参数类型	参数意义	是否必须
err_code	int	是否正确处理请求，0为成功，1为失败；为1时返回数据中不包含request_id	是
err_msg	string	请求处理消息	是
request_id	string	唯一标识	是
eval_tasks	EvalTask[]	各个服务开启的评测详细信息	是

2. 查看评测结果

request请求接口

header

```bash
"Content-Type": "application/json" 
```

body:

参数名称	参数类型	参数意义	是否必须
request_id	string	唯一标识	是

Response 返回数据

参数名称	参数类型	参数意义	是否必须
err_code	int	是否正确处理请求，0为成功，1为失败	是
err_message	string	请求处理消息	是
eval_results	EvalResultMap	各个服务开启的评测结果信息	是

EvalResultMap 数据结构

参数名称	参数类型	参数意义	是否必须
EvalResultMap	Map<string, EvalResult>	一次开启的所有模型的评测结果	是
EvalResultMap.key	string	开启评测对应的eval_model	是
EvalResultMap.value	EvalResult[]	单个模型的评测结果	是

EvalResult 数据结构

参数名称	参数类型	参数意义	是否必须
status	string	评测对应的状态。eg：S:成功、F:失败、C:取消、OOR：超过重试次数	是
details	Detail[]	对应评测服务的各个数据集评测结果（暂时只支持mmlu，gsm8k）	是
release	bool	该模型是否可发布，diff是否在可接受范围内	是

Detail 数据结构

参数名称	参数类型	参数意义	是否必须
dataset	string	数据集名称	是
status	string	对应评测服务的运行状态，eg:S:成功、F:失败、C:取消	是
accuracy	float	数据集评测结果	是
diff	float	数据集评测结果与nvidia的baseline的差异	是

3. 停止评测

request请求接口

header

```bash
"Content-Type": "application/json" 
```

body:

参数名称	参数类型	参数意义	是否必须
request_id	string	唯一标识	是

Response 返回数据

参数名称	参数类型	参数意义	是否必须
err_code	int	是否正确处理请求，0为成功，1为失败	是
err_message	string	请求处理消息	是

4. 重启评测

request请求接口

header

```bash
"Content-Type": "application/json" 
```

body:

参数名称	参数类型	参数意义	是否必须
request_id	string	唯一标识	是

Response 返回数据

参数名称	参数类型	参数意义	是否必须
err_code	int	是否正确处理请求，0为成功，1为失败	是
err_message	string	请求处理消息	是

5. 查询评测进度

request请求接口

header

```bash
"Content-Type": "application/json" 
```

body:

参数名称	参数类型	参数意义	是否必须
request_id	string	唯一标识	是
domain	string	评测领域(NLP,MM)	是

Response 返回数据

参数名称	参数类型	参数意义	是否必须
err_code	int	是否正确处理请求，0为成功，1为失败	是
err_message	string	请求处理消息	是
finished	bool	评测是否完成	是
status	string	评测状态	是
datasets_progress	string	数据集进度	是
running_dataset	string	正在运行数据集	是
running_progress	string	运行数据集内评测进度	是

6. 查询评测差异

request请求接口

header

```bash
"Content-Type": "application/json" 
```

body:

参数名称	参数类型	参数意义	是否必须
request_ids	string[]	唯一标识	是

Response 返回数据

参数名称	参数类型	参数意义	是否必须
err_code	int	是否正确处理请求，0为成功，1为失败	是
err_message	string	请求处理消息	是
eval_diffs	EvalDiff[]	评测结果差异对比列表	是

EvalDiff 数据结构

参数名称	参数类型	参数意义	是否必须
request_id	string	被评估评测记录uuid	是
details	Detail[]	各数据集详细对比数据	是
release	bool	是否满足发布条件	是

Detail 数据结构

参数名称	参数类型	参数意义	是否必须
dataset	string	数据集名称	是
base_acc	float	基线得分	是
accuracy	float	被评估评测数据集得分	是
diff	float	被评估数据集与基线数据集差值	是

快速开始 ​

注册 ​

登录 ​

创建评测 ​

上传镜像 ​

自动评测 ​

介绍 ​

工具说明 ​

1、工具地址： ​

2、工具接口简介： ​

接口详细参数说明 ​

1. 开启评测 ​

2. 查看评测结果 ​

3. 停止评测 ​

4. 重启评测 ​

5. 查询评测进度 ​

6. 查询评测差异 ​

快速开始

注册

登录

创建评测

上传镜像

自动评测

介绍

工具说明

1、工具地址：

2、工具接口简介：

接口详细参数说明

1. 开启评测

2. 查看评测结果

3. 停止评测

4. 重启评测

5. 查询评测进度

6. 查询评测差异