智能体评测
智能体评测用于测试智能体的编排效果,验证它是否达到预期的能力与性能。你导入测试数据集,对智能体进行批量执行,再分析输出结果,得到客观的质量评估依据,从而在编排调试阶段持续优化智能体。
功能特点
- 批量数据测试:导入场景化测试数据集,模拟用户对话输入,批量执行并收集输出,全面核定智能体回复的质量和效果。
- AI 模型辅助分析:由 AI 评测模型自动分析结果,提供质量判定和效果评分,提升分析效率。
- 多维度对比分析:支持测试结果在线比对和标注、跨版本结果比对,以及知识库检索详情追溯。
批量测试
进入 我的智能体 列表页,选择一个智能体,单击 操作 列下的 ··· > 批量测试,进入评测页面。

或单击 操作 列下的 Agent 管理,进入智能体详情页,然后单击页面右上角的 批量测试。

只有发布过正式版本的智能体才能进行批量测试。
AI 评测配置
平台支持 AI 评测模型自动分析测试结果。创建评测任务 时选择 AI 评测 调试类型,系统会自动调用评测模型分析智能体的输出并生成分析报告。
-
单击页面右上角的 AI 评测配置。该配置仅对当前智能体有效,在此智能体下创建的每个 AI 评测 任务都会调用此配置。

AI 评测配置入口 -
配置 评测模型 和 评测提示词。

评测模型与提示词字段 你可以自行输入提示词,或单击页面左下角的 提示词模板,查看模板内容并单击 使用 来引用。也可单击 切换英文 或 切换中文 切换模板语种,目前支持中英文。

提示词模板选择 配置完成后,单击 确定 保存。
-
每次保存后,系统会默认生成一个配置历史版本。在右侧 历史记录 下单击 详情 查阅历史版本内容,或单击 恢复此版本 恢复某个历史版本的配置。

配置历史记录列表 
历史版本详情
创建评测任务
在批量测试任务列表页,单击右上角的 创建任务,创建一个针对当前智能体的评测任务。你可以评测智能体的任意已发布版本。


| 字段 | 说明 |
|---|---|
| 所在数据区 | 当前评测智能体所在的数据区。任务数据也保存在该数据区。 |
| Agent 名称 | 智能体的名称。 |
| 选择版本 | 当前智能体的某个历史发布版本。 |
| 测试任务名称 | 评测任务的名称。 |
| 调试类型 | 智能体执行:智能体执行测试数据并输出结果。AI 评测:智能体执行完成后,AI 评测模型自动分析输出内容并返回结果。 |
| 导入数据 | 从表格文件导入测试数据,一次只能上传一个文件。建议先单击 下载测试集模板,按模板格式上传,避免解析失败。 |
配置完成后,单击 保存并立即执行 运行测试任务。
评测结果
任务执行完成后,单击 详情 在线查看执行结果,或单击 下载 下载结果文件。

如果智能体关联了知识库,可在结果中单击 查看检索 查看知识库检索详情。

| 字段 | 说明 |
|---|---|
| 输入 | 你上传的测试用例数据。 |
| 期望输出 | 测试数据输入后预期响应的内容。 |
| 实际输出 | 智能体实际生成的结果。 |
| 评测结果 | 人工自定义标注。可标识通过/失败,并添加描述。 |
| 评测说明 | 调试类型为 AI 评测 时,展示模型评估意见;为 智能体执行 时为空,可人工标注。 |
| 其他信息 | 可根据需要添加备注。 |
| 知识库检索 | 如果智能体关联了知识库,可查看该条数据输入后的检索详情。检索详情不支持文件导出。 |
结果对比
平台支持对同一智能体的任意两个任务进行在线对比。在 批量测试 任务列表页单击 结果对比,选择任意两个历史任务,再单击 结果对比 查看详情。


你也可以下载任务执行结果文件,在本地进行更细致的对比。
费用说明
智能体评测功能目前免费,执行评测任务产生的 Token 消耗按标准费率正常计费。
前往 资源消耗 页面查看 Token 消耗明细,或选择一个智能体,进入 批量测试 列表,在 Token 消耗 列查看每个任务消耗的 Token。
