运行评估并查看结果

进行评估并分析结果,优化您的客服行为,验证您的客服符合您的业务和质量要求。 您还可以多次运行测试集,以在改进智能体时随时间推移查看变化。

本文介绍如何使用Copilot Studio接口开始评估和查看结果。 您还可以通过 Power Platform API连接器运行评估,这些工具可作为独立工具添加,也可作为 Copilot Studio 或 Power Automate 中自动化流的一部分。

在 Copilot Studio 中,测试结果有效期为 89 天。 为了更长时间地保存测试结果,请将结果导出为CSV文件。

用测试集运行测试

创建测试集后,使用该集合运行测试。 或者,可以通过使用相同的数据集来反复运行测试,以便随着时间和迭代次数比较结果。 测试运行最多可能需要几分钟。 你一次只能运行一个测试。

重要

使用用户身份验证的代理评估需要通过 Microsoft Copilot Studio 连接器进行访问。 如果你的管理员关闭了这个连接,你就无法通过评估工具运行测试。 有关详细信息,请参阅 Copilot Studio 连接器和数据组

  1. 访问你经纪人的 评估 页面。

    截图展示了在因屏幕尺寸压缩导致标签页选择受限时,如何选择评估标签页。

  2. 通过执行以下操作之一来运行测试:

    • 在创建编辑测试集结束时,选择“评估”。
    • “近期成绩 ”部分,请通过以下任一步骤重跑测试:
      • 将鼠标悬停在要评估的测试结果上,然后选择▶评估,并在评估代理旁边选择<(再次评估测试集)>。
      • 选择测试结果以打开它,然后在“评估摘要”窗格中选择“运行▶”图标。

    如果测试集的用户配置文件连接中断,或者测试集没有用户配置文件,将显示 “管理配置文件和连接 ”对话框。 测试时不必使用用户配置文件。 但是,如果您使用配置文件,所有连接都必须正常工作。 有关修复连接的信息,请参见 “管理用户配置文件和连接”。

评估运行需几分钟。 测试结果被实时逐行处理。 你会看到每个评估测试用例的结果在生成时按顺序显示。 实时处理测试用例可让你在评估运行时立即了解质量趋势和潜在故障。 如果出现问题,可以随时停止运行。 完整评估完成后,Copilot Studio会显示警报,摘要结果可供查看。

注释

一次只能运行一个评估测试集。 等待当前评估完成,然后再运行另一个评估。

深入分析测试结果

每次使用测试集执行评估时,Copilot Studio:

  1. 使用连接的用户帐户模拟与智能体的对话,将测试案例中的每个问题发送到智能体。

  2. 收集智能体的响应。

  3. 衡量和分析每次响应的成功情况。 每个测试用例根据该测试用例的标准获得通过失败无效错误

  4. 根据测试集的“通过/率”分配通过率分数。

您可以在代理的评估页面“近期结果”栏目中查看每次测试的通过率。 要查看更多测试集运行,选择查看全部

显示先前评估列表的屏幕截图。

查看并评分测试用例的详细分析

打开测试结果时,你会看到测试运行的详细信息、测试中使用的查询列表、代理的响应以及 通过不通过 评分。

在列表中选择一个测试用例,查看每个响应的详细评估。 选择 全部通过 ,以按结果筛选案例。

截图显示了已完成评估中的测试用例列表,筛选条件被高亮显示。

评估内容包括预期和实际反应、测试结果背后的理由,以及代理人用来应对的知识、主题和工具。

显示测试案例的详细结果和评估的屏幕截图。

  1. 评估结果。 本示例展示了质量评估的结果细节。

  2. 选择 “显示活动地图 ”,查看你的代理在测试案例中的输入、决策和输出顺序。 在 活动内的“查看对话”中了解详细信息。

  3. 考试题目和工作人员回答的文字记录。

  4. 智能体在测试中使用的资源。 选择一个选项以打开。

你可以向Microsoft反馈每个测试用例的评估表现。 这些反馈专门关乎所选评估方法对回答的评估效果,而非回答本身是否正确。 您的反馈有助于随着时间推移提升评估的质量和准确性。

要对评估进行评分,请在测试用例详细信息窗格中选择赞 显示赞图标的屏幕截图,用于对测试用例评估提交积极反馈。 或踩 显示踩图标的屏幕截图,用于对测试用例评估提交负面反馈。 图标。 当反馈表单打开时,提供更多关于你的评分的详细信息,然后选择 提交

同一代理的多个“创建者”可以多次运行评估测试集。 创建者可以使用其他制造商创建的测试集运行评估。 创建者可以查看任何测试运行的运行状态和结果指标,但只有启动测试运行的制造商可以查看代理响应和结果说明。

比较测试结果

你想测试一个版本的代理,观察修改前后性能的变化。 您可以使用比较工具来比较同一测试集的两次运行结果。

要看到对比,你需要至少运行同一组测试集两次。

  1. 在您的代理的评估页面中,在“最近测试结果”下,打开您想用作比较基准的测试运行

  2. 选择“ 与他人比较 ”下拉菜单,然后选择你想与当前开放测试结果进行比较的时间和日期。

截图显示“比较”下拉菜单。

测试案例 列表中,箭头显示哪些测试用例结果通过从失败变为通过 而提升,或通过从通过变为失败 而下降。

选择一个测试用例以查看更多细节。 在 评估总结 面板中,你可以看到测试成绩的直接对比,当前测试运行的结果显示在顶部。

截图显示了两个测试集的结果对比。

导出测试结果

你可以导出测试结果成CSV文件。 文件列出了每个测试用例的问题、预期响应(如适用)、测试方法、及格分数(如适用)、代理的回答、测试结果以及分析。

  1. 访问你经纪人的 评估 页面。
  2. “近期结果 ”部分,通过以下任一步骤导出测试结果:
    • 将鼠标悬停在你想导出的测试用例上,选择三个点(...),然后选择 导出测试结果
    • 选择测试用例打开,在评估摘要窗格中选择三个点(...),然后选择导出测试结果

测试结果将以 你的测试集名称.csv 的格式下载。