关于代理评估

随着AI代理在业务流程中扮演关键角色,可靠且可重复的测试需求变得至关重要。 代理评估可以让你生成模拟真实世界场景的 测试 。 这些测试能够比逐个案例的手动测试更快速、更广泛地涵盖问题和对话。 然后,可以根据代理可以访问的信息 来衡量 代理交互答案的准确性、相关性和质量。 通过使用 测试集的结果,你可以优化智能代理的行为,并验证其符合业务和质量要求。

为什么要使用自动化测试?

代理评估提供自动化的结构化测试。 它有助于及早发现问题,降低错误答案的风险,并在代理不断发展过程中保持质量。 这一流程为代理检测带来了自动化且可重复的质量保证。 它确保代理满足企业的准确性和可靠性标准,并让其执行方式具有透明度。 它与使用测试聊天进行测试相比,具有不同的优势。

可以通过 Copilot Studio 界面、Power Platform REST API 或在工具、流或 Power Automate 中添加操作来运行评估并查看结果。

代理评估衡量的是正确性和性能,而非人工智能伦理或安全问题。 代理人可能通过所有评估测试,但仍会给出不恰当的回答。 客户仍应使用负责任的 AI 评审和内容安全筛选器;评估不会替换这些评审和筛选器。

政府社区云的局限性

政府社区云(GCC)环境中的代理评估存在以下局限性:

  • 制作者无法将 用户配置文件 添加到他们的测试集中。 不过,开发者仍然可以在没有用户配置文件的情况下进行评估。

  • 制作者不能使用 相似性测试方法 进行评估。 其他所有测试方法均可使用。

代理评估的工作原理

Copilot Studio 使用测试用例对每个代理进行评估。 测试用例是一个模拟用户如何与代理交互的单个交互。 交互可以是单个问题或整个对话。

测试案例也可以包含你 期望 经纪人回答的答案。 例如:

  • 问题是:你们的工作时间是怎样的?

  • 预期的回应是:我们从周一到周五,营业时间为上午9点至下午5点。

通过使用代理评估,你可以 生成导入手动编写 一组测试用例。 这组测试用例称为 测试集。 测试集可以让你:

  • 同时运行多个涵盖广泛功能的测试用例,而不是每次只向你的代理询问一个问题。

  • 用一个易于理解的综合评分分析你的代理表现,同时聚焦于单个测试用例。

  • 用同一套测试集测试代理的变更,这样你就有一个客观的标准来衡量和比较性能的变化。

  • 快速创建新测试集或修改现有测试集以应对代理能力或需求的变化。

每个测试集都可以同时使用多种测试方法来评估你的代理。

还可以选择一个用户配置文件来充当模拟用户。 代理可能被配置为以不同方式响应不同用户,或以不同方式允许访问资源。

选择测试集并运行代理评估时,Copilot Studio 会在测试用例中发送问题、记录代理的响应、将这些响应与预期的响应或质量标准进行比较,并将分数分配给每个测试用例。 你还可以查看每个测试案例的详细信息、文字记录和活动地图,以及你的代理用了哪些资源来创建响应。

创建全面的评估策略

在运行评估之前,请定义代理的成功情况,并确定哪些方案对业务成果最为重要。 明确的策略可帮助你选择正确的测试方法、确定高影响测试用例的优先级,以及使用正确的上下文解释结果。

将评估集成到自动化流中

代理评估支持自动化,因此制造商无需手动干预即可运行评估。 通过使用 REST APIPower Platform 连接器,可以编程方式触发评估运行,并将测试集成到自动化工作流(例如持续集成和持续部署(CI/CD)管道中。 使用此方法,可以在引入更改时大规模运行测试集并验证代理行为,而无需在Copilot Studio中手动执行。

聊天测试与代理评估

每种测试方法都能为您提供对经纪人品质和行为的不同洞察:

测试聊天

  • 每次接收并回答一个问题。 重复做同样的测试很难。

  • 允许你测试包含多条消息的完整会话。

  • 通过聊天界面,你可以作为用户与你的客服人员互动。

代理人评估:

  • 可以使用测试集一次性创建和运行多个测试用例。 可以通过使用相同的测试集进行测试来重复测试。

  • 可以测试每个测试用例一个问题和一个响应,也可以测试每个测试用例一个对话。 但是,使用测试聊天时,你对对话的控制力比使用测试聊天要少。

  • 选择不同的用户配置文件来模拟不同的用户,而无需亲自完成互动。

测试经纪人时,应同时使用测试聊天和客服评估,以全面了解你的经纪人情况。