关于代理评估

随着AI代理在业务流程中扮演关键角色，可靠且可重复的测试需求变得至关重要。代理评估可以让你生成模拟真实世界场景的测试。这些测试能够比逐个案例的手动测试更快速、更广泛地涵盖问题和对话。然后，可以根据代理可以访问的信息来衡量代理交互答案的准确性、相关性和质量。通过使用测试集的结果，你可以优化智能代理的行为，并验证其符合业务和质量要求。

为什么要使用自动化测试？

代理评估提供自动化的结构化测试。它有助于及早发现问题，降低错误答案的风险，并在代理不断发展过程中保持质量。这一流程为代理检测带来了自动化且可重复的质量保证。它确保代理满足企业的准确性和可靠性标准，并让其执行方式具有透明度。它与使用测试聊天进行测试相比，具有不同的优势。

可以通过 Copilot Studio 界面、Power Platform REST API 或在工具、流或 Power Automate 中添加操作来运行评估并查看结果。

代理评估衡量的是正确性和性能，而非人工智能伦理或安全问题。代理人可能通过所有评估测试，但仍会给出不恰当的回答。客户仍应使用负责任的 AI 评审和内容安全筛选器;评估不会替换这些评审和筛选器。

政府社区云的局限性

政府社区云（GCC）环境中的代理评估存在以下局限性：

制作者无法将用户配置文件添加到他们的测试集中。不过，开发者仍然可以在没有用户配置文件的情况下进行评估。
制作者不能使用相似性测试方法进行评估。其他所有测试方法均可使用。

代理评估的工作原理

Copilot Studio 使用测试用例对每个代理进行评估。测试用例是一个模拟用户如何与代理交互的单个交互。交互可以是单个问题或整个对话。

测试案例也可以包含你期望经纪人回答的答案。例如：

问题是：你们的工作时间是怎样的？
预期的回应是：我们从周一到周五，营业时间为上午9点至下午5点。

通过使用代理评估，你可以生成、导入或手动编写一组测试用例。这组测试用例称为 测试集。测试集可以让你：

同时运行多个涵盖广泛功能的测试用例，而不是每次只向你的代理询问一个问题。
用一个易于理解的综合评分分析你的代理表现，同时聚焦于单个测试用例。
用同一套测试集测试代理的变更，这样你就有一个客观的标准来衡量和比较性能的变化。
快速创建新测试集或修改现有测试集以应对代理能力或需求的变化。

每个测试集都可以同时使用多种测试方法来评估你的代理。

还可以选择一个用户配置文件来充当模拟用户。代理可能被配置为以不同方式响应不同用户，或以不同方式允许访问资源。

选择测试集并运行代理评估时，Copilot Studio 会在测试用例中发送问题、记录代理的响应、将这些响应与预期的响应或质量标准进行比较，并将分数分配给每个测试用例。你还可以查看每个测试案例的详细信息、文字记录和活动地图，以及你的代理用了哪些资源来创建响应。

创建全面的评估策略

在运行评估之前，请定义代理的成功情况，并确定哪些方案对业务成果最为重要。明确的策略可帮助你选择正确的测试方法、确定高影响测试用例的优先级，以及使用正确的上下文解释结果。

使用架构代理解决方案：评估框架将业务目标映射到可衡量的评估维度和评分方法。
使用设计和操作代理评估来构建支持持续质量改进的可重复评估过程。

将评估集成到自动化流中

代理评估支持自动化，因此制造商无需手动干预即可运行评估。通过使用 REST API 或 Power Platform 连接器，可以编程方式触发评估运行，并将测试集成到自动化工作流（例如持续集成和持续部署（CI/CD）管道中。使用此方法，可以在引入更改时大规模运行测试集并验证代理行为，而无需在Copilot Studio中手动执行。

聊天测试与代理评估

每种测试方法都能为您提供对经纪人品质和行为的不同洞察：

测试聊天：

每次接收并回答一个问题。重复做同样的测试很难。
允许你测试包含多条消息的完整会话。
通过聊天界面，你可以作为用户与你的客服人员互动。

代理人评估：

可以使用测试集一次性创建和运行多个测试用例。可以通过使用相同的测试集进行测试来重复测试。
可以测试每个测试用例一个问题和一个响应，也可以测试每个测试用例一个对话。但是，使用测试聊天时，你对对话的控制力比使用测试聊天要少。
选择不同的用户配置文件来模拟不同的用户，而无需亲自完成互动。

测试经纪人时，应同时使用测试聊天和客服评估，以全面了解你的经纪人情况。

反馈

此页面是否有帮助？

Last updated on 2026-05-01