評価を実行して結果を表示する

評価を行い結果を分析することで、エージェントの行動を最適化し、エージェントがあなたのビジネスおよび品質要件を満たしているかを検証しましょう。 また、エージェントの改善に合わせて変化を確認するために、テストセットを複数回実行することもできます。

この記事では、Copilot Studio インターフェイスを使用して評価を開始し、結果を表示する方法について説明します。 また、Power Platform API または connectors をツールとして、またはCopilot StudioまたはPower Automateの自動化フローの一部として追加して、評価を実行することもできます。

テスト結果はCopilot Studioで89日間閲覧可能です。 テスト結果を長期間保存するには、結果をCSVファイルに エクスポート してください。

テストセットでテストを実行してください

テストセットを作成したら、そのセットを使ってテストを実行します。 あるいは、同じセットを使って時間や反復 の結果を比較 してテストを再実行することもできます。 テストは実行に数分かかることがあります。 一度に実行できるテストは 1 つのみです。

Important

ユーザー認証を使用するエージェントの評価には、Microsoft Copilot Studio コネクタ経由でアクセスする必要があります。 管理者がこの接続をオフにすると、評価ツールを使ってテストを実行できません。 詳細については、「Copilot Studio コネクタとデータ グループを参照してください。

  1. エージェントの 評価 ページにアクセスしてください。

    画面サイズの関係でタブ選択が圧縮されたときに評価タブを選択する方法を示すスクリーンショットです。

  2. 以下のいずれかの操作を行うことでテストを実行してください:

    • テストセット の作成 または 編集 の最後に、「 評価」を選択します。
    • 最近の結果セクションでは、以下のいずれかの手順を踏んでテストを再実行してください:
      • 評価するテスト結果にカーソルを合わせ、▶ Evaluate (Evaluate test set again) を選択し、Evaluate Agent の横に移動します。
      • テスト結果を選択して開き、[評価の概要] ウィンドウで [実行▶] アイコンを選択します。

    テスト セットのユーザー プロファイルに接続が切断されている場合、またはテスト セットにユーザー プロファイルがない場合は、[ プロファイルと接続の管理 ] ダイアログが表示されます。 テストにユーザープロファイルを使う必要はありません。 ただし、プロファイルを使う場合は、すべての接続が正常に動作している必要があります。 接続の修正については、「 ユーザープロファイルと接続の管理」をご覧ください。

評価の実行には数分かかります。 テスト結果は、リアルタイムで 1 行ずつ処理されます。 各評価テスト ケースの結果は、生成されると順番に表示されます。 テスト ケースのライブ処理を使用すると、評価の実行中に品質傾向と潜在的な障害を即座に把握できます。 問題が発生した場合は、いつでも実行を停止できます。 完全な評価が完了し、概要の結果を表示する準備が整うと、アラートがCopilot Studioに表示されます。

Note

一度に実行できる評価テスト セットは 1 つだけです。 現在の評価が完了するまで待ってから、別の評価を実行します。

検査結果を詳しく見てみましょう

テスト セットを用いて評価を実行するたびに、Copilot Studio は以下の処理を行います。

  1. 接続されたユーザー アカウントを使用してエージェントとの会話をシミュレートし、テスト ケースの各質問をエージェントに送信します。

  2. エージェントの応答を収集します。

  3. 各対応の成功を測定・分析します。 各テストケースは、その基準に基づいてPassFailInvalid、またはErrorを受け取ります。

  4. テスト セットの Pass/ レートに基づいて合格率スコアを割り当てます。

各テストセットの 合格率 は、エージェントの 評価 ページの 「最近の結果」で確認できます。 その他のテスト セットの実行を表示するには、[ すべて表示] を選択します。

以前の評価の一覧を示すスクリーンショット。

テストケースの詳細な分析を参照し評価します

テスト結果を開くと、テスト実行の詳細、テストで使用されたクエリのリスト、エージェントの応答、 合格 または 不合格 のスコアが表示されます。

リストからテストケースを選択すると、各回答の詳細な評価が見られます。 結果でケースを絞り込むために 「全て」「 合格」または 「失敗 」を選択してください。

完了した評価内のテストケース一覧を示し、フィルターがハイライトされています。

評価には、期待される反応と実際の回答、検査結果の背景にある理由、そして担当者が回答するために使用した知識、トピック、ツールが含まれます。

テスト ケースの詳細な結果と評価を示すスクリーンショット。

  1. 評価結果。 この例は品質評価の結果を示しています。

  2. アクティビティマップを表示 」を選択すると、テストケース内でエージェントの入力、意思決定、出力の順序が表示されます。 詳細については、 アクティビティ内での会話の表示に関するページを参照してください。

  3. テスト問題の書き起こしとエージェントの回答。

  4. 検査でエージェントが使ったリソース。 一つを選択して開けてください。

各テストケースの評価がどの程度うまく行われたかについて、Microsoftにフィードバックを提供できます。 このフィードバックは、選択された評価方法が回答をどれだけ効果的に評価したかに関するものであり、回答自体が正しかったかどうかではありません。 あなたのフィードバックは、時間をかけて評価の質と正確性を向上させるのに役立ちます。

評価を評価するには、 テストケース評価に対する肯定的なフィードバックを提出するための 「サムズアップスクリーンショット」を選択します。またはテスト ケース評価に対する否定的なフィードバックを送信するための 「サムズダウンスクリーンショット」を選択できます。テストケース詳細パネル内のアイコンです。 フィードバックフォームが開いたら、評価の詳細を入力してから 「送信」を選択してください。

評価テスト セットは、同じエージェントの複数の "作成者" によって複数回実行できます。 作成者は、他の作成者によって作成されたテスト セットを使用して評価を実行できます。 作成者は、すべてのテスト実行の実行状態と結果メトリックを確認できますが、エージェントの応答と結果の説明を表示できるのは、テスト実行を開始した作成者だけです。

検査結果を比較する

エージェントのバージョンを1つテストして、変更の前後でパフォーマンスの変化を確認したいです。 同じテストセットの2回の実行は 比較 ツールを使って比較できます。

比較を見るには、同じテストセットを少なくとも2回実行する必要があります。

  1. エージェントの 評価 ページの 「最近のテスト結果」の「最近のテスト結果」の欄で、比較の基準にしたい テストランを開きます

  2. 比較」 ドロップダウンを選択し、現在進行中のテスト結果と比較したいテストランの時刻と日付を選択してください。

ドロップダウンで比較するスクリーンショット。

テストケースリストでは、矢印によってテストケースの結果が失敗から合格に変わって改善したか、または合格から失敗に変わって悪化したかを示します。

詳細を見るにはテストケースを選択してください。 評価サマリーペインでは、テストスコアの直接比較が見られ、現在のテストランの結果が上に表示されます。

2つのテストセットの結果を比較したスクリーンショットです。

テスト結果をエクスポートする

テスト結果をCSVファイルにエクスポートできます。 ファイルには、各テストケースごとに質問、期待される回答(該当する場合)、テスト方法、合格スコア(該当する場合)、エージェントの回答、テスト結果、分析が一覧化されています。

  1. エージェントの 評価 ページにアクセスしてください。
  2. 最近の結果セクションでは、以下のいずれかのステップでテスト結果をエクスポートしてください:
    • エクスポートしたいテストケースにカーソルを合わせ、3つの点を選択し、テスト結果をエクスポートを選択します。
    • テストケースを選択して開き、評価要約ペインで3つの点(...)を選択し、「テスト結果のエクスポート」を選択してください。

テスト結果はあなたのテストセット名.csvとしてダウンロードされます。