実際に機能するエージェントを構築する方法:AI を評価するための実践ガイド

読了時間

Ayushi Mrigen

エンジニアリング

Matthew Ding

Technical Product Marketing Manager

効果的な評価は、エージェントの質を保証するだけでなく、エージェントが実際のワークフローをどのようにサポートしているかをチームが理解し、改善するのにも役立つため、信頼できるAIエージェントを構築するために不可欠です。このプロセスは、ユーザーのニーズを定義し、実際のユーザーの例から代表的な評価セットを作成し、単純なサブメトリクスに分割された明確で解釈可能なノーススターメトリックに焦点を当てることから始める必要があります。
AIエージェントにとって最も影響力のある改善は、命令の調整、コンテキストの構造化、モデルパラメーターの調整、適切な言語モデルの選択など、構造化されたフィードバックループによるものです。指示の明確化や創造性の調整など、評価結果に基づいて的を絞った変更を行うことで、特定の弱点に対処し、エージェントのパフォーマンスを向上させることができます。
エージェント評価のスケーリングには、自動化と実際のユーザーからの継続的なフィードバックが必要です。自動採点（LLMなど）を活用し、完全性、正確性、根拠性などのプラットフォームレベルの指標を追跡することで、組織は、エージェントがさまざまな企業ユースケースに展開されても、信頼性、正確性、有効性を維持できます。

最初のエージェントを構築しました。いくつかのテストクエリを実行した結果、期待どおりの結果が得られました。では、次は何でしょうか。クールなデモから信頼できるエージェントに移行するための鍵は、評価を作成することです。

誰もがエージェントを評価する方法を学ぶべきです。それはエージェントの質に対する信頼を築くだけでなく、エージェントプラットフォームを最大限に活用する方法を教えてくれるからです。最高のエージェントプラットフォームは、エージェントがファンダメンタルズに優れていることを保証することで、評価を容易にします。指示に従うこと、安全性、パーソナライズ、コンテキスト認識を考えてみてください。これにより、ビルダーは、エージェントがエンドユーザーにインパクトを与えるより高いレベルの品質仕様に評価を集中させることができます。

Glean では、検索から学んだことを基に、長年にわたって大規模な評価を行ってきました。このブログでは、個々のエージェントを評価して改善する方法と、企業全体でエージェントの信頼性を維持するために大規模な評価に取り組む方法の両方について説明します。

評価を設計する方法

評価は、エージェントが現実世界でどのように業績を上げているかを体系的に確認する方法と考えてください。エージェントの作成を始める前に、いくつかの簡単な質問を自問してみてください。

あなたのチームには何が必要ですか？ ユーザーが取り組む最も重要なワークフローを想像してみてください。AIエージェントはどのようにして彼らが最善を尽くすのを助けることができるでしょうか？
素晴らしい仕事とはどのようなものでしょうか？ エージェントのアウトプットを採点する必要がある場合、成功の最も重要な基準は何でしょうか？これはあなたの北極星です。

これらの質問に早い段階で回答しておくと、エージェントをどのように改善できるかについての効果的なガイダンスを提供する、焦点を絞った解釈可能な評価を設計するのに役立ちます。

現実から始める:評価セットの作成

適切な評価は、まず評価セットから始めます。評価セットとは、ユーザー指示の代表的なセットと理想的な応答を組み合わせたものです。評価セットを作成する最善の方法は、ソースであるユーザーに直接アクセスすることです。まず、数人のユーザー対象分野の専門家に依頼して、実際の例を約20個集めた小規模で質の高いセットを作成してもらいます。これは、ビジネスの複雑さを見逃すことが多い公開ベンチマークや架空のクエリだけに頼るよりもはるかに価値があります。

複雑な評価セットをためらわないでください！ユーザーは、複数のソースにわたる複数ステップのタスクを要求することで、エージェントの能力を高める傾向があります。これらはエッジケースではありませんが、多くの場合、行うべき最も価値のある仕事です。最適化に取り掛かる前に、まずわからない指示をテストして、エージェントが何を処理できるかを正確に確認してください。

たとえば、セールス・プロスペクティング・エージェントを構築したときに、ファーストタッチ・メールが優れている理由を営業チームに尋ねました。彼らのフィードバックと理想的な例が、私たちの評価セットの中核となりました。

成功とはどのようなものでしょうか？指標の選択

評価セットを取得したら、エージェントのパフォーマンスを一貫して評価する方法が必要です。これが指標の出番です。まずは、エージェントの質や有用性を測る最も重要な指標であり、全員が足並みを揃えることができる 1 つの基準から始めます。

1つの主要な指標に焦点を当てても、それがどのように達成されたかを無視することにはなりません。ハーモニーで演奏するバンドのような優れたエージェントを考えてみてください。全体的なサウンドは北極星ですが、各インストゥルメントはチューニングされている必要があります。重要な指標を 2 ～ 4 つのシンプルなサブ指標に分けて、一貫して採点し、改善すべき点を明確に把握しましょう。当社のセールスプロスペクティングエージェントにとって、私たちが目指すのは メッセージ品質これを4つのコンポーネントに分解しました。

完全性: メッセージにはすべての重要な要素が含まれていますか?
- 説得力のある フック 注目を集めるために。
- 見込み客の言及 戦略的優先順位。
- ザの挑戦その優先度をブロックしています。
- ザの ポジティブなビジネス成果 Glean 配達します。
- A プルーフポイント (統計情報や顧客事例など)
- クリア コール・トゥ・アクション。
パーソナライゼーション: メッセージは見込み客に合わせたものですか？
- 関連する: 「[カスタマープログラム] を利用してヨーロッパに進出すると、非常に複雑になります。あなたのチームは、タイムゾーンや地域を越えた知識共有をどのように行っていますか？」
- ジェネリック: 「アプリに AI を導入しているようですね。社内チームにとっての次のステップは AI ですか？」
トーン: メッセージは個人的で、洞察力に富み、理解しやすいと感じられますか？
- ちょうどいい: 「エンジニアがコーディングに費やす時間は1日わずか2時間です。Glean は、コード、ドキュメント、チケットをすばやく見つけられるようにすることで、残りの作業を再利用できるようにしています。」
- 間違ったトーン: 「Glean独自の検索テクノロジーは、さまざまな非構造化データソースを照会して、個々のユーザーに関連する企業文書を特定します。」
グラウンデッドネス: クレームは正確な企業データや公開データに基づいていますか？

指標の採点に関しては、単純なバイナリスコア（0または1）が最適です。部分的な採点による混乱を防ぎ、結果を明確かつ一貫性のある状態に保ちます。多くの場合、「5点満点中3点」の判断方法は人によって異なります。また、言語モデルは微妙な尺度に苦労する傾向があるため、LLM審査員による採点の信頼性も高まります。主な例外は、コストやレイテンシーなどの指標で、正確な数値が本当に重要です。

インサイトからアクションへ:エージェントの改善

評価を実行したら、次は最も重要な部分、つまり結果を使用してエージェントをより良くする作業に取り掛かります。このフィードバックループを使用して、優れたエージェントを優れたエージェントに変えることができます。

まず、メトリクスを調べてエージェントのパフォーマンスが低下した部分を確認し、例を確認してパターンを見つけて、的を絞った改善を行います。たとえば、パーソナライゼーションに失敗したセールスプロスペクティングエージェントは、適切なソースを使用していない可能性があるため、検索手順の書き換えが役立つ場合があります。トーンが問題になる場合は、良いトーンと悪いトーンの例を追加してください。経験則として、エージェントの変更は次の順序で行います。

手順を絞り込む: 最も影響の大きい変更は、多くの場合、指示の改良によるものです。より具体的に、何をすべきか（何をすべきでないか）の例を追加し、思考と対応を構造化するための明確なフレームワークを提供してください。
構造コンテキスト: 一般的なコンテキストが広すぎる場合は、特定のデータソースを参照することで、エージェントに表示される情報を制御します。独自のメモリを持つサブエージェントを使用することで、情報過多を回避することもできます。
チューニングパラメーター: エージェントの創造性を制御する温度などの LLM パラメータを調整します。これは出力のトーンを微調整するのに最適な方法です。
合同会社を選択: 一部のモデルでは、特定のタスクドメインで非常に優れていますが、他のタスクドメインでは遅れています。LLMを別のLLMに交換すると、大幅に向上する可能性があります。

正しい解決策を見つけることは、練習すればより簡単になります。一般的なシナリオは次のとおりです。

御社の競合分析担当者は、浅い分析をしていますか？ 最終的な回答をする前に、エージェントに理由の概要を説明するように指示するステップを追加してみてください。
会話型エージェントの反応は良いのに遅すぎませんか？ 応答サイクルごとに会話履歴の関連部分のみを読み取るように、メモリ設定を調整します。
御社のコンテンツ作成エージェントは堅苦しく定型的な感じがしますか？ クリエイティビティの設定を増やし、インスピレーションを得るためのスニペットをいくつか追加します。
セールスメッセージエージェントは重要な顧客ストーリーを省略していますか？ 検索ステップの指示を微調整して、検索する必要のある情報をよりわかりやすくします。

大規模な評価:自動化とフィードバックループの終了

次に、エージェントをユーザーの手に委ねてください。多くの場合、賛成票、反対票、共有などのフィードバックがパフォーマンスの検証に役立つ実際の使用法は、最も価値のあるテストです。実際のユーザークエリをサンプリングして評価に追加することで、評価セットを最新の状態に保ち、進化するユーザーのニーズに合わせることもできます。クエリのサンプリングに加えて、LLMを使用して採点を自動化することは、ユーザーベースの拡大に合わせて評価を拡大するための優れた方法です。

Glean では、あらゆるユースケースや職場のエージェントが有用で信頼できるものであることを確認するために、大規模な自動評価を行っています。プラットフォームの品質は個別の指標に分類されます。これらのほとんどは、賛成票や反対票などのユーザーフィードバックに沿ったLLMと、対象分野の専門家によって採点されます。これらの指標を階層化してエンタープライズレディネスのあらゆる側面を網羅することで、Glean は水平的なユースケース向けの信頼できるエージェントプラットフォームを提供します。