AI EngineeringAgentic AI

本番LLMエージェントの評価方法: ユニットテストの先へ

エージェントの不具合は最終出力ではなくスパンの段階で発生します。本ガイドでは、RAGAS指標、スパン単位の評価、LangSmithの導入、2026年の達成すべきスコアまでを実務目線で整理します。

9 min read

Section 01 · 中核の問題

エージェント評価が LLM 呼び出しの評価とは違う理由

単一の LLM 呼び出しは質問にうまく答えるか答えないかのどちらかです。エージェントの実行は20から100の判断を順番にこなします。ステップ7での失敗が、もっともらしく見えるのに完全に間違った最終出力を生むことがあります。

クイックアンサー

短い答え: エージェント評価は span レベル — 各ツール呼び出し、リトリーバルの判断、推論ステップ — で行わなければなりません。最終出力だけではなく、です。出力評価は、エラーがすでにパイプラインを伝播したあとに障害を捕まえます。

チャットボットの評価基準 — 出力が質問に答えているか、事実として正確か、スタイルガイドに合うか — はエージェントには不十分です。誤ったドキュメントを取得した、正しいツールを誤ったパラメータで呼んだ、ステップ3でユーザー意図を誤分類した、というエージェントは、しばしば自信ありげに見える最終出力を出します。出力を評価するころには、エラーは残りのステップに伝播済みです。

適切な評価インフラがないために、2026年にはエージェンティック AI プロジェクトの半数近くがキャンセルされると予測されています。チームはリリースし、結果が一貫しないことに気づき、原因を診断できず、システムへの信頼を失います。直すべきは、より良いモデルではありません。ステップレベルでのより良い計測です。

Section 02 · 障害カテゴリ

計測すべき3つの障害カテゴリ

リトリーバルの障害

エージェントが誤ったドキュメントを取得する、取得数が少なすぎる、文脈的に無関係なチャンクを取得する。下流の推論は誤った情報の上に立つことになります。RAGAS の context precision と context recall がこれを測ります。context precision は0.80以上、context recall は0.75以上を目標にしてください。

推論の障害

エージェントは正しい文脈を持っているのに誤った結論を引き出す、意図を誤分類する、タスクに不適切なツールを選ぶ。これらは自動計測が難しく、しばしば別のジャッジモデルや、正しい推論経路がわかっているキュレートされた評価データセットが必要になります。

アクションの障害

エージェントが正しいツールを誤ったパラメータで呼ぶ、誤ったツールを呼ぶ、技術的には妥当でも文脈的に不適切なアクションを取る。これを一貫して捕捉する唯一の方法は、各ツール呼び出しのパラメータ・戻り値・その後のエージェントの推論ステップを span レベルでロギングすることです。

Section 03 · RAGAS メトリクス

本番 RAG エージェント向けの5つの RAGAS メトリクス

RAGAS 本番メトリクス — 定義と目標値
メトリクス計測対象目標
Faithfulness回答の主張が取得した文脈で裏付けられている0.90以上
Answer relevancy回答が質問の問いに応えている0.85以上
Context precision取得したチャンクが質問に関連している0.80以上
Context recall回答に必要な情報がすべて取得された0.75以上
Answer correctness回答が ground truth に対して事実として正しい0.80以上

RAGAS は faithfulness、answer relevancy、context precision に対しては ground truth ラベルなしで動作します。これにより、人手で正解検証していない本番のライブトラフィックでも実用的に走らせられます。context recall と answer correctness は ground truth が必要なので、ライブトラフィックではなく開発時のキュレートされた評価セットで使ってください。

Section 04 · span レベル評価

出力ではなくステップで測る

span レベル評価では、エージェント実行の各中間ステップを、入力・出力・レイテンシ・トークンコストとともに名前付き span としてロギングします。これは LangGraph ベースのエージェントに対して LangSmith がデフォルトでキャプチャするものです。

各ツール呼び出しが span です。各リトリーバルが span です。各推論ステップが span です。エージェントの実行が誤った結果を出したら、LangSmith でトレースを開き、エラーが起きた span を見つけ、そのステップ時点の入力・出力・文脈をそのまま読みます。推測しません — 見ます。

これが、デバッグ可能な本番システムと脆弱なシステムを分ける性質です。span レベルの observability がなければ、誤ったエージェント出力は謎のままです。あれば、誤った出力は特定・再現・修正できる単一の span になります。

span レベル評価のフロー: 各エージェントステップ(リトリーバル、推論、ツール呼び出し)が名前付き span としてロギングされる。RAGAS とジャッジモデルが span を非同期で評価し、ダッシュボードがしきい値超過を可視化する。
span レベル評価は障害が発生するステップでそれを捕まえる。出力評価は最終結果しか見えない — 障害がすでに伝播してしまったあとです。

Section 05 · 評価スタック

LangSmith + RAGAS + DeepEval: 2026年の本番スタック

observability に LangSmith

LangGraph ベースのエージェントについて、すべての span を自動でキャプチャします。トレースを保存します。RAGAS 連携をサポートします。ライブトラフィックのサンプルや過去のトレースに対して evaluator を実行できます。本番エージェントの最低限のセットアップです。

リトリーバル品質に RAGAS

ライブトラフィック上で faithfulness、answer relevancy、context precision のリファレンス不要メトリクス。本番クエリの5〜10%サンプルに対して非同期で実行します。しきい値割れに対してアラートを出します。

ふるまいテストに DeepEval

キュレートされたデータセットに対してエージェントのふるまいを評価するためのテストスイートフレームワーク。リグレッションが本番に届く前に検出するため、デプロイごとに CI/CD で実行します。ハルシネーション検出、プロンプトインジェクション耐性、カスタムなふるまいメトリクスをカバーします。

Section 06 · 本番チェックリスト

リリース前に最低限揃える評価セットアップ

LLM エージェント向け本番評価チェックリスト
要件ツール頻度
全エージェント実行に対する span レベルのトレーシングLangSmith常時オン
Faithfulness 0.90以上RAGAS via LangSmith非同期、10%サンプル
Answer relevancy 0.85以上RAGAS via LangSmith非同期、10%サンプル
ふるまいリグレッションテストDeepEval を CI/CD でデプロイごと
ツール呼び出しのスキーマ検証パイプライン内のカスタム validatorツール呼び出しごと
低信頼度実行への人手レビューキューLangSmith データセット毎週

FAQ

よくある質問

本番の AI エージェントはどう評価しますか?

各中間ステップ・ツール呼び出し・リトリーバル判断をキャプチャするために span レベルのトレーシングを走らせます。faithfulness と answer relevancy をモニタリングするため、ライブトラフィックのサンプルに対して RAGAS メトリクスを非同期で使います。デプロイごとに DeepEval でふるまいリグレッションテストを実行します。レスポンスパイプラインを評価でブロックしないでください — 非同期で走らせます。

LLM エージェントにおける span レベル評価とは何ですか?

span レベル評価とは、エージェント実行の各中間ステップ — 各ツール呼び出し、リトリーバルステップ、推論ステップ — を、入力・出力・文脈とともに名前付き span としてロギングすることです。span レベルで評価すると、最終出力からリバースエンジニアリングするのではなく、どのステップがエラーを生んだかを正確に特定できます。

本番 RAG エージェントにはどの RAGAS メトリクスを使うべきですか?

まずは faithfulness と answer relevancy から。どちらもリファレンス不要で、ground truth ラベルなしでライブトラフィックに対して走らせられます。faithfulness は0.90以上、answer relevancy は0.85以上を目標にします。リトリーバル品質を専用に測るため、キュレートされた評価データセットで context precision と context recall を追加します。

LangGraph エージェントには LangSmith がベストの評価ツールですか?

LangSmith は LangGraph ベースのエージェントにとって最も統合された選択肢です — 計装コードなしで span を自動キャプチャし、RAGAS 連携をネイティブにサポートし、過去トレースに対して評価を回すデータセットインタフェースを提供します。他のフレームワークを使うチームには、Arize Phoenix と Langfuse が同等の能力を持つ強い代替です。

よくある質問

本番のAIエージェントはどう評価しますか?
スパンレベルのトレーシングを入れて、すべての中間ステップ、ツール呼び出し、検索判断を記録します。本番トラフィックのサンプルに対して RAGAS 指標を非同期に走らせ、忠実性と応答関連性を継続監視します。デプロイのたびに DeepEval で行動の回帰テストを回します。
LLMエージェントのスパンレベル評価とは?
スパンレベル評価では、エージェント実行の各中間段階 — ツール呼び出し、検索ステップ、推論ステップ — を、入力・出力・コンテキスト付きの名前付きスパンとして記録します。スパン単位で評価することで、最終出力から逆算するのではなく、どのステップが誤りを生んだかを正確に特定できます。
本番RAGエージェントに使うRAGAS指標は?
まず忠実性と応答関連性から始めます。どちらもリファレンスフリーで、正解ラベルがなくても本番トラフィックで動かせます。忠実性0.90以上、応答関連性0.85以上を目標にしてください。検索品質を直接評価したい場合は、キュレートした評価データセットでコンテキスト精度・コンテキスト再現率を追加します。
LangGraphエージェントの評価ツールとして LangSmith は最適ですか?
LangGraph ベースのエージェントには LangSmith が最も統合度が高く、計装コードなしでスパンを自動取得し、RAGAS統合をネイティブにサポートし、過去トレースに対する評価実行のためのデータセットインターフェースも提供します。他フレームワーク利用のチームには Arize Phoenix や Langfuse が有力な選択肢です。