RAGAI Engineering

本番運用RAGガイド: なぜリトリーバルは失敗するのか、どう直すのか

本番RAGの失敗の多くはリトリーバル段階で起きます。本ガイドでは、チャンク設計、ハイブリッド検索、リランキング、RAGAS指標を中心に、2026年の本番運用RAGパイプラインの作り方を解説します。

11 min read

Section 01 · 課題

本番でほとんどのRAGパイプラインが失敗する理由

失敗の原因はほぼ生成ではない。RAGシステムが誤った、ハルシネートした、または不完全な答えを返すとき、根本原因はたいてい検索だ。間違ったチャンクを取った、もしくは何も取れなかった、のどちらかである。

クイックアンサー

短い答え: 本番RAGパイプラインは、リトリーバが無関係または不完全なコンテキストを返したときに失敗する。すると生成器には正しい根拠がなく、ハルシネートするか、はぐらかすかしかない。まず検索を直すこと。

2026年において、素朴なRAG — 固定長チャンキング + 単一ベクトルの類似度検索 — は約40パーセントのケースで正しいコンテキストを取れない。ドキュメント集合が大きくなり、クエリが具体的になるほどこの数値は上がる。生成器は仕事をしている。リトリーバが必要な材料を渡していないだけだ。

根本原因は4つ。それぞれに対応する修正があり、修正は投資対効果順に並んでいる。上から順に取り組もう。

RAG検索失敗の4つの根本原因: チャンク境界の誤り、キーワードの再現率不足、リランキングの不在、信頼度スコアなしの検索。
4つの失敗モードは検索パイプラインの異なる段階で現れる。多くのチームは図示の順序で遭遇する。

Section 02 · チャンキング

文字数で切るのをやめる

チャンキング戦略は、埋め込みモデルの選択以上に検索精度を制約する。2025年の臨床研究では、同一データセット上でアダプティブチャンキングが87パーセントの検索精度を達成し、固定長ベースラインは13パーセントだった。

固定長チャンキング — 内容を見ずに512や1,024文字ごとに区切るやり方 — は文を途中で切り、質問を回答から引き離し、その一節を意味あるものにしているコンテキストを落とす。埋め込みモデルは不完全な観念をエンコードする。類似度スコアは本来より低くなる。リトリーバは外す。

セマンティックチャンキング

埋め込み類似度を使ってトピック境界を検出する。隣接する文間のコサイン距離が閾値を越えたとき、チャンカーは新しいチャンクを開始する。各チャンクには一貫した1つの観念が入る。2026年の多くのRAGシステムにおける実用上のデフォルトはこれだ。

命題チャンキング

ドキュメントを原子的な事実主張に分解し、それぞれが検証可能な単一の言明を表すようにする。法務リサーチや医療QAなど、誤帰属の事実を1件でも検索することが許されない、知識集約型アプリケーションに最も精度の高いアプローチだ。

階層的チャンキング

サマリーチャンクと、その構成要素である子チャンクの両方を保持する。クエリ時にシステムはコンテキストとしてサマリーを、精度のために子チャンクを取得する。段落単位の内容を解釈するのにセクション単位のコンテキストが効く長文ドキュメントに向く。

どの戦略を選ぶにせよ、デプロイ前にサンプルクエリ集合での再現率指標で検証すること。チャンキングの品質は、計測するまで見えない。

Section 04 · 評価

RAGAS: 本番で意味のある5つの数字

RAGAS は人間アノテーション不要で、本番トラフィック上で実行できるリファレンスフリーの評価指標を提供する。これら5指標は検索から回答までのパイプライン全体をカバーする。

RAGAS 本番指標 — 信頼できるRAGシステムの目標値
指標何を測るか本番目標
Faithfulness回答は取得済みコンテキストに支持される主張のみで構成されているか?0.90超
Answer relevancy回答は質問が問うたことに答えているか?0.85超
Context precision取得されたチャンクは実際に質問に関連しているか?0.80超
Context recall回答に必要な情報を検索ですべて引き出せたか?0.75超
Answer correctness回答はグラウンドトゥルースに照らして事実として正しいか?0.80超

本番安全性で最重要なのは faithfulness だ。faithfulness が0.85未満ということは、モデルが取得した内容に裏付けられていない主張を恒常的に生成しているということ — それは定義上のハルシネーションだ。デプロイ前に検索を直すか top-k を増やすこと。

RAGAS の評価はユーザリクエストとインラインで走らせず、本番トラフィックのサンプルに対して非同期で走らせる。応答パイプラインを評価でブロックすると、レイテンシが増えるだけでユーザには何の恩恵もない。集めて、夜間に評価し、閾値の逸脱でアラートを上げる。

Section 05 · アーキテクチャ

アダプティブRAG: 2026年のアーキテクチャ標準

アダプティブRAGは検索の前に各受信クエリを分類し、適切な戦略にルーティングする。本番システムをプロトタイプから区別するのはこのアーキテクチャだ。

素朴なRAGはどんなクエリにも同じことをする: 取得して生成。アダプティブRAGはその前段に分類ステップを置く。単純な事実確認のクエリは高速ベクトル検索に流す。複雑な多段クエリは反復検索や階層検索に流す。ナレッジベース外のクエリは検索を飛ばし、モデルのパラメトリック知識へ直接ルーティングする。

ルーティングロジックは多くの場合、小さなLLM呼び出しか分類器だ。コストは低く — 数ミリ秒と数トークン — 精度の向上は有意だ。検索の信頼度が低いとき検索をスキップするシステムは、常に検索して低品質コンテキストを渡すシステムよりハルシネーションがはるかに少ない。

アダプティブRAGフロー: クエリ分類器がクエリ種別と検索信頼度に基づき、高速検索、反復検索、または直接生成にルーティングする。
アダプティブRAGは各クエリを適切な検索戦略にルーティングする。生成前の信頼度チェックこそが、低品質コンテキストをモデルに到達させない要となる機能だ。

2026年に新しくRAGシステムを構築するなら、最初からアダプティブルーティングを前提に設計すること。後から追加するには検索パイプラインを構成し直す必要があり、ラップするだけでは済まない。

RAGをメモリやナレッジ層として使う本番のエージェンティックAIシステムについては、私の エージェンティックAIコンサルティングサービス を参照してほしい。検索がより広いエージェンティックアーキテクチャの中でどう位置づくかをカバーしている。

Section 06 · コスト

複雑度別: クエリあたりのRAGコスト

アップグレードパスには実コストがかかる。素朴からアダプティブへ進む際の予算感は以下のとおり。

RAG複雑度別のクエリあたりコスト見積もり (2026年)
アーキテクチャクエリあたりの典型的コスト品質の上限
素朴なベクトル単独0.0005〜0.002ドル中 — 完全一致や複数概念のクエリで失敗する
ハイブリッド検索 + リランカー0.002〜0.008ドル良 — 多くの本番クエリ種別をさばける
ルーティング付きアダプティブRAG0.005〜0.015ドル高 — 検索ベースのシステムとしてはほぼ上限近く
エージェンティックRAG (反復)0.02〜0.10ドル非常に高 — 研究グレードやアナリスト用ワークフロー向け

FAQ

よくある質問

チャンクは正しく見えるのに、なぜRAGが失敗するのですか?

チャンクの内容と検索のランキングは別問題です。チャンクが正しい情報を含んでいても、表面的に似ているだけの無関係なチャンクの方が埋め込み類似度で上回り、トップkのカットオフ未満に落ちることがあります。修正は、埋め込みの近さだけではなく実際の質問とチャンクの関係に基づいて再スコアするリランカーです。

セマンティックチャンキングと固定長チャンキングの違いは何ですか?

固定長チャンキングは内容を見ずにN文字ごとに区切り、文や観念を頻繁に半分に切ります。セマンティックチャンキングは隣接文間の埋め込み類似度でトピック境界を検出し、一貫した観念を単一チャンクにまとめて保ちます。検索精度のベンチマークでは、セマンティックチャンキングが固定長チャンキングを安定して上回ります。

リランカーを追加するとRAGの品質はどれほど向上しますか?

クロスエンコーダのリランカーは、正しいチャンクを8位や12位からトップ3に確実に押し上げます。トップ3こそ言語モデルが見るすべてです。既存のハイブリッド検索パイプラインにリランキングを足したチームは、他のコンポーネントを変えなくても faithfulness のスコアが20〜40パーセント改善するのが一般的です。

本番投入前に目指すべきRAGASのスコアは?

Faithfulness は0.90超、answer relevancy は0.85超。本番クエリの代表サンプルでこのいずれかを下回るなら、リリース前に原因を診断してください。本番で faithfulness が0.85未満ということは、おおよそ7件に1件の応答にハルシネーションが含まれているということです。

アダプティブRAGと標準RAGの使い分けは?

クエリ集合が異質なときはアダプティブRAGを使います — 高速検索が要るクエリ、反復検索が要るクエリ、ナレッジベース外のクエリが混在するケースです。クエリの性質が一様でナレッジベースが明確に区切られているなら、リランキング付きの標準ハイブリッドRAGで十分です。

よくある質問

チャンク内容が正しいのにRAGが失敗するのはなぜですか?
チャンクの中身と検索ランキングは別の問題です。正しい情報を含むチャンクでも、表面的に似ているだけの無関係なチャンクより埋め込みの類似度が低ければ、top-kから外れてしまいます。解決策は、埋め込み距離だけでなく質問とチャンクの実際の関係を再評価するリランカーを入れることです。
セマンティックチャンキングと固定長チャンキングの違いは?
固定長チャンキングは内容に関係なくN文字ごとに分割するため、文や論点を途中で切ってしまいがちです。セマンティックチャンキングは隣接文の埋め込み類似度を使ってトピックの境界を検出し、ひとつのチャンクに整合した内容を保ちます。リトリーバル精度のベンチマークでは、ほぼ一貫してセマンティックチャンキングが優位です。
リランカーを入れるとRAGの品質はどれくらい改善しますか?
クロスエンコーダ型のリランカーを導入すると、本来必要なチャンクが順位8や12からトップ3に上がるケースが安定して再現します。既存のハイブリッド検索パイプラインにリランキングを追加するチームは、他のコンポーネントを変えずに、忠実性スコアで20〜40パーセントの改善を得ています。
本番に出す前のRAGAS指標の目安は?
忠実性が0.90以上、応答関連性が0.85以上が目安です。代表的な本番クエリのサンプルでこれらを下回る場合、リリース前に原因分析が必要です。本番で忠実性が0.85を下回ると、おおよそ7回に1回は幻覚を含む応答が出ていることになります。
適応的RAGと標準RAGはどう使い分けますか?
クエリ集合が異質な場合、すなわち高速リトリーバルで足りるもの、反復探索が必要なもの、知識ベース外のものが混在する場合に適応的RAGを使います。クエリの性質が均質で知識ベースが明確に区切られているなら、リランキング付きの標準ハイブリッドRAGで十分です。