本番運用RAGガイド: なぜリトリーバルは失敗するのか、どう直すのか
本番RAGの失敗の多くはリトリーバル段階で起きます。本ガイドでは、チャンク設計、ハイブリッド検索、リランキング、RAGAS指標を中心に、2026年の本番運用RAGパイプラインの作り方を解説します。
Section 01 · 課題
本番でほとんどのRAGパイプラインが失敗する理由
失敗の原因はほぼ生成ではない。RAGシステムが誤った、ハルシネートした、または不完全な答えを返すとき、根本原因はたいてい検索だ。間違ったチャンクを取った、もしくは何も取れなかった、のどちらかである。
クイックアンサー
短い答え: 本番RAGパイプラインは、リトリーバが無関係または不完全なコンテキストを返したときに失敗する。すると生成器には正しい根拠がなく、ハルシネートするか、はぐらかすかしかない。まず検索を直すこと。
2026年において、素朴なRAG — 固定長チャンキング + 単一ベクトルの類似度検索 — は約40パーセントのケースで正しいコンテキストを取れない。ドキュメント集合が大きくなり、クエリが具体的になるほどこの数値は上がる。生成器は仕事をしている。リトリーバが必要な材料を渡していないだけだ。
根本原因は4つ。それぞれに対応する修正があり、修正は投資対効果順に並んでいる。上から順に取り組もう。
Section 02 · チャンキング
文字数で切るのをやめる
チャンキング戦略は、埋め込みモデルの選択以上に検索精度を制約する。2025年の臨床研究では、同一データセット上でアダプティブチャンキングが87パーセントの検索精度を達成し、固定長ベースラインは13パーセントだった。
固定長チャンキング — 内容を見ずに512や1,024文字ごとに区切るやり方 — は文を途中で切り、質問を回答から引き離し、その一節を意味あるものにしているコンテキストを落とす。埋め込みモデルは不完全な観念をエンコードする。類似度スコアは本来より低くなる。リトリーバは外す。
セマンティックチャンキング
埋め込み類似度を使ってトピック境界を検出する。隣接する文間のコサイン距離が閾値を越えたとき、チャンカーは新しいチャンクを開始する。各チャンクには一貫した1つの観念が入る。2026年の多くのRAGシステムにおける実用上のデフォルトはこれだ。
命題チャンキング
ドキュメントを原子的な事実主張に分解し、それぞれが検証可能な単一の言明を表すようにする。法務リサーチや医療QAなど、誤帰属の事実を1件でも検索することが許されない、知識集約型アプリケーションに最も精度の高いアプローチだ。
階層的チャンキング
サマリーチャンクと、その構成要素である子チャンクの両方を保持する。クエリ時にシステムはコンテキストとしてサマリーを、精度のために子チャンクを取得する。段落単位の内容を解釈するのにセクション単位のコンテキストが効く長文ドキュメントに向く。
どの戦略を選ぶにせよ、デプロイ前にサンプルクエリ集合での再現率指標で検証すること。チャンキングの品質は、計測するまで見えない。
Section 03 · 検索
ハイブリッド検索とリランキング: 最もROIの高い2つのアップグレード
BM25とベクトル検索を並列で走らせ、その結果を Reciprocal Rank Fusion で融合する。これが素朴なRAGパイプラインに対して得られる、最大の単一品質改善だ。
ベクトル検索は意味的に類似する一節を取り出す — 言い換えや概念マッチングに強いが、完全一致のキーワードを外す。BM25は完全一致や希少語に強いが、意味関係を取り逃す。多様なクエリ種別をさばく本番RAGには、いずれか単独では不十分だ。
ハイブリッド検索は両方を並列で走らせ、ランクリストを Reciprocal Rank Fusion で融合する。ハイブリッド検索とコンテキスチュアル手法を組み合わせると、エラー率は素朴なベクトル単独検索に比べて約69パーセント低下する。実装は本番ベクトルストアならどれでも素直だ。Weaviate はハイブリッド検索を標準で出荷、Pinecone は2025年に追加、pgvector は BM25 インデックスと手動で組み合わせる必要がある。
| アップグレード | 向上 | 実装コスト | 優先度 |
|---|---|---|---|
| セマンティックチャンキング | 高 | 低 | 最初に実施 |
| ハイブリッド検索 (BM25 + ベクトル) | 高 | 低〜中 | 次に実施 |
| クロスエンコーダ・リランカー | 高 | 中 | 三番目に実施 |
| コンテキスチュアル検索 | 中 | 中 | 四番目に実施 |
| アダプティブRAGルーティング | 中〜高 | 高 | 規模が出てきたら実施 |
リランキングのステップは独立で強調する価値がある。クロスエンコーダモデルは取得済みの各チャンクを元クエリに対してフルアテンションで再スコアする — クエリとチャンクを一緒に見る点で、両者を別々にスコアするバイエンコーダと異なる。典型的な本番パイプラインは、ハイブリッド検索でトップ50を取得し、クロスエンコーダでトップ5にリランキングし、その5チャンクを言語モデルに渡す。コストは小さく、精度の改善は実質的だ。
Section 04 · 評価
RAGAS: 本番で意味のある5つの数字
RAGAS は人間アノテーション不要で、本番トラフィック上で実行できるリファレンスフリーの評価指標を提供する。これら5指標は検索から回答までのパイプライン全体をカバーする。
| 指標 | 何を測るか | 本番目標 |
|---|---|---|
| Faithfulness | 回答は取得済みコンテキストに支持される主張のみで構成されているか? | 0.90超 |
| Answer relevancy | 回答は質問が問うたことに答えているか? | 0.85超 |
| Context precision | 取得されたチャンクは実際に質問に関連しているか? | 0.80超 |
| Context recall | 回答に必要な情報を検索ですべて引き出せたか? | 0.75超 |
| Answer correctness | 回答はグラウンドトゥルースに照らして事実として正しいか? | 0.80超 |
本番安全性で最重要なのは faithfulness だ。faithfulness が0.85未満ということは、モデルが取得した内容に裏付けられていない主張を恒常的に生成しているということ — それは定義上のハルシネーションだ。デプロイ前に検索を直すか top-k を増やすこと。
RAGAS の評価はユーザリクエストとインラインで走らせず、本番トラフィックのサンプルに対して非同期で走らせる。応答パイプラインを評価でブロックすると、レイテンシが増えるだけでユーザには何の恩恵もない。集めて、夜間に評価し、閾値の逸脱でアラートを上げる。
Section 05 · アーキテクチャ
アダプティブRAG: 2026年のアーキテクチャ標準
アダプティブRAGは検索の前に各受信クエリを分類し、適切な戦略にルーティングする。本番システムをプロトタイプから区別するのはこのアーキテクチャだ。
素朴なRAGはどんなクエリにも同じことをする: 取得して生成。アダプティブRAGはその前段に分類ステップを置く。単純な事実確認のクエリは高速ベクトル検索に流す。複雑な多段クエリは反復検索や階層検索に流す。ナレッジベース外のクエリは検索を飛ばし、モデルのパラメトリック知識へ直接ルーティングする。
ルーティングロジックは多くの場合、小さなLLM呼び出しか分類器だ。コストは低く — 数ミリ秒と数トークン — 精度の向上は有意だ。検索の信頼度が低いとき検索をスキップするシステムは、常に検索して低品質コンテキストを渡すシステムよりハルシネーションがはるかに少ない。
2026年に新しくRAGシステムを構築するなら、最初からアダプティブルーティングを前提に設計すること。後から追加するには検索パイプラインを構成し直す必要があり、ラップするだけでは済まない。
RAGをメモリやナレッジ層として使う本番のエージェンティックAIシステムについては、私の エージェンティックAIコンサルティングサービス を参照してほしい。検索がより広いエージェンティックアーキテクチャの中でどう位置づくかをカバーしている。
Section 06 · コスト
複雑度別: クエリあたりのRAGコスト
アップグレードパスには実コストがかかる。素朴からアダプティブへ進む際の予算感は以下のとおり。
| アーキテクチャ | クエリあたりの典型的コスト | 品質の上限 |
|---|---|---|
| 素朴なベクトル単独 | 0.0005〜0.002ドル | 中 — 完全一致や複数概念のクエリで失敗する |
| ハイブリッド検索 + リランカー | 0.002〜0.008ドル | 良 — 多くの本番クエリ種別をさばける |
| ルーティング付きアダプティブRAG | 0.005〜0.015ドル | 高 — 検索ベースのシステムとしてはほぼ上限近く |
| エージェンティックRAG (反復) | 0.02〜0.10ドル | 非常に高 — 研究グレードやアナリスト用ワークフロー向け |
FAQ
よくある質問
チャンクは正しく見えるのに、なぜRAGが失敗するのですか?
チャンクの内容と検索のランキングは別問題です。チャンクが正しい情報を含んでいても、表面的に似ているだけの無関係なチャンクの方が埋め込み類似度で上回り、トップkのカットオフ未満に落ちることがあります。修正は、埋め込みの近さだけではなく実際の質問とチャンクの関係に基づいて再スコアするリランカーです。
セマンティックチャンキングと固定長チャンキングの違いは何ですか?
固定長チャンキングは内容を見ずにN文字ごとに区切り、文や観念を頻繁に半分に切ります。セマンティックチャンキングは隣接文間の埋め込み類似度でトピック境界を検出し、一貫した観念を単一チャンクにまとめて保ちます。検索精度のベンチマークでは、セマンティックチャンキングが固定長チャンキングを安定して上回ります。
リランカーを追加するとRAGの品質はどれほど向上しますか?
クロスエンコーダのリランカーは、正しいチャンクを8位や12位からトップ3に確実に押し上げます。トップ3こそ言語モデルが見るすべてです。既存のハイブリッド検索パイプラインにリランキングを足したチームは、他のコンポーネントを変えなくても faithfulness のスコアが20〜40パーセント改善するのが一般的です。
本番投入前に目指すべきRAGASのスコアは?
Faithfulness は0.90超、answer relevancy は0.85超。本番クエリの代表サンプルでこのいずれかを下回るなら、リリース前に原因を診断してください。本番で faithfulness が0.85未満ということは、おおよそ7件に1件の応答にハルシネーションが含まれているということです。
アダプティブRAGと標準RAGの使い分けは?
クエリ集合が異質なときはアダプティブRAGを使います — 高速検索が要るクエリ、反復検索が要るクエリ、ナレッジベース外のクエリが混在するケースです。クエリの性質が一様でナレッジベースが明確に区切られているなら、リランキング付きの標準ハイブリッドRAGで十分です。
よくある質問
- チャンク内容が正しいのにRAGが失敗するのはなぜですか?
- チャンクの中身と検索ランキングは別の問題です。正しい情報を含むチャンクでも、表面的に似ているだけの無関係なチャンクより埋め込みの類似度が低ければ、top-kから外れてしまいます。解決策は、埋め込み距離だけでなく質問とチャンクの実際の関係を再評価するリランカーを入れることです。
- セマンティックチャンキングと固定長チャンキングの違いは?
- 固定長チャンキングは内容に関係なくN文字ごとに分割するため、文や論点を途中で切ってしまいがちです。セマンティックチャンキングは隣接文の埋め込み類似度を使ってトピックの境界を検出し、ひとつのチャンクに整合した内容を保ちます。リトリーバル精度のベンチマークでは、ほぼ一貫してセマンティックチャンキングが優位です。
- リランカーを入れるとRAGの品質はどれくらい改善しますか?
- クロスエンコーダ型のリランカーを導入すると、本来必要なチャンクが順位8や12からトップ3に上がるケースが安定して再現します。既存のハイブリッド検索パイプラインにリランキングを追加するチームは、他のコンポーネントを変えずに、忠実性スコアで20〜40パーセントの改善を得ています。
- 本番に出す前のRAGAS指標の目安は?
- 忠実性が0.90以上、応答関連性が0.85以上が目安です。代表的な本番クエリのサンプルでこれらを下回る場合、リリース前に原因分析が必要です。本番で忠実性が0.85を下回ると、おおよそ7回に1回は幻覚を含む応答が出ていることになります。
- 適応的RAGと標準RAGはどう使い分けますか?
- クエリ集合が異質な場合、すなわち高速リトリーバルで足りるもの、反復探索が必要なもの、知識ベース外のものが混在する場合に適応的RAGを使います。クエリの性質が均質で知識ベースが明確に区切られているなら、リランキング付きの標準ハイブリッドRAGで十分です。