ローカルLLM × MCP連携で実現する、原文エビデンス付きドキュメントQAシステム

ローカルLLM × MCP連携で実現する、原文エビデンス付き施工体制クラウドドキュメントQA 作ってみた！ 2025.09.01 大賀愛一郎

1 1. これは何？

2 実現できることローカルドキュメントを対象にした、高速・高精度・セキュアなQA • ローカルのMarkdown群を対象としたQA • ハルシネーションを限りなく0にしたエビデンス付き回答
• 高速・軽量なローカルLLM (RAG) を使用 • 外部への情報送信がないセキュアな環境 • 専門知識がなくても簡単に導入可能

「メールがたまに届かない現象について利用規約に謳うかどうか」って議事録に書かれてたっけ？ 3 出典を明記したQA応答

4 なぜエンベディングモデルにRuri v3を選定したかノートPC で動く日本語ドキュメント検索用モデルで現時点で最高の選択肢検索精度が高い日本語特化モデル。JMTEBベンチマークで同クラス最高の Retrieval 82.48を記録
軽量で高速ノートPCのCPUでも動作可能な 30m（3000万パラメータ）モデル信頼性もライセンスも大丈夫開発元が名古屋大学で信頼性が高く、商用利用可能なApache 2.0ライセンス

5 よくある質問 (FAQ) Q. これは新しいサーバーの開発・設置が必要ですか？ A. いいえ。既存のツールを組み合わせ、完全にローカルで完結します。 Q. 情報が社外に漏えいしませんか？
A. しません。通信はローカルPC内で完結し、外部へのデータ送信はありません。 Q. PC内の全ファイルを読まれますか？ A. いいえ。あらかじめ許可した特定のフォルダのみを読み取り対象とします。

6 2. システム構成

7 登場人物の役割紹介 3人の専門家が連携して、賢い検索と回答を実現している。意味の翻訳 (Ruri) 文章を「意味ベクトル」と呼ばれる数値の座標に変換。意味が近い文章ほど、近い座標に配置される。
高速な意味の索引 (Chroma) 翻訳された意味ベクトルを保管して、似た意味のベクトルを高速で探し出すデータベース。 cosineなどの距離関数を使う。優秀な編集者 (Claude) 索引で見つかった原文だけを材料に、要約や説明文を生成する専門家。書いていないことは話さないように徹底している。

8 通信の全体像ローカルPC内で完結。外部のサーバーに生のドキュメント内容を送らない。

9 処理のシーケンス Chromaで候補を高速検索 → ripgrepで原文裏取り確認 → Claudeで回答生成

10 3. 処理の具体的な流れ（RAG）

11 Step 1: インデックス化（カタログ作り）事前にデータベースを作成しておく 1 ドキュメントを扱いやすい塊（チャンク）に分割 2 各チャンクを「検索文書:」という接頭辞を付けてRuri v3でベクトル化
3 ベクトルと出典情報（パス、行番号）をセットでChromaに保存

12 Step 2: 検索（意味が近い原文の発見）ユーザーから質問が来るたびに実行される 1 質問文に「検索クエリ:」を付けて Ruri v3 でベクトル化
2 Chroma で、質問ベクトルに意味が近い上位K件の文書ベクトルを検索 3 検索結果から、元の文書の該当箇所（原文）を取り出す

13 Step 3: 生成（原文に基づく回答作成）ハルシネーションを防ぐための最終工程 1 取り出した原文のみを情報源としてClaudeに渡す 2
Claudeが原文を元に、質問への回答（要約や説明）を生成 3 回答に引用と出典を必ず付けてユーザーに提示する

14 4. 導入手順

15 導入ステップの全体像 1 ドキュメントをローカルにクローン 2 必要ツールのインストール 3 ドキュメントのインデックス化 4 (任意)
OS起動時にプリロードする設定 5 Claude Desktop に MCPサーバーを登録

16 ドキュメントをローカルにクローン詳しくは過去記事を参考に

17 必要ツールのインストール Node.js LTS npx コマンドの実行に必要 ripgrep 高速なローカル全文検索エンジン uv
高速なPythonパッケージインストーラー Python 3.11 スクリプト実行の本体 PyTorch 機械学習ライブラリ。エンベディングモデルの実行基盤 Ruri v3-30m Model 日本語特化の高性能エンベディングモデル本体 Python Packages chromadb, sentencepiece等の関連ライブラリ Claude Desktop QAを実行するためのフロントエンドアプリ

18 ドキュメントのインデックス化 ingest.py を実行し、ローカルドキュメントをChromaDBに登録 • 初回実行時は（ノートPCのCPUで処理するため）約30分ほどかかる • 一度作成した `C:/chroma-data`
フォルダはチーム内で共有可能 • この事前処理により、後の検索が高速になる

19 5. 利用方法とメンテナンス

20 Claude Desktopでの利用方法初回利用時モデルのウォームアップのため、最初の応答だけ遅い（数分）。2回目以降は高速！ 2回目以降プロジェクトで設定した指示に基づき、自然言語で質問するだけでOK ドキュメント更新時 refresh_ruri.py を実行し、差分のみを高速にインデックスへ反映
同じ手順でVSCodeでも使えます。「ドキュメントに従ってコードを書いて」が可能！

21 ありがとうございました

ローカルLLM × MCP連携で実現する、原文エビデンス付きドキュメントQAシステム

ローカルLLM × MCP連携で実現する、原文エビデンス付きドキュメントQAシステム

oga_aiichiro

More Decks by oga_aiichiro

Other Decks in Programming

Featured

Transcript

ローカルLLM × MCP連携で実現する、原文エビデンス付き施工体制クラウドドキュメントQA 作ってみた！ 2025.09.01 大賀愛一郎

1 1. これは何？

2 実現できることローカルドキュメントを対象にした、高速・高精度・セキュアなQA • ローカルのMarkdown群を対象としたQA • ハルシネーションを限りなく0にしたエビデンス付き回答

「メールがたまに届かない現象について利用規約に謳うかどうか」って議事録に書かれてたっけ？ 3 出典を明記したQA応答

4 なぜエンベディングモデルにRuri v3を選定したかノートPC で動く日本語ドキュメント検索用モデルで現時点で最高の選択肢検索精度が高い日本語特化モデル。JMTEBベンチマークで同クラス最高の Retrieval 82.48を記録

5 よくある質問 (FAQ) Q. これは新しいサーバーの開発・設置が必要ですか？ A. いいえ。既存のツールを組み合わせ、完全にローカルで完結します。 Q. 情報が社外に漏えいしませんか？

6 2. システム構成

7 登場人物の役割紹介 3人の専門家が連携して、賢い検索と回答を実現している。意味の翻訳 (Ruri) 文章を「意味ベクトル」と呼ばれる数値の座標に変換。意味が近い文章ほど、近い座標に配置される。

8 通信の全体像ローカルPC内で完結。外部のサーバーに生のドキュメント内容を送らない。

9 処理のシーケンス Chromaで候補を高速検索 → ripgrepで原文裏取り確認 → Claudeで回答生成

10 3. 処理の具体的な流れ（RAG）

11 Step 1: インデックス化（カタログ作り）事前にデータベースを作成しておく 1 ドキュメントを扱いやすい塊（チャンク）に分割 2 各チャンクを「検索文書:」という接頭辞を付けてRuri v3でベクトル化

12 Step 2: 検索（意味が近い原文の発見）ユーザーから質問が来るたびに実行される 1 質問文に「検索クエリ:」を付けて Ruri v3 でベクトル化

13 Step 3: 生成（原文に基づく回答作成）ハルシネーションを防ぐための最終工程 1 取り出した原文のみを情報源としてClaudeに渡す 2

14 4. 導入手順

15 導入ステップの全体像 1 ドキュメントをローカルにクローン 2 必要ツールのインストール 3 ドキュメントのインデックス化 4 (任意)

16 ドキュメントをローカルにクローン詳しくは過去記事を参考に

17 必要ツールのインストール Node.js LTS npx コマンドの実行に必要 ripgrep 高速なローカル全文検索エンジン uv

18 ドキュメントのインデックス化 ingest.py を実行し、ローカルドキュメントをChromaDBに登録 • 初回実行時は（ノートPCのCPUで処理するため）約30分ほどかかる • 一度作成した `C:/chroma-data`

19 5. 利用方法とメンテナンス

21 ありがとうございました