社内規程RAGの精度を73.3% → 100%に改善した話

社内規程RAGの精度を73.3% → 100%に改善した話複雑な手法より、まずは「チャンクサイズ」を見直すべき理由 Yuchen Lin(リンユウチェン)

自己紹介 & プロジェクト概要自己紹介 • 名前：リンユウチェン • 実績：AIハッカソンのファイナリスト10組 •
最近のマイブーム：OpenClaw（旧ClawdBot）プロジェクト概要 • RAGを探索するデモプロジェクト • 目的：チャンキング戦略を検証する • 開発：Next.js + FastAPI + Gemini 2.0 Flash • 課題: 社内規程（通勤手当、休暇など）を対象にした RAG。最初は「正解率 73.3%」という微妙な結果に。

RAGを「Google検索」で例えると？ステップ１：検索ステップ 2：読解クエリを送信すると、システムは「上位K件」の結果を見つける →（Google検索結果1ページ目のようなもの）そのK件の結果をLLMに渡します →人間がスニペットを読む
ように検索結果をもとに、ユーザのクエリに回答するステップ 3：回答答えが検索結果の2ページ目にある場合、LLMはそれを見ることができない。どんなに「賢い」LLMであっても、読んでいないことには答えられない。

RAGが失敗する「あるある」 3選

解決への体系的アプローチ：３つの改善軸でボトルネックを特定精度低下の要因を特定するため、以下の３つの改善軸に沿って複数の技術的な戦略を評価しました。これにより、最も効果的な打ち手は何かをデータに基づき判断します。データ（Data）チャンキング（Chunking）検索
（Retrieval）生成（Generation） 1. データ自体の最適化 (Data Preprocessing) 検索対象のドキュメント構造そのものを改善できるか。テスト項目：従業員種別ごとのドキュメント分割 2. チャンキングの最適化 (Chunking Strategy) テキストをどのように分割・保持するか。テスト項目：標準、大きめ、親子チャンク、HyDE（仮説的質問） 3.検索後処理の導入 (Post-Retrieval) 検索結果をどう絞り込み、順位付けするか。テスト項目：クロスエンコーダーによる再ランク付け

検証結果：データ最適化がほかの手法を凌駕テスト条件 • 評価クエリ: 15問（例外規定の取得をテスト） • 各戦略で同じクエリセットを実行 • 正解判定: 必須キーワード
の有無で自動判定

チャンキング戦略の比較分析：なぜ「大きなチャンク」が勝ったのか 1. 標準チャンクイメージ Google検索に表示される 1段落だけを読んで回答しようとする状態。イメージ検索結果リンク（子）
をクリックして、前後の文脈を含めた「ページ全体（親）」を LLMに渡す状態。イメージ Google検索に表示される数段落分を読んで回答しようとする状態。 2. 大き目チャンク 3. 親子チャンク

さらなる精度向上に向けた高度なアプローチ 1. 「聞き返す」検索 2. マルチインデックス振り分け 3.「意味の切れ目」の自動認識ユーザーの質問が曖昧なとき、勝手に検索せずエージェントが逆質問する。
規程の種類ごとに DBを分け、クエリにおじてエージェントが最適な DBを選択する。文書の構造や意味のまとまりを理解し、動的にチャンクサイズを変える。

Zenn 記事をチェック！ご視聴ありがとうございました。 Githubをチェック！

社内規程RAGの精度を73.3% → 100%に改善した話

社内規程RAGの精度を73.3% → 100%に改善した話

oharu121

Other Decks in Programming

Featured

Transcript