社内規程RAGの精度を73.3% → 100%に改善した話

by oharu121

Embed

Start on current slide

Slide 1

Slide 1 text

社内規程RAGの精度を73.3% → 100%に改善した話複雑な手法より、まずは「チャンクサイズ」を見直すべき理由 Yuchen Lin(リンユウチェン)

Slide 2

Slide 2 text

自己紹介 & プロジェクト概要自己紹介 ● 名前：リンユウチェン ● 実績：AIハッカソンのファイナリスト10組 ● 最近のマイブーム：OpenClaw（旧ClawdBot）プロジェクト概要 ● RAGを探索するデモプロジェクト ● 目的：チャンキング戦略を検証する ● 開発：Next.js + FastAPI + Gemini 2.0 Flash ● 課題: 社内規程（通勤手当、休暇など）を対象にした RAG。最初は「正解率 73.3%」という微妙な結果に。

Slide 3

Slide 3 text

RAGを「Google検索」で例えると？ステップ１：検索ステップ 2：読解クエリを送信すると、システムは「上位K件」の結果を見つける →（Google検索結果1ページ目のようなもの）そのK件の結果をLLMに渡します →人間がスニペットを読むように検索結果をもとに、ユーザのクエリに回答するステップ 3：回答答えが検索結果の2ページ目にある場合、LLMはそれを見ることができない。どんなに「賢い」LLMであっても、読んでいないことには答えられない。

Slide 4

Slide 4 text

RAGが失敗する「あるある」 3選

Slide 5

Slide 5 text

解決への体系的アプローチ：３つの改善軸でボトルネックを特定精度低下の要因を特定するため、以下の３つの改善軸に沿って複数の技術的な戦略を評価しました。これにより、最も効果的な打ち手は何かをデータに基づき判断します。データ（Data）チャンキング（Chunking）検索（Retrieval）生成（Generation） 1. データ自体の最適化 (Data Preprocessing) 検索対象のドキュメント構造そのものを改善できるか。テスト項目：従業員種別ごとのドキュメント分割 2. チャンキングの最適化 (Chunking Strategy) テキストをどのように分割・保持するか。テスト項目：標準、大きめ、親子チャンク、HyDE（仮説的質問） 3.検索後処理の導入 (Post-Retrieval) 検索結果をどう絞り込み、順位付けするか。テスト項目：クロスエンコーダーによる再ランク付け

Slide 6

Slide 6 text

検証結果：データ最適化がほかの手法を凌駕テスト条件 ● 評価クエリ: 15問（例外規定の取得をテスト） ● 各戦略で同じクエリセットを実行 ● 正解判定: 必須キーワードの有無で自動判定

Slide 7

Slide 7 text

チャンキング戦略の比較分析：なぜ「大きなチャンク」が勝ったのか 1. 標準チャンクイメージ Google検索に表示される 1段落だけを読んで回答しようとする状態。イメージ検索結果リンク（子）をクリックして、前後の文脈を含めた「ページ全体（親）」を LLMに渡す状態。イメージ Google検索に表示される数段落分を読んで回答しようとする状態。 2. 大き目チャンク 3. 親子チャンク

Slide 8

Slide 8 text

さらなる精度向上に向けた高度なアプローチ 1. 「聞き返す」検索 2. マルチインデックス振り分け 3.「意味の切れ目」の自動認識ユーザーの質問が曖昧なとき、勝手に検索せずエージェントが逆質問する。規程の種類ごとに DBを分け、クエリにおじてエージェントが最適な DBを選択する。文書の構造や意味のまとまりを理解し、動的にチャンクサイズを変える。

Slide 9

Slide 9 text

Zenn 記事をチェック！ご視聴ありがとうございました。 Githubをチェック！