Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
短期間でRAGシステムを実現 お客様と歩んだ生成AI内製化への道のり
Search
sakai
November 04, 2025
Technology
0
71
短期間でRAGシステムを実現 お客様と歩んだ生成AI内製化への道のり
sakai
November 04, 2025
Tweet
Share
Other Decks in Technology
See All in Technology
Observability — Extending Into Incident Response
nari_ex
2
700
AIとの協業で実現!レガシーコードをKotlinらしく生まれ変わらせる実践ガイド
zozotech
PRO
2
240
AIがコードを書いてくれるなら、新米エンジニアは何をする? / komekaigi2025
nkzn
24
16k
オブザーバビリティと育てた ID管理・認証認可基盤の歩み / The Journey of an ID Management, Authentication, and Authorization Platform Nurtured with Observability
kaminashi
2
1.6k
GPUをつかってベクトル検索を扱う手法のお話し~NVIDIA cuVSとCAGRA~
fshuhe
0
310
パフォーマンスチューニングのために普段からできること/Performance Tuning: Daily Practices
fujiwara3
2
180
20251027_マルチエージェントとは
almondo_event
1
500
OpenCensusと歩んだ7年間
bgpat
0
300
Raycast AI APIを使ってちょっと便利なAI拡張機能を作ってみた
kawamataryo
0
230
RemoteFunctionを使ったコロケーション
mkazutaka
1
170
可観測性は開発環境から、開発環境にもオブザーバビリティ導入のススメ
layerx
PRO
4
2.5k
Kotlinで型安全にバイテンポラルデータを扱いたい! ReladomoラッパーをAIと実装してみた話
itohiro73
3
130
Featured
See All Featured
Automating Front-end Workflow
addyosmani
1371
200k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.2k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Building Flexible Design Systems
yeseniaperezcruz
329
39k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Agile that works and the tools we love
rasmusluckow
331
21k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.3k
Typedesign – Prime Four
hannesfritz
42
2.8k
Raft: Consensus for Rubyists
vanstee
140
7.2k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
Transcript
2025/10/30 クラスメソッド株式会社 酒井 貴央 短期間でRAGシステムを実現 お客様と歩んだ⽣成AI内製化への道のり
⾃⼰紹介 2 • 2023年11⽉ ◦ クラスメソッド⼊社 • 2024年10⽉〜 ◦ ⽣成AIを中⼼に技術⽀援やプリセールスを担当
• 部署 ◦ クラウド事業本部コンサルティング部 • 名前 ◦ 酒井 貴央 • 出⾝‧住まい ◦ 神奈川 → 福岡 • ブログ ◦ DevelopersIO(酒井貴央) • 好きな技術 ◦ ⽣成AI全般
RAGとは?
RAGとは?LLMの課題を解決する技術 4 LLMの課題 • ハルシネーション(幻覚) • 古い情報 • ドメイン知識の⽋如 RAG(検索拡張⽣成)で解決
• 信頼できる知識ベースを参照 • コスト効率的(再トレーニング不要) • 最新情報を反映、ソース明⽰で信頼性向 上 https://aws.amazon.com/jp/blogs/news/a-practica l-guide-to-improve-rag-systems-with-advanced-rag -on-aws/
RAG運⽤の現実:精度が思うように出ない
あるある① 的外れな回答 6 質問: 「有給の取り⽅を教えて」 回答: 「弊社の経営理念は...」 → 全然関係ない情報を返す
あるある② 古い情報を参照 7 質問: 「最新の規定を教えて」 回答: 2年前の古い規定を参照 → 情報が更新されていない
あるある③ 幻覚(存在しない情報) 8 質問: 「ボーナスはいつ?」 回答: 「年3回⽀給します」 → 実際は年2回。存在しない情報を⽣成
RAG精度改善の3ステップ 9 アーキテクチャ選定 評価 改善 後から調整できる柔軟 な設計の選択。 チューニング可能な余 地を残し、運⽤しなが ら改善できる構成を実
現。 1 2 3 開発中と本番環境での 継続的な測定。 問題箇所を特定し、改 善効果を可視化するこ とで、次の改善アク ションの優先順位を明 確化。 評価結果に基づく段階 的な対応。 データ品質の向上を軸 に、⼩さく試して⼤き く育てるアプローチで 確実な精度向上を実 現。
A社様での実践:短期間でRAGシステムを実現
A社様での取り組み 11 当初の状況 • GenU + Kendra構成を採⽤するも精度に課題あり クラスメソッドでの取り組み • フェーズ1(2024/10-12)
◦ Knowledge Baseへ切り替え、PoC構築 • フェーズ2(2025/03-06) ◦ 全社展開に向けたベータ版 ▪ EntraIDをSAML連携、BOXの⾃動同期、継続的な評価‧改善サイクル
アーキテクチャ選定
AWSでのRAGアーキテクチャの選択肢 13 Amazon Kendra • マネージドなエンタープライズ検索サー ビス • 機械学習による⾼精度な⾃然⾔語検索 •
多様なデータソースコネクタを標準提供 • ⾃動最適化(チューニング不要) Amazon Bedrock KnowledgeBase • RAG専⽤に設計されたマネージドサービ ス • 柔軟なベクトルストア選択 ◦ OpenSearch, Aurora等 • 詳細なチューニングが可能 ◦ チャンク、パース、検索⽅式 • Bedrock基盤モデルとシームレスに統合
Amazon Bedrock KnowledgeBaseを選定 14 チューニングの柔軟性 • チャンク戦略、検索⽅式などを柔軟に調整可能 • 評価結果を⾒ながら段階的に精度改善 シンプルなコスト構造
• モデル利⽤料以外は基本的に無料 • 予算内で継続的に精度改善できる
採⽤したアーキテクチャ 15 https://github.com/aws-samples/generative-ai-use-cases
評価
2つの評価アプローチ 17 オフライン評価 開発中の改善サイクル 事前データで検証 本番前の精度測定 定量的スコアリング オンライン評価 本番環境での検証 実ユーザーフィードバック
実⽤性を測定 定性的な使⽤感
オフライン評価 18 事前に⽤意したデータで検証し、本番前に精度を測定 代表的な評価ツール • RAGAS ◦ Python RAG評価フレームワーク •
Bedrock RAG Evaluations ◦ AWSのマネージドな評価機能 ◦ コーディング不要で実⾏可能 → 定量的なスコアで課題を特定
オンライン評価 19 実際のユーザーによるフィードバックで実⽤性を測定 → オフライン評価と組み合わせて継続的に改善 段階的な展開 • 限定的なユーザーグループから開始 • フィードバックを収集し改善
• 徐々に展開範囲を拡⼤ ⼈間評価の重要性 • 定性的な使⽤感を把握 • 実際の業務での有⽤性を確認 • ユーザーの信頼を構築
A社様での実践:オフライン評価 20 • Bedrock RAG Evaluations で定量 評価 ◦ 評価⽤データセットを事前準備
◦ 検索精度(Retrieval)を⾃動スコア リング ◦ 評価結果をもとに改善案を検討
A社様での実践:オンライン評価① 21 • 2024/10-12 & 2025/03-06 ◦ ⼈事担当者がトライアルを実施 • 2025/07~
◦ ベータ版として全社員へ公開 ◦ 実運⽤での検証と継続的改善
A社様での実践:オンライン評価② 22 ユーザーからのFBを収集 • Good/BadボタンやコメントでFBを収集 • FBはDynamoDBから確認可能
改善
評価結果に基づく改善アプローチ 24 1. Amazon Bedrock KnowledgeBaseとベクトルデータベース機能の活⽤ ◦ Advanced Parsing Option
◦ メタデータフィルタリング ◦ ハイブリッド検索 など 2. ドキュメント修正 ◦ ドキュメントの構造化 ◦ 情報の整理‧統合 ◦ 古い情報の削除や更新 など
Advanced Parsing Option(⾼度な解析オプション) 25 https://aws.amazon.com/jp/blogs/news/a-practical-guide-to-improve-rag-systems-with- advanced-rag-on-aws/
メタデータフィルタリング 26 https://aws.amazon.com/jp/blogs/news/a-practical-guide-to-improve-rag-systems-with- advanced-rag-on-aws/
ハイブリッド検索 27 https://aws.amazon.com/jp/blogs/news/a-practical-guide-to-improve-rag-systems-with- advanced-rag-on-aws/
チャンキング 28 https://aws.amazon.com/jp/blogs/news/a-practical-guide-to-improve-rag-systems-with- advanced-rag-on-aws/
リランキング 29 https://aws.amazon.com/jp/blogs/news/a-practical-guide-to-improve-rag-systems-with- advanced-rag-on-aws/
クエリ書き換え 30 https://aws.amazon.com/jp/blogs/news/a-practical-guide-to-improve-rag-systems-with- advanced-rag-on-aws/
その他
最新データの同期 32 ⽇次バッチでドキュメントを⾃動取得 • StepFunctions + Lambda によるバッチ 処理 •
BOXのドキュメントをデータソース (S3)に⾃動同期
ユーザーガイドの作成 33 ⽬的 • ユーザーによってリテラシーや質問の投げ⽅が全く違う • ある程度の⽔準まで引き上げるための使い⽅ガイドを作成 内容 • Anthropicのプロンプトベストプラクティスを参考に効果的な質問⽅法やベストプラクティス
を記載 ◦ Claude Docs - プロンプトのベストプラクティス • HP(社内ポータル)に掲載
まとめ
まとめ 35 RAG精度は測って、試して、磨くサイクルで確実に改善できる RAG精度改善の3ステップ 1. アーキテクチャ選定 ◦ 後から調整できる柔軟な設計を選ぶ 2. 評価
◦ オフライン/オンライン評価で問題を可視化 3. 改善 ◦ データ品質の向上を軸に段階的に対応
None