20240825_bedrock_helpdesk_jp.pdf

Amazon Bedrockを使ったヘルプデスク業務の効率化と RAGの回答精度向上 Kohei Gamo #jawspankration2024

自己紹介蒲晃平 Nomura Research Institute, Ltd. ガモウコウヘイ Career
Private - 2017年～自社プライベートクラウドの開発・運用 ✓ IaaS・PaaS基盤の維持管理 ✓ インフラ自動構築、運用自動化 - 2021年～＃キャンプ＃漫画大人買い AWSの社内CCoEのヘルプデスク業務 ✓ ヘルプデスク運営 ✓ AWS環境提供/セキュリティ対策サービスの開発・運用 ✓ AWS案件の技術支援 2

本日の内容ヘルプデスクで内部利用しているRAGチャットボット • アーキテクチャ、工夫ポイント 1 3 2 RAGを活用しヘルプデスクデスク業務を効率化する際の勘所 Amazon Bedrockを使ったRAGの回答精度向上
3

１. 開発したRAGチャットボットの紹介

問い合わせ対応は、新人にとってもベテランにとっても多くの労力と時間がかかるベテラン（経験が長いメンバー）特徴： • 単純なQA※が割り当てられることが多い • 回答根拠の探索と不慣れな文章作成に時間がかかる ※単純なQA：仕様書に回答が記載されているような問い合わせ特徴：
• 複雑なQA※が割り当てられることが多い • 多角的な情報収集と詳細な回答作成に時間がかかる ※複雑なQA：複数のサービスに関連したり、仕様書に回答の記載が無いような問い合わせ新人（経験が浅いメンバー）開発した背景 – ヘルプデスク業務の難しさ 5

ベテラン（経験が長いメンバー）特徴： • 単純なQA※が割り当てられることが多い • 回答根拠の探索と不慣れな文章作成に時間がかかる ※単純なQA：仕様書に回答が記載されているような問い合わせ特徴： •
複雑なQA※が割り当てられることが多い • 多角的な情報収集と詳細な回答作成に時間がかかる ※複雑なQA：複数のサービスに関連したり、仕様書に回答の記載が無いような問い合わせ新人（経験が浅いメンバー）開発した背景 – ヘルプデスク業務の難しさ課題解決に必要な機能： • 検索機能：仕様書や過去のQA応対履歴から回答根拠を見つけられる • 回答作成：検索した結果から自動的に回答を作成してくれる RAGの生成AIチャットボット 6

開発したRAGチャットボット（画面イメージ）質問回答引用元（検索結果）過去のチャット履歴質問フォーム 7

開発したRAGチャットボット（画面イメージ）質問回答引用元（検索結果）過去のチャット履歴質問フォーム回答作成を補助：単純なQAなら一発でユーザへ回答
可能なレベルの文章が出力仕様書やFAQ、QAチケットなどに点在した情報の集約・検索： - 新人が自ら業務知識を獲得 - ベテランも過去対応や類件対応を簡単に調査できる検索対象のドキュメント： - サービス仕様書 - QA応対履歴データ - FAQ - クラウド関連の社内規定 - AWSドキュメント（ユーザガイドなど） 8

アーキテクチャ概要： - 一般的なシングルページアプリケーション - RAG機能として Amazon Bedrockの Knowledge
Baseを採用した - Bedrockを活用することで全て AWS内だけで完結 3つのポイント 1. 会話履歴管理 2. Bedrockのリージョン選定 3. PII除去のデータパイプライン 9

アーキテクチャ Point.1：DynamoDBで会話履歴を保持 - 誰がいつどんな質問をしたか、またAIの回答内容と検索結果をDynamoDBで管理 - ユーザは自分だけの会話履歴を見れるし、過去に聞いた質問内容を確認、また過去の会話履歴からAIとの会話を再開できる -
ユーザ会話履歴は宝の山。ユーザの利用動向、ニーズがたっぷり詰まっている。必ず取得すべし 10

アーキテクチャ Point.2：Bedrockの利用リージョン - 東京リージョンではなく、バージニア北部を利用 - バージニア北部では最新モデルや Bedrockの最新機能をいち早く利用できるという恩恵を得られる 11

アーキテクチャ Point.3：GlueのETLジョブを活用した PII除去用のデータパイプライン（詳細は後述） - QA応対履歴データにはユーザの氏名などの個人情報が含まれている - 今後一般開放した際、他ユーザの情報を開示しないためにデータを匿名化
12

2. ヘルプデスク業務効率化の勘所

サマリ 1 3 2 良質な評価用データセットを作成する事から始める KPI駆動の設計と利用促進 ※個人的な経験に基づいた私的な見解ですデータパイプラインの整備 14

①良質な評価用データセットを作成する事から始める「トップダウン型のアプローチ」から始める（ドメインエキスパートからフィードバックを得る）「ボトムアップ型のアプローチ」へ移行する（エンドユーザからフィードバックを得る） • 想定質問と理想的な模範回答のペア(評価用データ)を用意 • 模範回答に近い内容を生成できるように初期プロトタイプを開発 •
ヘルプデスクのメンバーやテストユーザにアプリケーションを積極的に利用してもらい、 AIの回答やアプリケーションへのフィードバックを収集する • ユーザのフィードバックから機能改修し、模範回答に対する回答精度を継続的に改善し続けるプロトタイプのリリース後プロトタイプ開発の初期段階からドメインエキスパート（＝現行業務に精通した者）を巻き込み、想定質問と模範解答のデータセットを作る。どのような質問と答えを想定するかがソリューションの方向性を決める 15

①良質な評価用データセットを作成する事から始める評価用データセットは定量評価のベンチマークとしても利用するそのため、良質な質問を多数用意することが重要。ドメインエキスパートを早期に巻き込もう評価用データセット（想定質問と模範解答集）のサンプル 16

②KPI駆動の設計と利用促進 • RAGチャットボットを開発したただけでは、ヘルプデスクのメンバーが積極的に活用する状態にはならない。利用促進は必要不可欠 • 利用促進にはチャットボットの品質向上（回答精度やレスポンス向上）が重要になる • 業務効率化の効果測定も同じくらい重要 17

②KPI駆動の設計と利用促進 • RAGチャットボットを開発したただけでは、ヘルプデスクのメンバーが積極的に活用する状態にはならない。利用促進は必要不可欠 • 利用促進にはチャットボットの品質向上（回答精度やレスポンス向上）が重要になる • 業務効率化の効果測定も同じくらい重要 # 目的
KPI項目測定方法 1 利用促進ユーザ平均利用率会話履歴管理TBLからユーザごとの利用回数を取得する 2 利用促進 RAGの回答精度（定量評価） SageMakerノートブックインスタンスでRAGAS（後述）を使って RAGの検索結果と回答精度を定量的に評価する 3 業務効率化 AIの回答を使って問い合わせ回答できた問い合わせの割合 Goodボタン/BadボタンをチャットボットのWEB画面に設置することで AIの回答が役立ったかどうか簡単に入力できるようにする ▪KPIの例 18

②KPI駆動の設計と利用促進 # 目的 KPI項目測定方法 1 利用促進ユーザ平均利用率会話履歴管理TBLからユーザごとの利用回数を取得する 2
利用促進 RAGの回答精度（定量評価） SageMakerノートブックインスタンスでRAGAS（後述）を使って RAGの検索結果と回答精度を定量的に評価する 3 業務効率化 AIの回答を使って問い合わせ回答できた問い合わせの割合 Goodボタン/BadボタンをチャットボットのWEB画面に設置することで AIの回答が役立ったかどうか簡単に入力できるようにする「KPI駆動の設計」：KPIをシステム設計時から定め、測定に必要なデータや取得機能を事前に決定 • RAGチャットボットを開発したただけでは、ヘルプデスクのメンバーが積極的に活用する状態にはならない。利用促進は必要不可欠 • 利用促進にはチャットボットの品質向上（回答精度やレスポンス向上）が重要になる • 業務効率化の効果測定も同じくらい重要 19

③データパイプラインの整備ヘルプデスク業務において、RAGのデータソースに過去のQA応対履歴を使うことは非常に重要 • 蓄積されたQA応対履歴の総量は、仕様書やマニュアルの文章量よりも非常に多くなる場合が多い • マニュアル化されてない内容までAIに回答させるにはQA応対履歴は必須 FAQを自動作成させるような場合にもQA応対履歴は必須 • QA応対履歴にはほとんどの場合、問い合わせ者を特定するPII（氏名やEmailアドレス）が含まれている 20

③データパイプラインの整備ヘルプデスク業務において、RAGのデータソースに過去のQA応対履歴を使うことは非常に重要 • 蓄積されたQA応対履歴の総量は、仕様書やマニュアルの文章量よりも非常に多くなる場合が多い • マニュアル化されてない内容までAIに回答させるにはQA応対履歴は必須 FAQを自動作成させるような場合にもQA応対履歴は必須 • QA応対履歴にはほとんどの場合、問い合わせ者を特定するPII（氏名やEmailアドレス）が含まれている社内規定やコンプライアンス要件で、個人情報をLLMに入力してはいけない場合や
RAGチャットボットを一般開放し他ユーザとの応対内容を外に出てはいけない場合、埋め込みモデルで個人情報をベクトル化する前に匿名化することは必須 21

③データパイプラインの整備 Glueジョブキック用 Lambda PIIマスキング用Glueジョブ（ETLジョブ） ①PIIが含まれているファイル ①以外のファイル管理者検索ドキュメント 1.
アップロード Bedrock Knowledge Base OpenSearch Service RAG機能検索ドキュメントベクトル化検索処理 2. Knowledge Baseで同期（ドキュメントをOpenSearchに取り込み） S3 S3トリガーファイルPUTでLambdaキック ◼ PII Detection & Masking 「GiNZA」：日本語NLPのOSSライブラリで日本人の姓名をマスキング PIIが含まれている PIIがマスキング済みデータパイプライン 22

3. RAG回答精度向上のノウハウ

RAGの定量評価 on AWS • RAGの評価には、最終的な回答の精度の他に検索の精度も含めて評価する必要がある • RAGの精度評価ツールとして、RAGAS※などのOSSのフレームワークが有名 • 正解データとして想定質問と模範解答のデータセットを使う（データセットの自動作成もRAGASで可能） •
具体的な方法（一例）：SageMakerノートブックインスタンスで評価用Notebookを作成し精度評価 ※RAGAS：https://docs.ragas.io/en/stable/ Amazon API Gateway AWS Lambda Bedrock Bedrock Knowledge Base AmazonS3 OpenSearch Service バックエンド RAG機能 DynamoDB 検索ドキュメント（会話履歴管理テーブル）回答精度評価用 Notebook SageMaker RAGの精度評価開発者 SageMakerのノートブックを使うことでやりたいときにいつでも回答精度を測定できる想定質問と模範回答集 LambdaをinvokeしてRAGの検索結果と回答結果を取得 24

ボトルネックの特定と対策ボトルネックの特定：以下の情報を使って、入力から出力のどの工程で問題があるのかを把握 • 定量評価の結果：RAGASで得られた検索精度と回答精度 • 会話履歴管理TBLに記録された利用データ：ユーザの実際の質問文とLLMの回答内容ボトルネックの工程に応じた対策を講じる。Knowledge Baseのオプションを使いこなす 2 #
工程原因対策の例 1 質問文質問文に検索に必要な情報やキーワードが含まれていない • ユーザに利用ガイドラインやサンプルプロンプトを公開する • 検索クエリを見直す（検索に必要な情報をシステム側で付与する） 2 質問文一つの質問文に複数の質問が含まれている • Knowledge Baseのクエリ拡張を有効化（質問ごとに検索クエリを裏で作成） 3 検索処理ドキュメントの図表が読み取れていない • Knowledge Baseの解析オプションを有効化（ベクトル化する前に図表をClaudeに自然言語として出力させる） 4 検索処理検索精度が悪い • 検索アルゴリズムを変更（OpenSearchのハイブリッド検索を活用等) • チャンキング戦略を見直す（Knowledge Baseのカスタマイズチャンキングを活用等） 5 回答処理検索されたドキュメントの意図をくみ取った回答ができない • プロンプトチューニング • ドキュメントの構造を見直す 2 1 25

4. まとめ

まとめ • RAGチャットボットの開発には、良質な評価用データセットを作成することから始めることが重要また、そのためにドメインエキスパートを早期からプロジェクトに巻き込もう • KPI駆動で設計と利用促進を進めていくことを推奨 • ヘルプデスク業務へのRAGチャットボット活用には過去のQA応対履歴を活用することが重要そのためには個人情報（PII）の匿名化処理を含むデータパイプラインの構築が必要 •
RAGの回答精度向上にはボトルネックの特定とボトルネックに応じた対策が必要最近のBedrock Knowledge Baseの機能で細かいチューニングができるようになってきたため、活用すると良い 27

20240825_bedrock_helpdesk_jp.pdf

20240825_bedrock_helpdesk_jp.pdf

KoheiGamo

More Decks by KoheiGamo

Other Decks in Technology

Featured

Transcript

Amazon Bedrockを使ったヘルプデスク業務の効率化と RAGの回答精度向上 Kohei Gamo #jawspankration2024

自己紹介蒲晃平 Nomura Research Institute, Ltd. ガモウコウヘイ Career

本日の内容ヘルプデスクで内部利用しているRAGチャットボット • アーキテクチャ、工夫ポイント 1 3 2 RAGを活用しヘルプデスクデスク業務を効率化する際の勘所 Amazon Bedrockを使ったRAGの回答精度向上

１. 開発したRAGチャットボットの紹介

ベテラン（経験が長いメンバー）特徴： • 単純なQA※が割り当てられることが多い • 回答根拠の探索と不慣れな文章作成に時間がかかる ※単純なQA：仕様書に回答が記載されているような問い合わせ特徴： •

開発したRAGチャットボット（画面イメージ）質問回答引用元（検索結果）過去のチャット履歴質問フォーム 7

開発したRAGチャットボット（画面イメージ）質問回答引用元（検索結果）過去のチャット履歴質問フォーム回答作成を補助：単純なQAなら一発でユーザへ回答

アーキテクチャ概要： - 一般的なシングルページアプリケーション - RAG機能として Amazon Bedrockの Knowledge

アーキテクチャ Point.2：Bedrockの利用リージョン - 東京リージョンではなく、バージニア北部を利用 - バージニア北部では最新モデルや Bedrockの最新機能をいち早く利用できるという恩恵を得られる 11

2. ヘルプデスク業務効率化の勘所

サマリ 1 3 2 良質な評価用データセットを作成する事から始める KPI駆動の設計と利用促進 ※個人的な経験に基づいた私的な見解ですデータパイプラインの整備 14

②KPI駆動の設計と利用促進 # 目的 KPI項目測定方法 1 利用促進ユーザ平均利用率会話履歴管理TBLからユーザごとの利用回数を取得する 2

③データパイプラインの整備 Glueジョブキック用 Lambda PIIマスキング用Glueジョブ（ETLジョブ） ①PIIが含まれているファイル ①以外のファイル管理者検索ドキュメント 1.

3. RAG回答精度向上のノウハウ

4. まとめ