Upgrade to Pro — share decks privately, control downloads, hide ads and more …

導入から運用まで!サーバーワークスの生成AI社内活用事例

 導入から運用まで!サーバーワークスの生成AI社内活用事例

AWS Summit 2024のブースセッションにて登壇した資料です。
・Amazon Bedrock のご紹介
・サーバーワークスのRAG運用事例
・生成AI活用のためのおすすめファーストステップ

Avatar for 村上博哉

村上博哉

June 28, 2024

Other Decks in Technology

Transcript

  1. 目次 1. Amazon Bedrock のご紹介 1. Amazon Bedrock の特徴 2.

    Amazon Bedrock の活用パターン(RAGのご紹介) 2. サーバーワークスの社内活用事例 1. 社内QAチャットボットの導入 2. 運用でやっていること 3. 生成AI活用のためのおすすめファーストステップ 3. まとめ
  2. 6 Amazon Bedrock の特徴 インフラの管理は不要 利用料は使った分だけ入出力トークンに応じた課金 サーバーレスなサービスなのでインフラの管理は不要 複数のモデルを利用可能 データプライバシー ユーザーの入力や

    Amazon Bedrock からの出力はAWSやモデルプロバイダ側で再利用されない 閉域網からも Amazon Bedrock サービスエンドポイントにアクセス可能 API コールしたリージョン内に顧客データが保管される 他のAWSサービスとの統合による親和性が高い
  3. 7 他の AWS サービスとの統合による親和性が高い すでに AWS を使っている場合、既存の監査・証跡管理をそのまま踏襲できる AWS Identity and

    Access Management (IAM) による権限管理 AWS CloudTrail による証跡管理 Amazon CloudWatch によるメトリクス・ログ監視 参考: Amazon Bedrock のモニタリングを考える
  4. 15 社内QAチャットボットの導入効果 利用実績 導入から 70 日間で質問総数は 589 件( 1 日あたり

    7 ~ 8 件) 部署間の問合せツールとして採用 何度でも同じことを質問できる 一次情報のブラッシュアップが盛んになった 一次情報に書いていないことはAIも答えられない 詳細: Amazon Bedrockを使った社内QAチャットボットを3か月運用して起きた変化
  5. 18 RAGの評価 オフライン評価 データセットを使った評価 オンライン評価 ユーザーのフィードバックを基に行う評価 Amazon Bedrock からの回答の末尾に フィードバック用のボタンを設けている

    質問 コンテキスト 回答 フランスの首都は ? 西ヨーロッパのフランスには、中世の都市、高山の村、地中海の ビーチが含まれています。首都パリは、ファッションハウス、 ルーブル美術館などの古典的な美術館、エッフェル塔などの記念 碑で有名です。 パリです
  6. 19 オフライン評価の実例① データセットの準備 チャットボットの使用履歴を保存している Amazon DynamoDB から特定の期間のデータセットを抽出 データセットに含まれる情報 ユーザーからの質問 質問に関連するコンテキスト(

    Amazon Kendra が検索してきた文書) Amazon Bedrock からの回答 質問 コンテキスト 回答 フランスの首都は ? 西ヨーロッパのフランスには、中世の都市、高山の村、地中海の ビーチが含まれています。首都パリは、ファッションハウス、 ルーブル美術館などの古典的な美術館、エッフェル塔などの記念 碑で有名です。 パリです
  7. 20 オフライン評価の実例② コンテキストおよび回答の関連性を数値化 Context Relevancy Amazon Kendra が検索してきた情報がユーザーの質問に関連しているか Answer Relevancy

    Amazon Bedrock が回答した内容がユーザーの質問に関連しているか RAG評価フレームワークのragasを活用 参考ブログ:RAG評価フレームワークのragasを使ってみた 質問 コンテキスト 回答 フランスの首都は ? 西ヨーロッパのフランスには、中世の都市、高山の村、地中海の ビーチが含まれています。首都パリは、ファッションハウス、 ルーブル美術館などの古典的な美術館、エッフェル塔などの記念 碑で有名です。 パリです
  8. 23 オフライン評価の実例⑤ 分析 Context Relevancyは低いがAnswer Relevancyは高い ユーザーの質問に関連する文書を上位10個 検索するよう設定しているため、関連性の高くない 情報も含まれる場合がある 検索した10個のコンテキストのうち1個でも

    ユーザーの質問に関連していれば Amazon Bedrockは正しい回答をしていることが 分かる 改善 基本的にはAnswer Relevancyが低いものを分析 チャットボットが回答できていない 存在しない情報に関する質問のため検索できない → 回答できないパターン が多数 一次情報のブラッシュアップへつなげる
  9. 30 生成内容を確認し、どのモデルを使うか検討する Compare mode で生成内容を比較できる Claude 3 Sonnet 入力トークン 1,000

    あたり$0.003 出力トークン 1,000あたり$0.015 Claude 3 Opus 入力トークン 1,000 あたり$0.015 出力トークン 1,000あたり$0.075
  10. 32 生成に影響を与えるパラメータ Temperature 0~1の範囲のパラメータ(1以上を設定できるモデルもある) Amazon Bedrock が生成する内容の多様性を調整できる Temperature が高いとき、LLMの回答は多様化する Temperature

    が低いとき、LLMの回答は一貫する まずはTemperature のみを調整する (参考)Top P、Top Kとは 確率の低いトークンが生成されるのを防ぐために利用される Top P 生成する言葉の候補の累積確率がP%に達した時点で、以降の候補は 切り捨てる Top K 生成する言葉の候補の上位K個の中から次の言葉を生成する