Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon Bedrockで実現する 新たな学習体験

Amazon Bedrockで実現する 新たな学習体験

AWS Summit 2025

Avatar for Kazuki Maeda

Kazuki Maeda

June 26, 2025
Tweet

More Decks by Kazuki Maeda

Other Decks in Technology

Transcript

  1. Amazon Bedrockで実現する 新たな学習体験 Kazu ki Ma eda / @atama p

    lu s 2025.6.26 2 か 月 で 実 装 し た 教 育 ス タ ー ト ア ッ プ の 挑 戦
  2. ⓒ atama plus Inc. アジェンダ 1. これまでのatama plusの挑戦と危機感 2. 生成AIの活用:AIステップ解説

    3. 生成AIアプリケーション本番運用における実践知 4. AWSによる支援体制 5. まとめ 4
  3. ⓒ atama plus Inc. アジェンダ 1. これまでのatama plusの挑戦と危機感 2. 生成AIの活用:AIステップ解説

    3. 生成AIアプリケーション本番運用における実践知 4. AWSによる支援体制 5. まとめ 5
  4. ⓒ atama plus Inc. アジェンダ 1. これまでのatama plusの挑戦と危機感 2. 生成AIの活用:AIステップ解説

    3. 生成AIアプリケーション本番運用における実践知 4. AWSによる支援体制 5. まとめ 12
  5. ⓒ atama plus Inc. 開発タイムライン 23 AIステップ解説公開までの流れ チーム組成 開発スコープの 策定

    開発/ 生徒ヒアリング β版リリース 7月末 10月 有志の小規模チームで のクイックな開発 社内の資産を活用した 差別化された体験 ユーザーに向き合った 徹底的な価値訴求
  6. ⓒ atama plus Inc. AIステップ解説のアーキテクチャ外観 28 AIステップ解説公開までの流れ AIステップ解説 学習アプリから コンテンツデータを

    API経由で渡す Amazon Bedrock経由で Anthropic Claudeに 問い合わせ 既存APIサーバとは 別component として実装 Amazon Bedrock Anthropic Claude
  7. ⓒ atama plus Inc. AIステップ解説のアーキテクチャ外観 29 AIステップ解説公開までの流れ AIステップ解説 学習アプリから コンテンツデータを

    API経由で渡す Amazon Bedrock経由で Anthropic Claudeに 問い合わせ 既存APIサーバとは 別component として実装 Anthropic Claude Amazon Bedrock 価値検証を最速で行うため、 スピーディに公開できる実装を志向
  8. ⓒ atama plus Inc. Amazon Bedrock選定の理由 ◼ 複数の基盤モデルを統一された APIで利用可能 ◼

    AWS各種サービスとの連携の容易さ、 IAM Roleによるセキュアな利用 ◼ ロギングやクロスリージョン推論 など非機能サービスの充実性 30 AIステップ解説公開までの流れ
  9. ⓒ atama plus Inc. アジェンダ 1. これまでのatama plusの挑戦と危機感 2. 生成AIの活用:AIステップ解説

    3. 生成AIアプリケーション本番運用における実践知 4. AWSによる支援体制 5. まとめ 34
  10. ⓒ atama plus Inc. Amazon Bedrock本番利用の工夫 37 生成AIアプリケーション本番運用における実践知 -技術的な工夫- prompt

    cachingによるコスト最適化 LLM as Judgeによるモデル比較評価 モニタリングSaaSと連携した実行監視
  11. ⓒ atama plus Inc. prompt cachingによるコスト最適化 • 2025年4月、Amazon Bedrockでprompt cachingが利用できるように

    • モデルバージョンを更新して、system promptを再利用することで コスト構造を改善 • prompt cachingの制約としてTTLが5分と短いが、AIステップ解説では、 1つのセッション内で学習者の発言ごとにLLM呼び出しが発生するため、 cacheを効かせることで70%の費用削減 38 生成AIアプリケーション本番運用における実践知 -技術的な工夫-
  12. ⓒ atama plus Inc. promptとコンテンツデータ 39 生成AIアプリケーション本番運用における実践知 -技術的な工夫- AIステップ解説 <問題>

    y = 2x </問題> <解説> xに4を代入 </解説> system prompt 公式の意味を 詳しく教えてほしい user prompt コンテンツデータは system promptに 含ませて渡す Amazon Bedrock Anthropic Claude 質問内容は user promptに 格納
  13. ⓒ atama plus Inc. prompt cachingによるコスト最適化 40 生成AIアプリケーション本番運用における実践知 -技術的な工夫- AIステップ解説

    <問題> y = 2x </問題> <解説> xに4を代入 </解説> system prompt 公式の意味を 詳しく教えてほしい user prompt 質問ごとに変動しない コンテンツデータをcache TTL 5分の間で費用が 発生するのはuser prompt のみ Amazon Bedrock Anthropic Claude
  14. ⓒ atama plus Inc. LLM as Judgeによるモデル変更時の評価 • サービス公開当初はClaude 3.5

    Sonnetを利用 • その後、Amazon NovaやClaude Sonnet 4などの新しい基盤モデルも選定 でき るようになるが、モデル変更時の回答性能担保が課題になった • 人力でモデル比較を愚直にやるのは効率が悪いので、評価の手法として LLM as Judge を利用することを検討 41 生成AIアプリケーション本番運用における実践知 -技術的な工夫-
  15. ⓒ atama plus Inc. LLM as Judgeによるモデル変更時の評価 • Amazon Bedrock

    Evaluationsは当初Claude 3.7 Sonnetが利用できず • そのため、LangChainが公開しているOSSであるOpenEvalsを利用 42 生成AIアプリケーション本番運用における実践知 -技術的な工夫-
  16. ⓒ atama plus Inc. LLM as Judgeによるモデル変更時の評価 • (詳細) 43

    生成AIアプリケーション本番運用における実践知 -技術的な工夫- model A LLM as Judge model B model C eval model evaluation prompt question: XXX reference: XXX Score
  17. ⓒ atama plus Inc. モニタリングSaaSと連携したLLM実行監視 • 生成AIアプリケーションは、通常のWebアプリケーションに比べて振る舞いの 安定性が低く、会話sessionごとの挙動モニタリングが重要 • Amazon

    Bedrockのinvocation logのみではsessionの特定が困難 • → モニタリングSaaSと連携してLLMアプリケーションの実行監視が必要 • モニタリングSaaSとしてはDatadog LLM Observabilityを選定 44 生成AIアプリケーション本番運用における実践知 -技術的な工夫-
  18. ⓒ atama plus Inc. モニタリングSaaSと連携したLLM実行監視 • Datadog LLM Observability を用いてユーザーとLLMの会話の流れを記録

    • クライアントサイドで発行した session_id を agent に渡す 45 生成AIアプリケーション本番運用における実践知 -技術的な工夫-
  19. ⓒ atama plus Inc. モニタリングSaaSと連携したLLM実行監視 • DatadogでUser Sessionが特定できるので、一連の解説支援の流れを 確認することができる 46

    生成AIアプリケーション本番運用における実践知 -技術的な工夫- session_id が trace の tagとして埋め込まれる
  20. ⓒ atama plus Inc. AIプロダクト品質保証ガイドライン • AI プロダクト品質保証コンソーシアムが整備 • LLMにおける品質特性として以下を定義

    • 回答性能 • 事実性・誠実性 • 倫理性・アラインメント • 頑健性(ロバスト性) • AIセキュリティ 49 生成AIアプリケーション本番運用における実践知 –品質保証の工夫-
  21. ⓒ atama plus Inc. 生成AIアプリケーション 本番運用の工夫 56 ドメイン固有の課題 品質保証の工夫 技術的な工夫

    prompt caching によるコスト最適化 LLM as Judge によるモデル比較評価 モニタリングSaaSと連携した実行監視 品質保証ガイドラインに沿った品質保証 フィードバック収集とKPIモニタリング ドメインエキスパートによる回答内容の事後検査
  22. ⓒ atama plus Inc. アジェンダ 1. これまでのatama plusの挑戦と危機感 2. 生成AIの活用:AIステップ解説

    3. 生成AIアプリケーション本番運用における実践知 4. AWSによる支援体制 5. まとめ 57
  23. ⓒ atama plus Inc. AWS Generative AI Innovation Centerとの協業 •

    AWS Generative AI Innovation Center • 生成AIアプリケーションの本番稼働に向けて、生成AIの専門家の支援を 受けることができるプログラム • 一般的なアドバイスだけでなく、実際のコード・プロンプト・データを 参照した実践的な開発支援を受けることができる 58 AWSによる支援体制
  24. ⓒ atama plus Inc. AWS Generative AI Innovation Centerの支援事例 •

    回答品質の向上 • 特定のパターンにおいて、生成AIが不正確な回答を繰り返す事象 • 実際のプロンプトをAWSのスペシャリストにレビューしてもらい、改善案 を提案してもらって実装 • コスト削減の支援 • 生成AIのコストは変動費構造なので、利用が伸びるほどにコストがかかる • アーキテクチャの変更により、変動費分を削減するアドバイス 59 AWSによる支援体制
  25. ⓒ atama plus Inc. アジェンダ 1. これまでのatama plusの挑戦と危機感 2. 生成AIの活用:AIステップ解説

    3. 生成AIアプリケーション本番運用における実践知 4. AWSによる支援体制 5. まとめ 60
  26. ⓒ atama plus Inc. 生成AIアプリケーション 本番運用の工夫 64 ドメイン固有の課題 品質保証の工夫 技術的な工夫

    prompt caching によるコスト最適化 LLM as Judge によるモデル比較評価 モニタリングSaaSと連携した実行監視 品質保証ガイドラインに沿った品質保証 フィードバック収集とKPIモニタリング ドメインエキスパートによる回答内容の事後検査