Amazon Bedrockで実現する新たな学習体験

Amazon Bedrockで実現する新たな学習体験 Kazu ki Ma eda / @atama p
lu s 2025.6.26 2 か月で実装した教育スタートアップの挑戦

ⓒ atama plus Inc. 本日お話ししたいこと • 自社サービスに生成AIを用いた機能を実装し、リリースした際の実践知を共有します • RAGやAgentなどのトレンド技術についてではなく、
生成AIアプリケーションを本番サービスとして提供するための工夫についてお話しできればと思います 2

自己紹介 VPoE @ atama plus 教育をテクノロジーで進化する事業におけるテクノロジーの責任者を担っています AWS Startup Community
Core Member / AWS Community Builder 3 K a z u k i M a e d a

ⓒ atama plus Inc. アジェンダ 1. これまでのatama plusの挑戦と危機感 2. 生成AIの活用：AIステップ解説
3. 生成AIアプリケーション本番運用における実践知 4. AWSによる支援体制 5. まとめ 4

教育に、人に、社会に、次の可能性を。 M i s s i o n

2022年12月 post 生成AI時代 2022年12月 post 生成AI時代

教育事業者として atama plusはどのような価値にフォーカスすべきか

2022年12月 post 生成AI時代 post 生成AI時代生成AIの活用による解決を着想

生成AIを用いた学習体験「AIステップ解説」

AIステップ解説 β版公開までの流れ

ⓒ atama plus Inc. 開発タイムライン 22 AIステップ解説公開までの流れチーム組成開発スコープの策定
開発/ 生徒ヒアリング β版リリース 7月末 10月

ⓒ atama plus Inc. 開発タイムライン 23 AIステップ解説公開までの流れチーム組成開発スコープの策定
開発/ 生徒ヒアリング β版リリース 7月末 10月有志の小規模チームでのクイックな開発社内の資産を活用した差別化された体験ユーザーに向き合った徹底的な価値訴求

ⓒ atama plus Inc. 有志の小規模チームでのクイックな開発 • スピーディに機能を世の中に出すことを志向するため、有志のチームで開発 • 主業務タスクの傍らで開発し、2ヶ月+でβ版としてリリース 24
AIステップ解説公開までの流れ

ⓒ atama plus Inc. 社内の資産を活用した差別化された体験 • シンプルに生成AIに質問ができる機能、ではなく、学習中のコンテンツをコンテキストとして持たせる実装 • 生徒の疑問に対する言語化コストを極小化する工夫
25 AIステップ解説公開までの流れコンテキストに基づいた解説生徒の言語化コストを極小化

ⓒ atama plus Inc. AIステップ解説のアーキテクチャ外観 28 AIステップ解説公開までの流れ AIステップ解説学習アプリからコンテンツデータを
API経由で渡す Amazon Bedrock経由で Anthropic Claudeに問い合わせ既存APIサーバとは別component として実装 Amazon Bedrock Anthropic Claude

ⓒ atama plus Inc. AIステップ解説のアーキテクチャ外観 29 AIステップ解説公開までの流れ AIステップ解説学習アプリからコンテンツデータを
API経由で渡す Amazon Bedrock経由で Anthropic Claudeに問い合わせ既存APIサーバとは別component として実装 Anthropic Claude Amazon Bedrock 価値検証を最速で行うため、スピーディに公開できる実装を志向

ⓒ atama plus Inc. Amazon Bedrock選定の理由 ◼ 複数の基盤モデルを統一された APIで利用可能 ◼
AWS各種サービスとの連携の容易さ、 IAM Roleによるセキュアな利用 ◼ ロギングやクロスリージョン推論など非機能サービスの充実性 30 AIステップ解説公開までの流れ

生成AIアプリケーションを 2ヶ月で本番(β)機能としてリリース

ⓒ atama plus Inc. 33 一方で本番環境でユーザーに生成AIアプリケーションを直接利用してもらう体験なので犠牲にできない観点も多い一方
本番アプリケーションとして公開するには蔑ろにできない要件が多数存在する

ⓒ atama plus Inc. Amazon Bedrock本番利用の工夫 37 生成AIアプリケーション本番運用における実践知 -技術的な工夫- prompt
cachingによるコスト最適化 LLM as Judgeによるモデル比較評価モニタリングSaaSと連携した実行監視

ⓒ atama plus Inc. prompt cachingによるコスト最適化 • 2025年4月、Amazon Bedrockでprompt cachingが利用できるように
• モデルバージョンを更新して、system promptを再利用することでコスト構造を改善 • prompt cachingの制約としてTTLが5分と短いが、AIステップ解説では、 1つのセッション内で学習者の発言ごとにLLM呼び出しが発生するため、 cacheを効かせることで70%の費用削減 38 生成AIアプリケーション本番運用における実践知 -技術的な工夫-

ⓒ atama plus Inc. promptとコンテンツデータ 39 生成AIアプリケーション本番運用における実践知 -技術的な工夫- AIステップ解説 <問題>
y = 2x </問題> <解説> xに4を代入 </解説> system prompt 公式の意味を詳しく教えてほしい user prompt コンテンツデータは system promptに含ませて渡す Amazon Bedrock Anthropic Claude 質問内容は user promptに格納

ⓒ atama plus Inc. prompt cachingによるコスト最適化 40 生成AIアプリケーション本番運用における実践知 -技術的な工夫- AIステップ解説
<問題> y = 2x </問題> <解説> xに4を代入 </解説> system prompt 公式の意味を詳しく教えてほしい user prompt 質問ごとに変動しないコンテンツデータをcache TTL 5分の間で費用が発生するのはuser prompt のみ Amazon Bedrock Anthropic Claude

ⓒ atama plus Inc. LLM as Judgeによるモデル変更時の評価 • サービス公開当初はClaude 3.5
Sonnetを利用 • その後、Amazon NovaやClaude Sonnet 4などの新しい基盤モデルも選定できるようになるが、モデル変更時の回答性能担保が課題になった • 人力でモデル比較を愚直にやるのは効率が悪いので、評価の手法として LLM as Judge を利用することを検討 41 生成AIアプリケーション本番運用における実践知 -技術的な工夫-

ⓒ atama plus Inc. LLM as Judgeによるモデル変更時の評価 • Amazon Bedrock
Evaluationsは当初Claude 3.7 Sonnetが利用できず • そのため、LangChainが公開しているOSSであるOpenEvalsを利用 42 生成AIアプリケーション本番運用における実践知 -技術的な工夫-

ⓒ atama plus Inc. LLM as Judgeによるモデル変更時の評価 • （詳細） 43
生成AIアプリケーション本番運用における実践知 -技術的な工夫- model A LLM as Judge model B model C eval model evaluation prompt question: XXX reference: XXX Score

ⓒ atama plus Inc. モニタリングSaaSと連携したLLM実行監視 • 生成AIアプリケーションは、通常のWebアプリケーションに比べて振る舞いの安定性が低く、会話sessionごとの挙動モニタリングが重要 • Amazon
Bedrockのinvocation logのみではsessionの特定が困難 • → モニタリングSaaSと連携してLLMアプリケーションの実行監視が必要 • モニタリングSaaSとしてはDatadog LLM Observabilityを選定 44 生成AIアプリケーション本番運用における実践知 -技術的な工夫-

ⓒ atama plus Inc. モニタリングSaaSと連携したLLM実行監視 • Datadog LLM Observability を用いてユーザーとLLMの会話の流れを記録
• クライアントサイドで発行した session_id を agent に渡す 45 生成AIアプリケーション本番運用における実践知 -技術的な工夫-

ⓒ atama plus Inc. モニタリングSaaSと連携したLLM実行監視 • DatadogでUser Sessionが特定できるので、一連の解説支援の流れを確認することができる 46
生成AIアプリケーション本番運用における実践知 -技術的な工夫- session_id が trace の tagとして埋め込まれる

ⓒ atama plus Inc. AIプロダクト品質保証ガイドライン • AI プロダクト品質保証コンソーシアムが整備 • LLMにおける品質特性として以下を定義
• 回答性能 • 事実性・誠実性 • 倫理性・アラインメント • 頑健性（ロバスト性） • AIセキュリティ 49 生成AIアプリケーション本番運用における実践知 –品質保証の工夫-

ⓒ atama plus Inc. 特性を勘案した品質保証検査 • AI ステップ解説のシステム特性（自由入力のないI/F、コンテキスト参照）から、以下の観点について重点的に品質保証 •
回答性能 • 事実性・誠実性 50 生成AIアプリケーション本番運用における実践知 –品質保証の工夫-

ⓒ atama plus Inc. ユーザーからのフィードバックを収集する仕組み • 機能利用後、問題が解決したかのフィードバックを常に得られる体験 • 解決率をモニタリングし、解決しなかったセッションを分析するなどして高い品質を維持する工夫を実施
51 生成AIアプリケーション本番運用における実践知 –品質保証の工夫- 解決率75%をKPIに設定して定期モニタリング

教育サービスとしての責任

ⓒ atama plus Inc. 「教育ドメイン」ならではの課題 • ユーザー体験相当のUIで会話履歴を参照できるツールを開発し社内の教務知識を持ったスペシャリストが回答内容の正確性を精査 55 生成AIアプリケーション本番運用における実践知
–ドメイン固有の課題-

prompt caching によるコスト最適化 LLM as Judge によるモデル比較評価モニタリングSaaSと連携した実行監視品質保証ガイドラインに沿った品質保証フィードバック収集とKPIモニタリングドメインエキスパートによる回答内容の事後検査

ⓒ atama plus Inc. AWS Generative AI Innovation Centerとの協業 •
AWS Generative AI Innovation Center • 生成AIアプリケーションの本番稼働に向けて、生成AIの専門家の支援を受けることができるプログラム • 一般的なアドバイスだけでなく、実際のコード・プロンプト・データを参照した実践的な開発支援を受けることができる 58 AWSによる支援体制

ⓒ atama plus Inc. AWS Generative AI Innovation Centerの支援事例 •
回答品質の向上 • 特定のパターンにおいて、生成AIが不正確な回答を繰り返す事象 • 実際のプロンプトをAWSのスペシャリストにレビューしてもらい、改善案を提案してもらって実装 • コスト削減の支援 • 生成AIのコストは変動費構造なので、利用が伸びるほどにコストがかかる • アーキテクチャの変更により、変動費分を削減するアドバイス 59 AWSによる支援体制

2022年12月 post 生成AI時代 2022年12月 post 生成AI時代

prompt caching によるコスト最適化 LLM as Judge によるモデル比較評価モニタリングSaaSと連携した実行監視品質保証ガイドラインに沿った品質保証フィードバック収集とKPIモニタリングドメインエキスパートによる回答内容の事後検査

今後も、生成AIを活用した新しい学びの形を追求していきたい

教育に、人に、社会に、次の可能性を。 M i s s i o n

AIで、一人ひとりに、最短で「わかる！」を。

Amazon Bedrockで実現する 新たな学習体験

Amazon Bedrockで実現する 新たな学習体験

More Decks by Kazuki Maeda

Other Decks in Technology

Featured

Transcript

Amazon Bedrockで実現する新たな学習体験

Amazon Bedrockで実現する新たな学習体験