爆速でキャッチアップしよう！Amazon Bedrock AgentCore/Strands Agentsのre:Inventアップデート情報まとめ！

by Yudai Jinno

Slide 1

Slide 1 text

クラウド事業本部コンサルティング部神野雄⼤（Jinno Yudai）爆速でキャッチアップしよう！ Amazon Bedrock AgentCore /Strands Agentsの re:Inventアップデート情報まとめ！

Slide 2

Slide 2 text

⾃⼰紹介

Slide 3

Slide 3 text

簡単に⾃⼰紹介させていただきます。本⽇はよろしくお願いします！！！！！⾃⼰紹介名前神野雄⼤(Jinno Yudai/@yjinn448208) 最近X始めました！所属クラウド事業本部コンサルティング部ソリューションアーキテクト⼤好きなサービス Amazon Bedrock AgentCore 思い出皆でスフィアに⾏ったこと⾶⾏機内でイヤホンを無くしかけたことブログはこのアイコンで書いています！ KIROハウスで！スフィア！オズの魔法使いみたよ

Slide 4

Slide 4 text

謝り

Slide 5

Slide 5 text

謝り① 元気よくアップデート資料を作っていたら 25枚を超えたので詳細はまたブログを読んでください‧‧‧今⽇は爆速で雰囲気をキャッチアップしてください‧‧‧すみません‧‧‧ Sorry・・・

Slide 6

Slide 6 text

謝り② Sorry‧‧‧ ⼤変申し訳ないですが、本⽇の内容はAgentCoreを少し触ったことがある、何ができるかざっくりと理解していることを前提としています。もし触りの箇所から知りたい場合は⼿前味噌で恐縮ですが私のブログで解説しているのでみていただけると嬉しいです。 Amazon Bedrock AgentCoreを使ってみよう！〜各種機能のポイントを解説〜著者ページ

Slide 7

Slide 7 text

いざ！内容へ！

Slide 8

Slide 8 text

Keynoteを振り返って Keynoteでは全体的にAIの話が中⼼でした。その中でAgentCoreやStrands Agents の話も多く出てきて、AIエージェントはもう作っている、運⽤を前提としたアップデートや話が多いように感じました。

Slide 9

Slide 9 text

今回はそんなAgentCoreやStrands Agents のアップデートを爆速でキャッチアップしていきましょう！！！！！！

Slide 10

Slide 10 text

今⽇の紹介対象今⽇はAIエージェント開発の中核となるサービスAgentCoreとStrands Agentsのアップデートを中⼼に紹介させていただきます Strands Agents Amazon Bedrock AgentCore AIエージェントを開発‧ホストする上で便利なマネージドサービス AIエージェントを簡単に開発可能とするOSSフレームワーク

Slide 11

Slide 11 text

Amazon Bedrock AgentCore

Slide 12

Slide 12 text

Amazon Bedrock AgentCoreのアップデート AgentCoreのアップデートはより本番運⽤を意識したものが多い印象です。特に評価はエージェントを改善していく上で⽋かせないものになりそうですね。 Gateway Policy機能の追加 Evaluations プリミティブの追加⻑期記憶戦略：Episodic Memory が追加双⽅向ストリーミング（WebSocket）の対応 Amazon Bedrock AgentCore New Update ● Gatewayに対してより細かい認可制御が可能に！ ● ポリシー⾔語であるCedarを使って定義 ● AIエージェントの評価が可能に！ ● リアルタイム（若⼲のラグはあるが）でも評価可能！ ● セッション中の内容を教訓として昇華できる⻑期記憶戦略が追加！ ● WebSocketにも対応し、割り込みや⾳声⼊⼒などにも柔軟に対応できるように！

Slide 13

Slide 13 text

Policy in Amazon Bedrock AgentCore ポリシー⾔語であるCedarを使ってよりきめ細やかにツールの認可制御ができるようになりました。AIエージェントが返⾦処理を実施するツールを利⽤する例を考えてみます。 AIエージェント Gateway $50返⾦するで返⾦ツール使うで⾦額が $200未満か評価 OK 返⾦ツール AIエージェント Gateway $1000返⾦するで返⾦ツール使うで⾦額が $200未満か評価 NG 返⾦ツール ✖ ⚪ ポリシーに適合している場合ポリシーに適合していない場合

Slide 14

Slide 14 text

Appendix:Cedar⾔語直感的にかけるポリシー⾔語です。下記記載なら認証を受けたユーザーが process_refundツールをあるGateway経由で使⽤する時を対象にしています。また条件として、ロールはrefund-agentが対象で、amountが200未満の場合に利⽤できるといった条件を記載できます。

Slide 15

Slide 15 text

Amazon Bedrock AgentCore Evaluations 開発‧運⽤しているAIエージェントの評価がコンソール上からできるようになりました。ダッシュボードからわかりやすく確認できます。LLMを使った評価（LLM-as-a-Judge）となります。 AIエージェントユーザー Gateway ⼤阪の天気を教えて天気検索ツールを使って返事する！（ツールの結果を踏まえて）晴れです天気検索ツールリアルタイムでも質問に対する適切な回答‧ツール選択ができているかなど評価⼀連の流れを評価

Slide 16

Slide 16 text

Amazon Bedrock AgentCore Evaluations 若⼲のラグはありつつもリアルタイムで評価も可能です。また、Starter Toolkitを使えばオンデマンドでの評価も実現できます。評価を⾏ったとしても既存のエージェントの動作には影響がありません。 Online evaluation On-demand evaluation ● リアルタイムでエージェント品質を継続的にモニタリング可能、サンプリング率やフィルタ条件を指定もできる。 ● 評価結果はObservabilityのダッシュボードからも確認可能 ● 特定のセッションIDなどを指定してオンデマンドで評価可能。 ● Starter Toolkitで簡単に実⾏可能どちらも運⽤中のエージェントには影響しない

Slide 17

Slide 17 text

Appendix:具体的な評価項⽬① 具体的な以下の観点で評価可能です。これ以外でもカスタム評価も実装可能です。 Session-level Evaluator （セッション全体を評価） ● Goal Success Rate（⽬標達成率） ○ 会話セッション全体を通じて、ユーザーの⽬標が全て達成されたかを評価する Tool-level Evaluators （ツール呼び出しを評価） ● Tool Parameter Accuracy（ツールパラメータ正確性） ○ ツール呼び出し時のパラメータが会話コンテキストから正しく取得されているかを評価する ● Tool Selection Accuracy（ツール選択正確性） ○ 状況に応じて適切なツールが選択されているかを評価する

Slide 18

Slide 18 text

Trace-level Evaluators （各ターンの応答を評価） Appendix:具体的な評価項⽬② 具体的な以下の観点で評価可能です。これ以外でもカスタム評価も実装可能です。 ● Coherence（⼀貫性） ○ 応答に論理的な⽭盾、⾶躍、⾃⼰⽭盾がないかを評価する ● Conciseness（簡潔性） ○ 必要な情報を最⼩限の⾔葉で伝えているか、冗⻑でないかを評価する ● Context Relevance（コンテキスト関連性） ○ RAGなどで取得したコンテキストが質問に適切に関連しているかを評価する ● Correctness（正確性） ○ 応答内容が事実として正しいか、回答が正確かを評価する ● Faithfulness（忠実性） ○ 応答が会話履歴やツール出⼒と⽭盾していないかを評価する ● Conciseness（簡潔性） ○ 必要な情報を最⼩限の⾔葉で伝えているか、冗⻑でないかを評価する ● Harmfulness（有害性） ○ 侮辱、ヘイト、暴⼒、不適切な性的コンテンツなど有害な内容が含まれていないかを評価する

Slide 19

Slide 19 text

Trace-level Evaluators （各ターンの応答を評価）具体的な以下の観点で評価可能です。これ以外でもカスタム評価も実装可能です。 ● Helpfulness（有⽤性） ○ ユーザーの⽬標達成に向けて、応答がどれだけ役⽴っているかを評価する ● Instruction Following（指⽰遵守） ○ ユーザーの明⽰的な指⽰（形式、⻑さ、スタイルなど）に従っているかを評価する ● Refusal（拒否検出） ○ エージェントがリクエストへの回答を拒否または回避しているかを検出する ● Response Relevance（応答関連性） ○ 応答がユーザーの質問やリクエストに直接答えているか、的外れでないかを評価する ● Stereotyping（ステレオタイプ検出） ○ 特定のグループに対する偏⾒やステレオタイプ的な内容が含まれていないかを評価する Appendix:具体的な評価項⽬③

Slide 20

Slide 20 text

新しい⻑期記憶戦略や双⽅向ストリーミング機能も便利な機能ですが、本⽇は割愛します。詳細が気になる⽅はブログを読んでいただけると幸いです！その他アップデート⻑期記憶戦略：Episodic Memoryが追加双⽅向ストリーミングが対応リフレクションで抽出された記憶が⾯⽩い！⾳声を使ったAI エージェントを作ってみたい！

Slide 21

Slide 21 text

Strands Agents

Slide 22

Slide 22 text

Stands Agentsのアップデート Strands Agentsのアップデートも実⽤的なアップデートが多いです。TypeScript 対応は嬉しいですし、ステアリング機能は気になりますね。 TypeScript版がリリース（Preview） Evals SDK（experimental） Strands Agents SOP Strands Agents New Update ● 待望のTypeScript版がプレビューリリース！ ● 現時点ではPython版と⽐較するとできない機能も多々ある‧‧‧（同期予定） ● 評価⽤のSDKがリリース！ ● 中断‧継続⼊⼒に対応したリアルタイム⾳声対話エージェント！（experimental）ステアリング機能（experimental） ● AIエージェントの作業⼿順を⾃然⾔語で定義‧再利⽤できる標準フォーマット！双⽅向ストリーミング（experimental） ● エージェントの動作中に適切なタイミングで指⽰を与え、柔軟に軌道修正できる仕組みがリリース！

Slide 23

Slide 23 text

TypeScript版もPython版同様にシンプルに書けるのが特徴です。AgentCoreのデプロイも公式ドキュメントに記載があるので展開可能です。ただ現時点では Python版と⽐べると使⽤できない機能もあるので注意です。（今後同期予定） TypeScript版 Strands Agents

Slide 24

Slide 24 text

ステアリング機能エージェントのライフサイクルの適切なタイミングでフィードバックを与え、ワークフローのように処理をカッチリ定義せずとも望ましい結果に近づける機能です。システムプロンプトに指⽰を仕込む必要はなく必要なタイミングで指⽰を出せるのは嬉しいですね。ユーザーお客様への返信メールを作成して AIエージェントメール送信ツールメールの⽂章を考えてツールで送信するぞ、ツールを使う前にステアリングあるやんステアリングメールの⽂章は必ずポジティブに書くことあ、⼀部ネガティブ表現がある、修正するぞ、よし修正してOKだからメール送るツール利用前に参照

Slide 25

Slide 25 text

Appendix:ステアリング機能の実装イメージ LLMSteeringHandlerを使って、Agentのhooksに仕込めばツール呼び出し前にステアリングが効き、評価されます。ステアリングの実行フロー引⽤:https://strandsagents.com/latest/documentation/docs/us er-guide/concepts/experimental/steering/#steering

Slide 26

Slide 26 text

Strands Agents SOP このアップデートはパッと⾒て？と思う⽅がいるかもしれません。「AIエージェント⽤の作業⼿順書フォーマット」です。⼈間向けの⼿順書と同じように、エージェントに「この⼿順で作業して」と渡せる標準フォーマットで、⾃然⾔語で⼿順チックに動かすことを可能にします。 ● 概要 ○ エージェントに何をする作業か伝える ● パラメータ ○ パラメータで分離して別のタスクでもSOPを再利⽤可能へ ● ステップ ○ 具体的な作業⼿順 ● 制約 ○ MUST/SHOULD/MAYで強制度を明⽰

Slide 27

Slide 27 text

ステアリングとSOPを活⽤して、エージェントに期待する振る舞いをコントロールしてビジネス要件をクリアすることに近づけられそうですね！！！ AWS re:Invent 2025 - Build production AI agents with the Strands Agents SDK for TypeScript (AIM3331)より引⽤

Slide 28

Slide 28 text

双⽅向ストリーミング Strands Agents側では実験的な機能になりますが、BidiAgentを使って、簡単に双⽅向ストリーミングも下記のように実装可能です。

Slide 29

Slide 29 text

評価機能 Strandsでも評価機能が追加されました。テストケースを作成して、LLMに評価（LLM-as-a-Judge）させる形になります。評価メトリクスは⾃分で作成でもいいですし、ツールを適切に使⽤できたかなどのビルトインメトリクスも存在します。

Slide 30

Slide 30 text

Appendix:結果イメージテストコードの実⾏結果みたいな表⽰が返却されます。

Slide 31

Slide 31 text

おわりに今回のre:Invent 2025ではAIエージェントをより本番で使うことが意識されたアップデートが多かった印象です！これを機にAIエージェントを作成して業務の効率化を図れるか考えてみても⾯⽩いですね！本発表が少しても参考になったら幸いです！質問などはドシドシ懇親会で聞いてもらえると嬉しいです！！ Thank you!

Slide 32

Slide 32 text

No content