Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

爆速でキャッチアップしよう!Amazon Bedrock AgentCore/Strands ...

Avatar for Yudai Jinno Yudai Jinno
December 10, 2025
250

爆速でキャッチアップしよう!Amazon Bedrock AgentCore/Strands Agentsのre:Inventアップデート情報まとめ!

Avatar for Yudai Jinno

Yudai Jinno

December 10, 2025
Tweet

More Decks by Yudai Jinno

Transcript

  1. 簡単に⾃⼰紹介させていただきます。本⽇はよろしくお願いします!!!!! ⾃⼰紹介 名前 神野 雄⼤(Jinno Yudai/@yjinn448208) 最近X始めました! 所属 クラウド事業本部コンサルティング部 ソリューションアーキテクト

    ⼤好きな サービス Amazon Bedrock AgentCore 思い出 皆でスフィアに⾏ったこと ⾶⾏機内でイヤホンを無くしかけたこと ブログはこのアイコ ンで書いています! KIROハウスで! スフィア!オズの 魔法使いみたよ
  2. Amazon Bedrock AgentCoreのアップデート AgentCoreのアップデートはより本番運⽤を意識したものが多い印象です。特に 評価はエージェントを改善していく上で⽋かせないものになりそうですね。 Gateway Policy機能の追加 Evaluations プリミティブの追加 ⻑期記憶戦略:Episodic

    Memory が追加 双⽅向ストリーミング (WebSocket)の対応 Amazon Bedrock AgentCore New Update • Gatewayに対してより細かい認可制御が 可能に! • ポリシー⾔語であるCedarを使って定義 • AIエージェントの評価が可能に! • リアルタイム(若⼲のラグはあるが)で も評価可能! • セッション中の内容を教訓として昇華で きる⻑期記憶戦略が追加! • WebSocketにも対応し、割り込みや⾳声 ⼊⼒などにも柔軟に対応できるように!
  3. Policy in Amazon Bedrock AgentCore ポリシー⾔語であるCedarを使ってよりきめ細やかにツールの認可制御ができる ようになりました。AIエージェントが返⾦処理を実施するツールを利⽤する例を 考えてみます。 AIエージェント Gateway

    $50返⾦するで 返⾦ツール使うで ⾦額が $200未満 か 評価 OK 返⾦ ツール AIエージェント Gateway $1000返⾦するで 返⾦ツール使うで ⾦額が $200未満 か 評価 NG 返⾦ ツール ✖ ⚪ ポリシーに適合している場合 ポリシーに適合していない場合
  4. Amazon Bedrock AgentCore Evaluations 開発‧運⽤しているAIエージェントの評価がコンソール上からできるようになり ました。ダッシュボードからわかりやすく確認できます。LLMを使った評価 (LLM-as-a-Judge)となります。 AIエージェント ユーザー Gateway

    ⼤阪の天気を教え て 天気検索ツールを 使って返事する! (ツールの結果を踏まえて) 晴れです 天気検索 ツール リアルタイムでも質問に対 する適切な回答‧ツール選 択ができているかなど評価 ⼀連の 流れを 評価
  5. Amazon Bedrock AgentCore Evaluations 若⼲のラグはありつつもリアルタイムで評価も可能です。また、Starter Toolkitを 使えばオンデマンドでの評価も実現できます。評価を⾏ったとしても既存のエー ジェントの動作には影響がありません。 Online evaluation

    On-demand evaluation • リアルタイムでエージェント品質 を継続的にモニタリング可能、サ ンプリング率やフィルタ条件を指 定もできる。 • 評価結果はObservabilityのダッ シュボードからも確認可能 • 特定のセッションIDなどを指定し てオンデマンドで評価可能。 • Starter Toolkitで簡単に実⾏可能 どちらも運⽤中のエージェントには影響しない
  6. Appendix:具体的な評価項⽬① 具体的な以下の観点で評価可能です。これ以外でもカスタム評価も実装可能で す。 Session-level Evaluator (セッション全体を評価) • Goal Success Rate(⽬標達成率)

    ◦ 会話セッション全体を通じて、ユーザーの ⽬標が全て達成されたかを評価する Tool-level Evaluators (ツール呼び出しを評価) • Tool Parameter Accuracy(ツールパラ メータ正確性) ◦ ツール呼び出し時のパラメータが会話コン テキストから正しく取得されているかを評 価する • Tool Selection Accuracy(ツール選択正 確性) ◦ 状況に応じて適切なツールが選択されてい るかを評価する
  7. Trace-level Evaluators (各ターンの応答を評価) Appendix:具体的な評価項⽬② 具体的な以下の観点で評価可能です。これ以外でもカスタム評価も実装可能で す。 • Coherence(⼀貫性) ◦ 応答に論理的な⽭盾、⾶躍、⾃⼰⽭盾がない

    かを評価する • Conciseness(簡潔性) ◦ 必要な情報を最⼩限の⾔葉で伝えているか、冗 ⻑でないかを評価する • Context Relevance(コンテキスト関連性) ◦ RAGなどで取得したコンテキストが質問に適切 に関連しているかを評価する • Correctness(正確性) ◦ 応答内容が事実として正しいか、回答が正確 かを評価する • Faithfulness(忠実性) ◦ 応答が会話履歴やツール出⼒と⽭盾していな いかを評価する • Conciseness(簡潔性) ◦ 必要な情報を最⼩限の⾔葉で伝えているか、冗 ⻑でないかを評価する • Harmfulness(有害性) ◦ 侮辱、ヘイト、暴⼒、不適切な性的コンテン ツなど有害な内容が含まれていないかを評価 する
  8. Trace-level Evaluators (各ターンの応答を評価) 具体的な以下の観点で評価可能です。これ以外でもカスタム評価も実装可能で す。 • Helpfulness(有⽤性) ◦ ユーザーの⽬標達成に向けて、応答がどれだけ 役⽴っているかを評価する

    • Instruction Following(指⽰遵守) ◦ ユーザーの明⽰的な指⽰(形式、⻑さ、スタ イルなど)に従っているかを評価する • Refusal(拒否検出) ◦ エージェントがリクエストへの回答を拒否ま たは回避しているかを検出する • Response Relevance(応答関連性) ◦ 応答がユーザーの質問やリクエストに直接答 えているか、的外れでないかを評価する • Stereotyping(ステレオタイプ検出) ◦ 特定のグループに対する偏⾒やステレオタイプ 的な内容が含まれていないかを評価する Appendix:具体的な評価項⽬③
  9. Stands Agentsのアップデート Strands Agentsのアップデートも実⽤的なアップデートが多いです。TypeScript 対応は嬉しいですし、ステアリング機能は気になりますね。 TypeScript版がリリース(Preview) Evals SDK(experimental) Strands Agents

    SOP Strands Agents New Update • 待望のTypeScript版がプレビューリリー ス! • 現時点ではPython版と⽐較するとできな い機能も多々ある‧‧‧(同期予定) • 評価⽤のSDKがリリース! • 中断‧継続⼊⼒に対応したリアルタイム⾳ 声対話エージェント!(experimental) ステアリング機能(experimental) • AIエージェントの作業⼿順を⾃然⾔語で定 義‧再利⽤できる標準フォーマット! 双⽅向ストリーミング(experimental) • エージェントの動作中に適切なタイミン グで指⽰を与え、柔軟に軌道修正できる 仕組みがリリース!
  10. ステアリング機能 エージェントのライフサイクルの適切なタイミングでフィードバックを与え、 ワークフローのように処理をカッチリ定義せずとも望ましい結果に近づける機能 です。システムプロンプトに指⽰を仕込む必要はなく必要なタイミングで指⽰を 出せるのは嬉しいですね。 ユーザー お客様への返信 メールを作成して AIエージェント メール送信ツール

    メールの⽂章を考 えてツールで送信 するぞ、ツールを 使う前にステアリ ングあるやん ステアリング メールの⽂章は必ずポ ジティブに書くこと あ、⼀部ネガティ ブ表現がある、修 正するぞ、よし修 正してOKだから メール送る ツール利用前に参照