Slide 1

Slide 1 text

山田 顕人 Amazon Bedrockで ブラウザを操作するAIエージェントを作ってみた 2025/02/14 アイレット株式会社 クラウドインテグレーション事業部 MSP開発セクション

Slide 2

Slide 2 text

自己紹介 2 山田顕人(Kento.Yamada) @ymd65536 所属:アイレット株式会社 仕事:次世代監視基盤(AMS)の開発、クラウドの運用分析 ロール:クラウドエンジニア/デベロッパー 活動:.NETラボ勉強会運営 受賞歴 Google Cloud Partner Top Engineer 2025 DataAnalytics(2024年〜) Google Cloud Partner Tech Blog Challenge 2023 Cloud AI/ML 部門 LINE API Expert(2024年〜) Microsoft MVP for Developer Technologies(2024年〜) LAPRAS OUTPUT AWARD 2024 01

Slide 3

Slide 3 text

3 OpenAI Claude Google DeepMind

Slide 4

Slide 4 text

4 AIによるブラウザ操作とは

Slide 5

Slide 5 text

AIがブラウザを操作するってどう考えたらいいのか 5 受けた指示を元にツールやファンクションの実行を代行する。 指示(プロンプト) アクション Tool Use

Slide 6

Slide 6 text

つまりどういうこと( 1つの考えを述べると) 6 プロンプトの内容を元にTool Useを使ってブラウザの操作を実行する。 ブラウザを起動して ブラウザを起動 Tool Use

Slide 7

Slide 7 text

Amazon Bedrockによる実装 7 Converse APIとAmazon Bedrock Tool Useを使ってWebDriverにリクエストを送る 参考:https://qiita.com/ymd65536/items/5f747a9a7c9e0deda84d

Slide 8

Slide 8 text

Amazon Bedrockによる実装 8 AWS SDK for Python(boto3)で簡単に実装できる 1. 関数定義 2. 関数のtoolSpecを作成 3. Converse APIを実行 ※model_Id、プロンプト、toolconfig、inferrence_configが必要

Slide 9

Slide 9 text

関数定義 (Amazon Bedrockによる実装) 9

Slide 10

Slide 10 text

関数のtoolSpecを作成(Amazon Bedrockによる実装) 10

Slide 11

Slide 11 text

Converse APIを実行(Amazon Bedrockによる実装) 11

Slide 12

Slide 12 text

AIによるブラウザ操作を実装する際の注意点 12 ● 本番環境においてはサンドボックス環境でやること ● 検証や開発環境で実行する場合はリスクを承知の上で実行すること ● Webスクレイピングを実行する場合はアクセス先の利用規約を確認すること ● アクセス先に高負荷を与えないこと

Slide 13

Slide 13 text

13 デモ

Slide 14

Slide 14 text

14

Slide 15

Slide 15 text

その他の実装 15 参考:https://speakerdeck.com/ymd65536/microsoftnoossdakedeainiyoruburauzatesutowogou-cheng-suru

Slide 16

Slide 16 text

AIエージェントの理想系 16 抽象的なプロンプトを元にToolを使ってブラウザの操作を実行する。 指示(プロンプト) アクション ツール実行 上記は簡単な例だが、アクセス先には必ず認証があるため実際にはもっと複雑 従来のデジタルアイデンティではなく、 AIエージェントにおけるデジタルアイデンティティも必要 フォームにメールアドレスと名前を入力して登録をクリックしてください。 登録した内容をカレンダーにリマインダーとして登録してください。

Slide 17

Slide 17 text

余談:AIエージェントの認証・認可のフレームワーク 17 引用:https://www.arxiv.org/abs/2501.09674

Slide 18

Slide 18 text

余談:あの OktaがGenAI向けサービスを開発 18 Auth0 AI: https://www.auth0.ai/

Slide 19

Slide 19 text

まとめ 19 ● ブラウザを操作するAIエージェントのトレンドを確認したよ ● Bedrockベースでブラウザを操作するAIエージェントを開発したよ ● AIエージェントの理想系について確認したよ

Slide 20

Slide 20 text

20 参考:ブラウザを操作する AIエージェントの話

Slide 21

Slide 21 text

OpenAIからついにキタ! Operator 21 引用:https://openai.com/index/introducing-operator/

Slide 22

Slide 22 text

AnthropicからはComputer use (beta) 22 引用: https://docs.anthropic.com/en/docs/build-with-claude/computer-use

Slide 23

Slide 23 text

Google DeepMindからはProject Mariner 23 引用: https://deepmind.google/technologies/project-mariner/