Amazon BedrockでClaude 3.5 Sonnet v2のComputer useを試す

Slide 1

Slide 1 text

Amazon Bedrock で Claude 3.5 Sonnet v2 の Computer use を試す

Slide 2

Slide 2 text

自己紹介

Slide 3

Slide 3 text

1. Computer Use API とは Claude 3.5 Sonnet V2 の新機能（ベータ版）生成系 AI が画面のスクショを見て、マウスカーソルの移動、クリック、キーボード入力などの操作を実行可能以下から利用可能: Anthropic API Amazon Bedrock 主な特徴: スクリーンショットベース操作マウス・キーボード制御ブラウザ操作

Slide 4

Slide 4 text

2. Computer Use Demo について Anthropic が提供する公式サンプルコード: GitHub: anthropics/anthropic-quickstarts Computer Use API を簡単に試せる環境を提供デモ環境の特徴: Docker コンテナで起動 Streamlit による Web UI が用意されており、Computer Use API を利用した画面操作の様子が見れる

Slide 5

Slide 5 text

3. デモ <別画面で動画を開く>

Slide 6

Slide 6 text

3. デモすごい！うごいた！でも、どうやっているの？

Slide 7

Slide 7 text

4. Computer Use API の処理の流れ処理の流れ: 1. 入力 2. Claude の処理 3. 実行

Slide 8

Slide 8 text

4. Computer Use API の処理の流れ処理の流れ: 1. 入力ユーザーからの指示（プロンプト）画面のスクリーンショット Anthropic が定義したツール Computer Tool（マウス・キーボード操作） Text Editor Tool（テキスト編集） Bash Tool（コマンド実行） 2. Claude の処理 3. 実行

Slide 9

Slide 9 text

4. Computer Use API の処理の流れ処理の流れ: 1. 入力 2. Claude の処理スクリーンショットの解析ユーザーからの指示を理解適切なツールの選択アクションのシミュレーションし実行すべき操作を生成 3. 実行

Slide 10

Slide 10 text

4. Computer Use API の処理の流れ処理の流れ: 1. 入力 2. Claude の処理 3. 実行 Claude から実行すべきコマンド・操作を受信アプリケーション側で実際の操作を実装・実行結果を新しいスクリーンショットとして取得

Slide 11

Slide 11 text

5. まとめ 1. Computer Use Demo を使うことで簡単に Computer Use API を試せる 2. Claude がやってくれるのはコマンドやアクションの生成まで 3. コマンドやアクションを実行するには自分たちが実装する必要があるが、サンプルコードが充実しているのでそこまで難しくない