Slide 1

Slide 1 text

Amazon Bedrock で Claude 3.5 Sonnet v2 の Computer use を試す

Slide 2

Slide 2 text

自己紹介

Slide 3

Slide 3 text

1. Computer Use API とは Claude 3.5 Sonnet V2 の新機能(ベータ版) 生成系 AI が画面のスクショを見て、マウスカーソルの移動、クリック、キーボー ド入力などの操作を実行可能 以下から利用可能: Anthropic API Amazon Bedrock 主な特徴: スクリーンショットベース操作 マウス・キーボード制御 ブラウザ操作

Slide 4

Slide 4 text

2. Computer Use Demo について Anthropic が提供する公式サンプルコード: GitHub: anthropics/anthropic-quickstarts Computer Use API を簡単に試せる環境を提供 デモ環境の特徴: Docker コンテナで起動 Streamlit による Web UI が用意されており、Computer Use API を利用した画面操作 の様子が見れる

Slide 5

Slide 5 text

3. デモ <別画面で動画を開く>

Slide 6

Slide 6 text

3. デモ すごい!うごいた! でも、どうやっているの?

Slide 7

Slide 7 text

4. Computer Use API の処理の流れ 処理の流れ: 1. 入力 2. Claude の処理 3. 実行

Slide 8

Slide 8 text

4. Computer Use API の処理の流れ 処理の流れ: 1. 入力 ユーザーからの指示(プロンプト) 画面のスクリーンショット Anthropic が定義したツール Computer Tool(マウス・キーボード操作) Text Editor Tool(テキスト編集) Bash Tool(コマンド実行) 2. Claude の処理 3. 実行

Slide 9

Slide 9 text

4. Computer Use API の処理の流れ 処理の流れ: 1. 入力 2. Claude の処理 スクリーンショットの解析 ユーザーからの指示を理解 適切なツールの選択 アクションのシミュレーションし実行すべき操 作を生成 3. 実行

Slide 10

Slide 10 text

4. Computer Use API の処理の流れ 処理の流れ: 1. 入力 2. Claude の処理 3. 実行 Claude から実行すべきコマンド・操作を受信 アプリケーション側で実際の操作を実装・実行 結果を新しいスクリーンショットとして取得

Slide 11

Slide 11 text

5. まとめ 1. Computer Use Demo を使うことで簡単に Computer Use API を試せる 2. Claude がやってくれるのはコマンドやアクションの生成まで 3. コマンドやアクションを実行するには自分たちが実装する必要があるが、サンプ ルコードが充実しているのでそこまで難しくない