Amazon Bedrock で Claude 3.5 Sonnet v2 の
Computer use を試す
Slide 2
Slide 2 text
自己紹介
Slide 3
Slide 3 text
1. Computer Use API とは
Claude 3.5 Sonnet V2 の新機能(ベータ版)
生成系 AI が画面のスクショを見て、マウスカーソルの移動、クリック、キーボー
ド入力などの操作を実行可能
以下から利用可能:
Anthropic API
Amazon Bedrock
主な特徴:
スクリーンショットベース操作
マウス・キーボード制御
ブラウザ操作
Slide 4
Slide 4 text
2. Computer Use Demo について
Anthropic が提供する公式サンプルコード:
GitHub: anthropics/anthropic-quickstarts
Computer Use API を簡単に試せる環境を提供
デモ環境の特徴:
Docker コンテナで起動
Streamlit による Web UI が用意されており、Computer Use API を利用した画面操作
の様子が見れる
Slide 5
Slide 5 text
3. デモ
<別画面で動画を開く>
Slide 6
Slide 6 text
3. デモ
すごい!うごいた!
でも、どうやっているの?
Slide 7
Slide 7 text
4. Computer Use API の処理の流れ
処理の流れ:
1. 入力
2. Claude の処理
3. 実行
Slide 8
Slide 8 text
4. Computer Use API の処理の流れ
処理の流れ:
1. 入力
ユーザーからの指示(プロンプト)
画面のスクリーンショット
Anthropic が定義したツール
Computer Tool(マウス・キーボード操作)
Text Editor Tool(テキスト編集)
Bash Tool(コマンド実行)
2. Claude の処理
3. 実行
Slide 9
Slide 9 text
4. Computer Use API の処理の流れ
処理の流れ:
1. 入力
2. Claude の処理
スクリーンショットの解析
ユーザーからの指示を理解
適切なツールの選択
アクションのシミュレーションし実行すべき操
作を生成
3. 実行
Slide 10
Slide 10 text
4. Computer Use API の処理の流れ
処理の流れ:
1. 入力
2. Claude の処理
3. 実行
Claude から実行すべきコマンド・操作を受信
アプリケーション側で実際の操作を実装・実行
結果を新しいスクリーンショットとして取得
Slide 11
Slide 11 text
5. まとめ
1. Computer Use Demo を使うことで簡単に Computer Use API を試せる
2. Claude がやってくれるのはコマンドやアクションの生成まで
3. コマンドやアクションを実行するには自分たちが実装する必要があるが、サンプ
ルコードが充実しているのでそこまで難しくない