Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Gemini 2.5 Computer Use 入門

Gemini 2.5 Computer Use 入門

2025.10.10開催の社内勉強会にて発表

Transcript

  1. Contents • AIエージェントの課題 • Gemini 2.5 Computer Useとは • PC操作の

    自 動化ツールいろいろ • 動作原理 • 実装解説 • Browser Use との違い • まとめ
  2. • これまでのAIエージェントがアクションを実 行 するにはToolsの中でもAPIやMCPが主流だった • API: APIが提供されていないWebサイトやデスクトップアプリは操作できない「壁」 • RPA/Selenium: UI変更に弱く、メンテナンスコストが

    高 い「脆さ」 AIエージェントの課題 3 AIエージェントの基本構成 (DII 山 崎さんのクラウド勉強会資料より引 用 ) こういったフォーム操作はLLMや従来のToolsでは対応できない
  3. • Google DeepMindがリリースしたGeminiファミリーの新しいモデル • 自 然 言 語の指 示 に基づき、GUIを視覚的に理解して

    人 間のように操作するツール。AIに「 目 」と「 手 」を与える。 • クリック、テキスト 入力 、スクロールなど、基本的なPC操作を網羅しており、 人 間のような精度でエージェントがウェブページ やアプリケーションを操作できる機能を利 用 できるようになった。 • 信頼の源泉がDOMからピクセルへ→ 見 た 目 が変わらなければ、裏側のコードが変わっても動き続ける堅牢性を実現 Gemini 2.5 Computer Useとは 4 ref. https://blog.google/technology/google-deepmind/gemini-computer- use-model/ デモ: APIに対応していないサイトなどでフォーム 入力 が必要な場合でも 自 動化 ができる。「10 月 10 日 の20:00移 行 にアポイントを取って」というプロンプト
  4. • 過去に似たようなツールはいくつかでている。AnthropicのComputer Useが2024年10 月 にパブリックベータとして発表 • その3ヶ 月 後には2025年1 月

    にはOpenAIからOperatorが登場。ChatGPT経由でPC 自 動化が体験できる(ref) • 2025年8 月 下旬にはNECの 自 家製LLMのcotomiを使った「cotomi Act」がWebArenaでブラウジング操作成功率が 人 間超え PC操作の 自 動化ツールいろいろ 5 Operatorの中 身 はブラックボックスだが、Computer Useはオープンソースでありコンテナで実 行 する。 Operatorは”Computer-Using Agent(CUA)”で駆動 する。 全額返 金 のデモの様 子 (ref)。知覚→推論→アクションの3 工 程を繰り 返しながら 自 律的に動いていく。具体的には都度スクリーンショット でスナップショットを記録してコンテキストに 入 れることで、現在や 過去のアクションを考慮し次のステップを推論している。ログイン情 報の 入力 や CAPTCHA フォームへの回答などの機密性の 高 いアク ションについては、HITLでユーザーに確認を求める。 WebArenaでCUAやOperatorを超える性能を記録してい る。まだ試験運 用 中で、開発完了は2026年度中を 目 指して いるとのこと。
  5. • OpenAIのOperatorとも似ているが、スクリーンショットの情報を与えながら反復ループ処理しゴールまで向かう形式 • Geminiモデルはあくまで与えられたコンテキストを元に「ここを操作すると良いよ」という情報をFunction callingの形で返却す るだけ。実際のブラウザ操作やコンテキストの追加などは、クライアントサイドで 行 う(PlaywrightとBroswerbaseが対応)。 Gemini 2.5

    Computer Useモデルの動作原理 6 Gemini APIのTools定義に`computer_use`を宣 言 するだけ `function_call`として返却されるのでこの情報を元に、クライアントサイ ドでPlaywrightなどブラウザ操作する。具体的には、nameにはPC操作 の種類が 入 ってくるので条件分岐する。`type_text_at`は「ここにタイピ ングしろ」という指 示 。
  6. • VQA (Visual Question Answering): 「画像(スクリーンショット)」と「質問(指 示 )」を同時に理解し、回答を 生 成す

    る技術。Computer Useの肝。 ◦ 「画像(スクリーンショット)」と「質問(指 示 )」を同時に理解し、操作を導き出す技術 ◦ 「このログインボタンはどこ?」→「座標(x, y)です」 • GUI Grounding: 「ログインボタン」という 言 葉と、画 面 上の実際のボタン領域を紐付ける技術。 • Gemini Computer Useの強みはそのマルチモーダル性能の 高 さ故にDOM→ピクセルの堅牢な操作を実現したこと 技術的背景: VQA 8 • 1. ユーザーが指 示 「NVIDIAの株価を検索して」 • 2. エージェントが画 面 のスクリーンショットを取得 • 3. Gemini 2.5が画像と 言 語を同時に解析 • 4. 出 力 として具体的な操作コマンド(例: type(x,y, 'NVIDIA stock price ’ ))を 生 成 • 5. PC上でコマンドが実 行 される 動作例 操作する座標を提 示
  7. • 実装アプローチが全く異なっており、Browser Useはあくまで従来アプローチのDOMベースでHTML構造を解析し操作 • Computer UseはDOM構造は 見 ない。ただ 人 間が視覚として

    見 ている情報をそのままピクセルとして受け 入 れて判断 • なので、あらかじめDOM構造が決まっているサイトのスクレイピングなどはBrowser Useの 方 が早い • 一方 で、SPAはじめリッチなWeb表現や応 用力 ではComputer Useに軍配。Gemini Computer Useはモバイルアプリ対応も視野 Browser Use との違い 11 The Fastest Web Agent in the Worldと謳っている。確かに爆速 ref. https://browser-use.com/posts/llm-gateway
  8. • ツール連携: Computer Use単体ではなく、Tavily(Web検索)やURL Context(Web読解)と組み合わせることで真価を発 揮 • デモ 風 解説①(経費精算):

    ◦ Computer Useで社内システムにログイン → 経費申請画 面 を開く ◦ URL Contextで領収書の電 子 ファイルから 日 付・ 金 額を読み取る ◦ Computer Useで読み取った情報をフォームに 入力 し、申請ボタンをクリック • デモ 風 解説②(動的サイトからの情報収集): ◦ Computer UseでECサイトにアクセスし、「もっと 見 る」ボタンを数回クリックして全商品を表 示 させる ◦ URL Contextで表 示 された全商品のHTMLを解析し、商品名と価格を抽出 AIエージェントでの応 用 12
  9. • 自 動化はDOMからピクセル(コードから 見 た 目 )を理解するようになり、AIエージェントの視覚が強化された • Computer UseはGemini

    APIとして簡単に統合できるため、AIエージェントタスクにも応 用 が簡単 • 他のAIツールと連携することで、これまで 自 動化が難しかった業務を遂 行 可能になる • 現在はWebブラウザ最適化されているが、将来的にはモバイルアプリ操作も対応予定(Browser Useとの差別化) まとめ 13