る技術。Computer Useの肝。 ◦ 「画像(スクリーンショット)」と「質問(指 示 )」を同時に理解し、操作を導き出す技術 ◦ 「このログインボタンはどこ?」→「座標(x, y)です」 • GUI Grounding: 「ログインボタン」という 言 葉と、画 面 上の実際のボタン領域を紐付ける技術。 • Gemini Computer Useの強みはそのマルチモーダル性能の 高 さ故にDOM→ピクセルの堅牢な操作を実現したこと 技術的背景: VQA 8 • 1. ユーザーが指 示 「NVIDIAの株価を検索して」 • 2. エージェントが画 面 のスクリーンショットを取得 • 3. Gemini 2.5が画像と 言 語を同時に解析 • 4. 出 力 として具体的な操作コマンド(例: type(x,y, 'NVIDIA stock price ’ ))を 生 成 • 5. PC上でコマンドが実 行 される 動作例 操作する座標を提 示