Computer Use〜OpenAIとAnthropicの比較と将来の展望〜

2025.5.1 #studyco Computer Use〜OpenAIと Anthropicの比較と将来の展望〜

（C）PharmaX Inc. 2025 All Rights Reserve 2 自己紹介上野彰大 PharmaX共同創業者・エンジニアリング責任者
好きな料理はオムライスと白湯とコーラマイブームはLLMとRust X：@ueeeeniki

（C）PharmaX Inc. 2025 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催

4 （C）PharmaX Inc. 2025 All Rights Reserve We're hiring!!! •
AXカンパニーのカンパニーCTO • AXカンパニーのPdM などを募集しております！！医療・ヘルスケア業界で AIエージェントを実装していく toB事業を行うAXカンパニーを立ち上げました

5 （C）PharmaX Inc. 2025 All Rights Reserve Computer Useについて

（C）PharmaX Inc. 2025 All Rights Reserve 6 Computer Useのデモ Anthropicのデモでは仮想環境を使っている

（C）PharmaX Inc. 2025 All Rights Reserve 7 AIエージェントは SaaSを飲み込むか •
AIエージェントがSaaSを操作するようになると、SaaSのUI/UXは人の使用を前提としていた時ほどは競争優位性ではなくなる可能性はある ◦ SaaSは所詮データベースのラッパーに過ぎないと考えることもできる ◦ 社内業務用のSaaSを考えると、どのSaaSを使っても必要なデータが貯まれば同じという考え方もできるようになる ◦ 一方で、人材系のマッチング（スカウト）ツールのように DBの量や質そのものに差がある場合には、これまで通り十分価値になり得る • 既存SaaSをまたがって業務を自動化するAIエージェントの開発競争が始まる可能性あり ◦ 医療業界のように業務ごとにシステムが乱立していて、システム連携が難しいという問題を強引に解決できる可能性もある computer/browser useによりAPI連携せずとも複数ツールをまたいだ操作の自動化が可能に

（C）PharmaX Inc. 2025 All Rights Reserve 8 Anthropicのポケモン生配信によるマルチモーダル &推論モデルのデモ •
利用可能なボタン操作は、上，下，左，右，A，B，START，SELECT • アクションを選択する際にはどのアクションを取るのかを思考して決定する • ゲーム内のメモリ値を渡しているのではなく、画面の画像を渡している Claude 3.7 Sonnetにポケモンを使ってプレイさせ、ジムリーダー 3人の撃破に成功した

（C）PharmaX Inc. 2025 All Rights Reserve 9 Computer/browser Useの課題期待も大きいComputer
Use/browserだが、実運用するには課題も多い • 現実的には動作速度もかなり遅く、ポケモンのプレイの例では、 17時間かかって（2つ目の街である）ニビシティまでしか進んでいなかった ◦ ポケモンの例では拡張思考モードが使われており、次の行動を選ぶのに熟考を繰り返している ◦ 実際にcomputer useを使う場合には、PCを占有してしまうことになるので、処理速度の向上や仮想環境での並列化などが求められる • コストの課題もまだ大きく、コスパ高く人の業務を代替させられるかはかなり怪しい水準 ◦ ポケモンの例では、3人目のジムリーダー撃破までに推定 35,000回以上のアクションを実行しており、相当なコストがかかっているとされている • 視覚認識の精度や文脈の理解もまだ不安定なのでミスも多い ◦ どのようにして精度高く実行させるか？というところに工夫は必要 ◦ Computer/browser Useでもワークフローを組む方法は引き続き有効

（C）PharmaX Inc. 2025 All Rights Reserve 10 推論：CUAは、現在および過去のスクリーンショットや行動を考慮しながら、思考の連鎖を用いて次のステップを推論します。この内なる
独白により、モデルは観察結果を評価し、中間ステップを追跡し、動的に適応することで、タスクのパフォーマンスが向上します。認識: コンピューターのスクリーンショットがモデルのコンテキストに追加され、コンピューターの現在の状態の視覚的なスナップショットが提供されます。 Computer Use Agent（CUA）の仕組み仮想環境アクションスクリーンショットテキストでタスクを指示インプットアクションを生成アクション：クリック、スクロール、入力といったアクションを、タスクが完了したかユーザー入力が必要と判断されるまで実行します。 CUA はほとんどのステップを自動的に処理しますが、ログイン情報の入力や CAPTCHAフォームへの回答といった機密性の高いアクションについては、ユーザーの確認を求めます。 CUAは、生のピクセルデータを処理し、画面上で何が起こっているかを理解し、仮想マウスとキーボードを使用してアクションを実行します。複数のステップからなるタスクをナビゲートし、エラーを処理し、予期しない変更にも適応できます。 https://openai.com/index/computer-using-agent/ click(x,y)、scroll(delta)、 type("text") などを出力

（C）PharmaX Inc. 2025 All Rights Reserve 11 Computer UseとBrowser Use
現実的にはComputer Useの精度はBrowser Useと比べてもかなり低い https://openai.com/index/computer-using-agent/ オフラインでセルフホスト型のオープンソースウェブサイトを利用し、 eコマース、オンラインストアコンテンツ管理（ CMS）、ソーシャルフォーラムプラットフォームなどの実際のシナリオを模倣する Amazon、GitHub、Googleマップなどのオンラインライブウェブサイトでモデルのパフォーマンスをテストする Ubuntu、Windows、macOSなどのオペレーティングシステム全体を制御するモデルの能力を評価する

（C）PharmaX Inc. 2025 All Rights Reserve 12 CUAの安全性リスク Computer Use/browserは安全性へのリスクも非常に注目されている
• 悪用（Misuse） ◦ 想定リスク：ギャンブルや違法取引、成人向けサイトなど不適切タスクへの利用 ◦ 主な緩和策 ▪ 拒否応答：CUA は危険または規制対象タスクを検知すると実行を拒否するよう訓練 ▪ ブロックリスト：賭博・銃器・アダルト等、事前に指定したドメインにはアクセス不可 • モデルの誤動作（Model Mistakes） ◦ 想定リスク：誤クリックでメール誤送信や誤購入、削除操作、フィッシングに引っかかるなど ◦ 主な緩和策 ▪ ユーザー確認：決済や送信など外部に影響する操作前に必ず確認ダイアログで同意を取る ▪ 高リスク作業の制限：銀行取引など機微なタスクは現在サポート外として拒否 ▪ ウォッチモード：メール等センシティブなサイトでは常にユーザーの画面監視を要求 • フロンティア・リスク（Frontier Risks） ◦ 想定される害 ◦ 主な緩和策 ▪ Preparedness Framework 評価 ― 自律複製やバイオリスク支援などの高度リスクについて GPT-4o から追加の危険がないと検証済み

（C）PharmaX Inc. 2025 All Rights Reserve 13 CUAのリスク対策悪用対策：有害なタスクの拒否モデルの誤動作対策：確認
https://openai.com/index/operator-system-card/

（C）PharmaX Inc. 2025 All Rights Reserve 14 • OpenAI ◦
https://github.com/openai/openai-cua-sample-app ◦ playwrightを使用してブラウザ操作する • Claude ◦ https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo ◦ 仮想環境を立ち上げて computer useする OpenAIとAnthropicのデモ期待も大きいComputer Use/browserだが、実運用するには課題も多い

Computer Use〜OpenAIとAnthropicの比較と将来の展望〜

Computer Use〜OpenAIとAnthropicの比較と将来の展望〜

PharmaX（旧YOJO Technologies）開発チーム

More Decks by PharmaX（旧YOJO Technologies）開発チーム

Other Decks in Technology

Featured

Transcript

2025.5.1 #studyco Computer Use〜OpenAIと Anthropicの比較と将来の展望〜

（C）PharmaX Inc. 2025 All Rights Reserve 2 自己紹介上野彰大 PharmaX共同創業者・エンジニアリング責任者

（C）PharmaX Inc. 2025 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催

4 （C）PharmaX Inc. 2025 All Rights Reserve We're hiring!!! •

5 （C）PharmaX Inc. 2025 All Rights Reserve Computer Useについて

（C）PharmaX Inc. 2025 All Rights Reserve 6 Computer Useのデモ Anthropicのデモでは仮想環境を使っている

（C）PharmaX Inc. 2025 All Rights Reserve 7 AIエージェントは SaaSを飲み込むか •

（C）PharmaX Inc. 2025 All Rights Reserve 8 Anthropicのポケモン生配信によるマルチモーダル &推論モデルのデモ •

（C）PharmaX Inc. 2025 All Rights Reserve 9 Computer/browser Useの課題期待も大きいComputer

（C）PharmaX Inc. 2025 All Rights Reserve 10 推論：CUAは、現在および過去のスクリーンショットや行動を考慮しながら、思考の連鎖を用いて次のステップを推論します。この内なる

（C）PharmaX Inc. 2025 All Rights Reserve 11 Computer UseとBrowser Use

（C）PharmaX Inc. 2025 All Rights Reserve 12 CUAの安全性リスク Computer Use/browserは安全性へのリスクも非常に注目されている

（C）PharmaX Inc. 2025 All Rights Reserve 13 CUAのリスク対策悪用対策：有害なタスクの拒否モデルの誤動作対策：確認

（C）PharmaX Inc. 2025 All Rights Reserve 14 • OpenAI ◦