Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Computer Use〜OpenAIとAnthropicの比較と将来の展望〜

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

Computer Use〜OpenAIとAnthropicの比較と将来の展望〜

More Decks by PharmaX(旧YOJO Technologies)開発チーム

Other Decks in Technology

Transcript

  1. (C)PharmaX Inc. 2025 All Rights Reserve 2 自己紹介 上野彰大 PharmaX共同創業者・エンジニアリング責任者

    好きな料理はオムライスと白湯とコーラ マイブームはLLMとRust X:@ueeeeniki
  2. 4 (C)PharmaX Inc. 2025 All Rights Reserve We're hiring!!! •

    AXカンパニーのカンパニーCTO • AXカンパニーのPdM などを募集しております!! 医療・ヘルスケア業界で AIエージェントを実装していく toB事業を行うAXカンパニーを立ち上げました
  3. (C)PharmaX Inc. 2025 All Rights Reserve 7 AIエージェントは SaaSを飲み込むか •

    AIエージェントがSaaSを操作するようになると、SaaSのUI/UXは人の使用を前提としていた時ほ どは競争優位性ではなくなる可能性はある ◦ SaaSは所詮データベースのラッパーに過ぎないと考えることもできる ◦ 社内業務用のSaaSを考えると、どのSaaSを使っても必要なデータが貯まれば同じという考 え方もできるようになる ◦ 一方で、人材系のマッチング(スカウト)ツールのように DBの量や質そのものに差がある場 合には、これまで通り十分価値になり得る • 既存SaaSをまたがって業務を自動化するAIエージェントの開発競争が始まる可能性あり ◦ 医療業界のように業務ごとにシステムが乱立していて、システム連携が難しいという問 題を強引に解決できる可能性もある computer/browser useによりAPI連携せずとも複数ツールをまたいだ操作の自動化が可能に
  4. (C)PharmaX Inc. 2025 All Rights Reserve 8 Anthropicのポケモン生配信によるマルチモーダル &推論モデルのデモ •

    利用可能なボタン操作は、 上,下,左,右 ,A,B,START,SELECT • アクションを選択する際にはどの アクションを取るのかを思考して 決定する • ゲーム内のメモリ値を渡している のではなく、画面の画像を渡して いる Claude 3.7 Sonnetにポケモンを使ってプレイさせ、ジムリーダー 3人の撃破に成功した
  5. (C)PharmaX Inc. 2025 All Rights Reserve 9 Computer/browser Useの課題 期待も大きいComputer

    Use/browserだが、実運用するには課題も多い • 現実的には動作速度もかなり遅く、ポケモンのプレイの例では、 17時間かかって(2つ目の街である)ニビ シティまでしか進んでいなかった ◦ ポケモンの例では拡張思考モードが使われており、次の行動を選ぶのに熟考を繰り返している ◦ 実際にcomputer useを使う場合には、PCを占有してしまうことになるので、処理速度の向上や仮想 環境での並列化などが求められる • コストの課題もまだ大きく、コスパ高く人の業務を代替させられるかはかなり怪しい水準 ◦ ポケモンの例では、3人目のジムリーダー撃破までに推定 35,000回以上のアクションを実行してお り、相当なコストがかかっているとされている • 視覚認識の精度や文脈の理解もまだ不安定なのでミスも多い ◦ どのようにして精度高く実行させるか?というところに工夫は必要 ◦ Computer/browser Useでもワークフローを組む方法は引き続き有効
  6. (C)PharmaX Inc. 2025 All Rights Reserve 10 推論:CUAは、現在および過去のスクリーン ショットや行動を考慮しながら、思考の連鎖を 用いて次のステップを推論します。この内なる

    独白により、モデルは観察結果を評価し、中 間ステップを追跡し、動的に適応することで、 タスクのパフォーマンスが向上します。 認識: コンピューターのスクリーンショットがモ デルのコンテキストに追加され、コンピュー ターの現在の状態の視覚的なスナップショット が提供されます。 Computer Use Agent(CUA)の仕組み 仮想環境 アクション スクリーンショット テキストでタスクを指示 インプット アクションを生成 アクション:クリック、スクロール、入力といった アクションを、タスクが完了したかユーザー入 力が必要と判断されるまで実行します。 CUA はほとんどのステップを自動的に処理します が、ログイン情報の入力や CAPTCHAフォーム への回答といった機密性の高いアクションに ついては、ユーザーの確認を求めます。 CUAは、生のピクセルデータを処理し、画面上で何が起こっているかを理解し、仮想マウスとキーボードを使用してアクションを実行します。複数のステップからなるタスク をナビゲートし、エラーを処理し、予期しない変更にも適応できます。 https://openai.com/index/computer-using-agent/ click(x,y)、scroll(delta)、 type("text") などを出力
  7. (C)PharmaX Inc. 2025 All Rights Reserve 11 Computer UseとBrowser Use

    現実的にはComputer Useの精度はBrowser Useと比べてもかなり低い https://openai.com/index/computer-using-agent/ オフラインでセルフホスト型のオープンソースウェブサイトを利用し、 eコマース、オンラインストアコンテンツ管理( CMS)、ソー シャルフォーラムプラットフォームなどの実際のシナリオを模倣する Amazon、GitHub、Googleマップなどのオンラインライブウェブサイトでモデルのパフォーマンスをテストする Ubuntu、Windows、macOSなどのオペレーティングシステム全体を制御するモデルの能力を評価する
  8. (C)PharmaX Inc. 2025 All Rights Reserve 12 CUAの安全性リスク Computer Use/browserは安全性へのリスクも非常に注目されている

    • 悪用(Misuse) ◦ 想定リスク:ギャンブルや違法取引、成人向けサイトなど不適切タスクへの利用 ◦ 主な緩和策 ▪ 拒否応答:CUA は危険または規制対象タスクを検知すると実行を拒否するよう訓練 ▪ ブロックリスト:賭博・銃器・アダルト等、事前に指定したドメインにはアクセス不可 • モデルの誤動作(Model Mistakes) ◦ 想定リスク:誤クリックでメール誤送信や誤購入、削除操作、フィッシングに引っかかるなど ◦ 主な緩和策 ▪ ユーザー確認:決済や送信など外部に影響する操作前に必ず確認ダイアログで同意を取る ▪ 高リスク作業の制限:銀行取引など機微なタスクは現在サポート外として拒否 ▪ ウォッチモード:メール等センシティブなサイトでは常にユーザーの画面監視を要求 • フロンティア・リスク(Frontier Risks) ◦ 想定される害 ◦ 主な緩和策 ▪ Preparedness Framework 評価 ― 自律複製やバイオリスク支援などの高度リスクについて GPT-4o から追加 の危険がないと検証済み
  9. (C)PharmaX Inc. 2025 All Rights Reserve 14 • OpenAI ◦

    https://github.com/openai/openai-cua-sample-app ◦ playwrightを使用してブラウザ操作する • Claude ◦ https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo ◦ 仮想環境を立ち上げて computer useする OpenAIとAnthropicのデモ 期待も大きいComputer Use/browserだが、実運用するには課題も多い