Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Computer Use〜OpenAIとAnthropicの比較と将来の展望〜
Search
PharmaX(旧YOJO Technologies)開発チーム
May 01, 2025
Technology
1.4k
6
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Computer Use〜OpenAIとAnthropicの比較と将来の展望〜
PharmaX(旧YOJO Technologies)開発チーム
May 01, 2025
More Decks by PharmaX(旧YOJO Technologies)開発チーム
See All by PharmaX(旧YOJO Technologies)開発チーム
PdMによるLiveバイブコーディング〜プロトタイプ開発実践〜
pharma_x_tech
1
81
2025.10.28_CodexとClaude Codeの比較検討 社内座談会
pharma_x_tech
2
630
LLMのアウトプットの評価と改善 〜DSPyによるプロンプト最適化入門によせて〜
pharma_x_tech
6
1.2k
2025.09.02_AIコーディングを利用した開発自動化を目指しての座談会
pharma_x_tech
5
350
AIコーディングを前提にした開発プロセス再設計〜開発生産性向上に向けた試行錯誤〜
pharma_x_tech
4
450
AIエージェントの評価・改善サイクル
pharma_x_tech
2
620
MCP & Computer Useをフル活用した社内効率化事例〜現在地と将来の展望
pharma_x_tech
1
460
AIエージェントの継続的改善のためオブザーバビリティ
pharma_x_tech
7
2.7k
Roo CodeとClaude Code比較してみた
pharma_x_tech
5
6.3k
Other Decks in Technology
See All in Technology
攻撃者がいなくてもAIエージェントはインシデントを起こす
nomizone
0
150
AIは、人間らしい仕事の夢を見るか?─ AI時代のtoB/toEプロダクトを再設計する
techtekt
PRO
0
160
AI時代のコスト管理を考えよう〜明日から使える実践AWSノウハウ~
yoshimi0227
0
970
Why is RC4 still being used?
tamaiyutaro
0
190
フルAIで個人開発して学んだあれこれ / yuruai vol.1
isaoshimizu
0
160
NDIAS CTF 2026 問題解説会資料
bata_24
0
110
製造現場での生成AIの活用、およびエージェントAIの実装のあり方、AVEVAの取り組み
iotcomjpadmin
0
180
AIエージェントとPhysical AIが拓く製造業の変革(ハノーバーメッセリキャップ)
iotcomjpadmin
0
170
本当の”仕事”を手放せる未来が見えた
mu7889yoon
0
200
MySQL & MySQL HeatWave Report - June 2026
freshdaz
0
220
週末にループ・エンジニアリングの理解を深めるためのスライド
nagatsu
0
640
水を運ぶ人としてのリーダーシップ
izumii19
4
1.1k
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
330
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.2k
A Soul's Torment
seathinner
6
3k
Building an army of robots
kneath
306
46k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
Git: the NoSQL Database
bkeepers
PRO
432
67k
Balancing Empowerment & Direction
lara
6
1.2k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
750
Chasing Engaging Ingredients in Design
codingconduct
0
230
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
Transcript
2025.5.1 #studyco Computer Use〜OpenAIと Anthropicの比較と将来の展望〜
(C)PharmaX Inc. 2025 All Rights Reserve 2 自己紹介 上野彰大 PharmaX共同創業者・エンジニアリング責任者
好きな料理はオムライスと白湯とコーラ マイブームはLLMとRust X:@ueeeeniki
(C)PharmaX Inc. 2025 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催
4 (C)PharmaX Inc. 2025 All Rights Reserve We're hiring!!! •
AXカンパニーのカンパニーCTO • AXカンパニーのPdM などを募集しております!! 医療・ヘルスケア業界で AIエージェントを実装していく toB事業を行うAXカンパニーを立ち上げました
5 (C)PharmaX Inc. 2025 All Rights Reserve Computer Useについて
(C)PharmaX Inc. 2025 All Rights Reserve 6 Computer Useのデモ Anthropicのデモでは仮想環境を使っている
(C)PharmaX Inc. 2025 All Rights Reserve 7 AIエージェントは SaaSを飲み込むか •
AIエージェントがSaaSを操作するようになると、SaaSのUI/UXは人の使用を前提としていた時ほ どは競争優位性ではなくなる可能性はある ◦ SaaSは所詮データベースのラッパーに過ぎないと考えることもできる ◦ 社内業務用のSaaSを考えると、どのSaaSを使っても必要なデータが貯まれば同じという考 え方もできるようになる ◦ 一方で、人材系のマッチング(スカウト)ツールのように DBの量や質そのものに差がある場 合には、これまで通り十分価値になり得る • 既存SaaSをまたがって業務を自動化するAIエージェントの開発競争が始まる可能性あり ◦ 医療業界のように業務ごとにシステムが乱立していて、システム連携が難しいという問 題を強引に解決できる可能性もある computer/browser useによりAPI連携せずとも複数ツールをまたいだ操作の自動化が可能に
(C)PharmaX Inc. 2025 All Rights Reserve 8 Anthropicのポケモン生配信によるマルチモーダル &推論モデルのデモ •
利用可能なボタン操作は、 上,下,左,右 ,A,B,START,SELECT • アクションを選択する際にはどの アクションを取るのかを思考して 決定する • ゲーム内のメモリ値を渡している のではなく、画面の画像を渡して いる Claude 3.7 Sonnetにポケモンを使ってプレイさせ、ジムリーダー 3人の撃破に成功した
(C)PharmaX Inc. 2025 All Rights Reserve 9 Computer/browser Useの課題 期待も大きいComputer
Use/browserだが、実運用するには課題も多い • 現実的には動作速度もかなり遅く、ポケモンのプレイの例では、 17時間かかって(2つ目の街である)ニビ シティまでしか進んでいなかった ◦ ポケモンの例では拡張思考モードが使われており、次の行動を選ぶのに熟考を繰り返している ◦ 実際にcomputer useを使う場合には、PCを占有してしまうことになるので、処理速度の向上や仮想 環境での並列化などが求められる • コストの課題もまだ大きく、コスパ高く人の業務を代替させられるかはかなり怪しい水準 ◦ ポケモンの例では、3人目のジムリーダー撃破までに推定 35,000回以上のアクションを実行してお り、相当なコストがかかっているとされている • 視覚認識の精度や文脈の理解もまだ不安定なのでミスも多い ◦ どのようにして精度高く実行させるか?というところに工夫は必要 ◦ Computer/browser Useでもワークフローを組む方法は引き続き有効
(C)PharmaX Inc. 2025 All Rights Reserve 10 推論:CUAは、現在および過去のスクリーン ショットや行動を考慮しながら、思考の連鎖を 用いて次のステップを推論します。この内なる
独白により、モデルは観察結果を評価し、中 間ステップを追跡し、動的に適応することで、 タスクのパフォーマンスが向上します。 認識: コンピューターのスクリーンショットがモ デルのコンテキストに追加され、コンピュー ターの現在の状態の視覚的なスナップショット が提供されます。 Computer Use Agent(CUA)の仕組み 仮想環境 アクション スクリーンショット テキストでタスクを指示 インプット アクションを生成 アクション:クリック、スクロール、入力といった アクションを、タスクが完了したかユーザー入 力が必要と判断されるまで実行します。 CUA はほとんどのステップを自動的に処理します が、ログイン情報の入力や CAPTCHAフォーム への回答といった機密性の高いアクションに ついては、ユーザーの確認を求めます。 CUAは、生のピクセルデータを処理し、画面上で何が起こっているかを理解し、仮想マウスとキーボードを使用してアクションを実行します。複数のステップからなるタスク をナビゲートし、エラーを処理し、予期しない変更にも適応できます。 https://openai.com/index/computer-using-agent/ click(x,y)、scroll(delta)、 type("text") などを出力
(C)PharmaX Inc. 2025 All Rights Reserve 11 Computer UseとBrowser Use
現実的にはComputer Useの精度はBrowser Useと比べてもかなり低い https://openai.com/index/computer-using-agent/ オフラインでセルフホスト型のオープンソースウェブサイトを利用し、 eコマース、オンラインストアコンテンツ管理( CMS)、ソー シャルフォーラムプラットフォームなどの実際のシナリオを模倣する Amazon、GitHub、Googleマップなどのオンラインライブウェブサイトでモデルのパフォーマンスをテストする Ubuntu、Windows、macOSなどのオペレーティングシステム全体を制御するモデルの能力を評価する
(C)PharmaX Inc. 2025 All Rights Reserve 12 CUAの安全性リスク Computer Use/browserは安全性へのリスクも非常に注目されている
• 悪用(Misuse) ◦ 想定リスク:ギャンブルや違法取引、成人向けサイトなど不適切タスクへの利用 ◦ 主な緩和策 ▪ 拒否応答:CUA は危険または規制対象タスクを検知すると実行を拒否するよう訓練 ▪ ブロックリスト:賭博・銃器・アダルト等、事前に指定したドメインにはアクセス不可 • モデルの誤動作(Model Mistakes) ◦ 想定リスク:誤クリックでメール誤送信や誤購入、削除操作、フィッシングに引っかかるなど ◦ 主な緩和策 ▪ ユーザー確認:決済や送信など外部に影響する操作前に必ず確認ダイアログで同意を取る ▪ 高リスク作業の制限:銀行取引など機微なタスクは現在サポート外として拒否 ▪ ウォッチモード:メール等センシティブなサイトでは常にユーザーの画面監視を要求 • フロンティア・リスク(Frontier Risks) ◦ 想定される害 ◦ 主な緩和策 ▪ Preparedness Framework 評価 ― 自律複製やバイオリスク支援などの高度リスクについて GPT-4o から追加 の危険がないと検証済み
(C)PharmaX Inc. 2025 All Rights Reserve 13 CUAのリスク対策 悪用対策:有害なタスクの拒否 モデルの誤動作対策:確認
https://openai.com/index/operator-system-card/
(C)PharmaX Inc. 2025 All Rights Reserve 14 • OpenAI ◦
https://github.com/openai/openai-cua-sample-app ◦ playwrightを使用してブラウザ操作する • Claude ◦ https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo ◦ 仮想環境を立ち上げて computer useする OpenAIとAnthropicのデモ 期待も大きいComputer Use/browserだが、実運用するには課題も多い