Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMを使ったブラウザ操作紹介
Search
Yuki Matsukura
February 03, 2025
Technology
0
21
LLMを使ったブラウザ操作紹介
社内での15分のプレゼン用資料
Marpで作りました。
Yuki Matsukura
February 03, 2025
Tweet
Share
More Decks by Yuki Matsukura
See All by Yuki Matsukura
IRONMAN World Championshipを旅行としてもオススメする理由
matsubo
0
68
Practice for AWS access key leakage.
matsubo
0
420
Other Decks in Technology
See All in Technology
相互運用可能な学修歴クレデンシャルに向けた標準技術と国際動向
fujie
0
250
はじめての転職講座/The Guide of First Career Change
kwappa
5
4k
Kiroでインフラ要件定義~テスト を実施してみた
nagisa53
3
360
家族の思い出を形にする 〜 1秒動画の生成を支えるインフラアーキテクチャ
ojima_h
3
1.2k
AIエージェントを現場で使う / 2025.08.07 著者陣に聞く!現場で活用するためのAIエージェント実践入門(Findyランチセッション)
smiyawaki0820
6
1.1k
LTに影響を受けてテンプレリポジトリを作った話
hol1kgmg
0
370
【新卒研修資料】数理最適化 / Mathematical Optimization
brainpadpr
27
13k
Lambda management with ecspresso and Terraform
ijin
2
160
2時間で300+テーブルをデータ基盤に連携するためのAI活用 / FukuokaDataEngineer
sansan_randd
0
160
【OptimizationNight】数理最適化のラストワンマイルとしてのUIUX
brainpadpr
2
480
Strands Agents & Bedrock AgentCoreを1分でおさらい
minorun365
PRO
8
340
[OCI Technical Deep Dive] OracleのAI戦略(2025年8月5日開催)
oracle4engineer
PRO
1
170
Featured
See All Featured
Building an army of robots
kneath
306
45k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Gamification - CAS2011
davidbonilla
81
5.4k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Build The Right Thing And Hit Your Dates
maggiecrowley
37
2.8k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
Git: the NoSQL Database
bkeepers
PRO
431
65k
Bash Introduction
62gerente
614
210k
Transcript
LLMを使ったブラウザ操作紹介 @matsubokkuri AI朝会 2025/2/4 @matsubokkuri
サマリー 発表の目的 LLMを利用したブラウザ操作アプリと現状を紹介 概要 LLMがブラウザを使えるとできることの例 LLMブラウザでできることの事例 3つのブラウザ操作ツールの紹介 マインディアビジネス、業務への示唆、効果 RPAが作れそう 2
AI朝会 2025/2/4 @matsubokkuri
LLMを使ったブラウザ操作とは 「抽象的な指示の元、LLMが自律的にブラウザ 操作を行ってゴールへ向かって進む。 」 3 AI朝会 2025/2/4 @matsubokkuri
ブラウザが使えるとなにが嬉しいのか? => LLM(脳)に目と手が追加される 4 AI朝会 2025/2/4 @matsubokkuri
OpenAIがOperatorを発表 日本では未だ公開されていない。専用アプリの中でブラウザが立ち上がって いるっぽい。 5 AI朝会 2025/2/4 @matsubokkuri
紹介されているユースケース タスク自動化 繰り返し業務の自動処理 複数アプリケーション間のワークフロー連携 インテリジェントアシスタント 自然言語でのユーザー問い合わせへの即時応答 個人スケジュール管理とリマインダー設定 データ分析支援 大規模データセットからの傾向抽出 予測モデルの自動構築と可視化
開発者向けツール コード生成とデバッグ支援 API連携の自動セットアップ カスタマーサポート 6 AI朝会 2025/2/4 @matsubokkuri
事例 みんなで飲みにいくんですけど、Devinさんも来ます? - Devin観察日記 居酒屋のWeb注文QRコードを読んで、口頭で注文を指示するとよしなに画面 遷移して注文。 7 AI朝会 2025/2/4 @matsubokkuri
既存のツール OpenHands: LLMを活用したプログラミングツール WebPilot: Chrome Extensionで動く Browser Use UI: ホストOSのブラウザを子プロセスで立ち上げて操作
8 AI朝会 2025/2/4 @matsubokkuri
OpenHandsとは 無料 LLMはAPI呼び出し 実行環境はDockerでコマンド1発 9 AI朝会 2025/2/4 @matsubokkuri
動作アーキテクチャ コンテナ上で動作する ヘッドレスブラウザを立ち上げている 1つの命令でコンテナを作り直しているので初回は遅い。安全。 1 0 AI朝会 2025/2/4 @matsubokkuri
1 1 AI朝会 2025/2/4 @matsubokkuri
1 2 AI朝会 2025/2/4 @matsubokkuri
ちょっと複雑なUIだと止まる。 。 。 1 3 AI朝会 2025/2/4 @matsubokkuri
WebPilotとは Chromeブラウザプラグインで使うのが一番良いUX 既存のブラウザが使えるのが良い。 独自LLMの無料枠あり。APIでLLMも呼べる。 (ちょっと毛色が違うけど便利だから紹介) 1 4 AI朝会 2025/2/4 @matsubokkuri
Web試験と相性が良さそう。 。 1 5 AI朝会 2025/2/4 @matsubokkuri
1 6 AI朝会 2025/2/4 @matsubokkuri
1 7 AI朝会 2025/2/4 @matsubokkuri
1 8 AI朝会 2025/2/4 @matsubokkuri
Browser-use-webui OSS 見た目が面白い Xでよく見るやつはこれ 1 9 AI朝会 2025/2/4 @matsubokkuri
setup 2 0 AI朝会 2025/2/4 @matsubokkuri
run 2 1 AI朝会 2025/2/4 @matsubokkuri
setting 2 2 AI朝会 2025/2/4 @matsubokkuri
「NISSANのEVを試乗予約して!」 2 3 AI朝会 2025/2/4 @matsubokkuri
EV探してる 2 4 AI朝会 2025/2/4 @matsubokkuri
近くのディーラーを探してる 2 5 AI朝会 2025/2/4 @matsubokkuri
適当な名前名前で申し込みを入れようとしている 2 6 AI朝会 2025/2/4 @matsubokkuri
動画へのリンク 2 7 AI朝会 2025/2/4 @matsubokkuri
考察 どれも動作が重いので何度もPCが不安定になる OpenAI OperatorはOpenHandsに近そう 2 8 AI朝会 2025/2/4 @matsubokkuri
おまけ note 2 9 AI朝会 2025/2/4 @matsubokkuri