Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMを使ったブラウザ操作紹介
Search
Yuki Matsukura
February 03, 2025
Technology
0
22
LLMを使ったブラウザ操作紹介
社内での15分のプレゼン用資料
Marpで作りました。
Yuki Matsukura
February 03, 2025
Tweet
Share
More Decks by Yuki Matsukura
See All by Yuki Matsukura
IRONMAN World Championshipを旅行としてもオススメする理由
matsubo
0
70
Practice for AWS access key leakage.
matsubo
0
430
Other Decks in Technology
See All in Technology
書籍『実践 Apache Iceberg』の歩き方
ishikawa_satoru
0
430
AWS DMS で SQL Server を移行してみた/aws-dms-sql-server-migration
emiki
0
280
SRE × マネジメントレイヤーが挑戦した組織・会社のオブザーバビリティ改革 ― ビジネス価値と信頼性を両立するリアルな挑戦
coconala_engineer
0
420
DSPy入門
tomehirata
6
850
様々なファイルシステム
sat
PRO
0
280
re:Inventに行くまでにやっておきたいこと
nagisa53
0
950
可観測性は開発環境から、開発環境にもオブザーバビリティ導入のススメ
layerx
PRO
4
2.6k
知覚とデザイン
rinchoku
1
720
Data Engineering Guide 2025 #data_summit_findy by @Kazaneya_PR / 20251106
kazaneya
PRO
0
150
Mackerelにおけるインシデント対応とポストモーテム - 現場での工夫と学び
taxin
0
100
GTC 2025 : 가속되고 있는 미래
inureyes
PRO
0
150
LLM APIを2年間本番運用して苦労した話
ivry_presentationmaterials
4
660
Featured
See All Featured
A Tale of Four Properties
chriscoyier
161
23k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
2.9k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
The Pragmatic Product Professional
lauravandoore
36
7k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
Java REST API Framework Comparison - PWX 2021
mraible
34
8.9k
How to Think Like a Performance Engineer
csswizardry
27
2.2k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Music & Morning Musume
bryan
46
6.9k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
34
2.3k
Balancing Empowerment & Direction
lara
5
710
A designer walks into a library…
pauljervisheath
209
24k
Transcript
LLMを使ったブラウザ操作紹介 @matsubokkuri AI朝会 2025/2/4 @matsubokkuri
サマリー 発表の目的 LLMを利用したブラウザ操作アプリと現状を紹介 概要 LLMがブラウザを使えるとできることの例 LLMブラウザでできることの事例 3つのブラウザ操作ツールの紹介 マインディアビジネス、業務への示唆、効果 RPAが作れそう 2
AI朝会 2025/2/4 @matsubokkuri
LLMを使ったブラウザ操作とは 「抽象的な指示の元、LLMが自律的にブラウザ 操作を行ってゴールへ向かって進む。 」 3 AI朝会 2025/2/4 @matsubokkuri
ブラウザが使えるとなにが嬉しいのか? => LLM(脳)に目と手が追加される 4 AI朝会 2025/2/4 @matsubokkuri
OpenAIがOperatorを発表 日本では未だ公開されていない。専用アプリの中でブラウザが立ち上がって いるっぽい。 5 AI朝会 2025/2/4 @matsubokkuri
紹介されているユースケース タスク自動化 繰り返し業務の自動処理 複数アプリケーション間のワークフロー連携 インテリジェントアシスタント 自然言語でのユーザー問い合わせへの即時応答 個人スケジュール管理とリマインダー設定 データ分析支援 大規模データセットからの傾向抽出 予測モデルの自動構築と可視化
開発者向けツール コード生成とデバッグ支援 API連携の自動セットアップ カスタマーサポート 6 AI朝会 2025/2/4 @matsubokkuri
事例 みんなで飲みにいくんですけど、Devinさんも来ます? - Devin観察日記 居酒屋のWeb注文QRコードを読んで、口頭で注文を指示するとよしなに画面 遷移して注文。 7 AI朝会 2025/2/4 @matsubokkuri
既存のツール OpenHands: LLMを活用したプログラミングツール WebPilot: Chrome Extensionで動く Browser Use UI: ホストOSのブラウザを子プロセスで立ち上げて操作
8 AI朝会 2025/2/4 @matsubokkuri
OpenHandsとは 無料 LLMはAPI呼び出し 実行環境はDockerでコマンド1発 9 AI朝会 2025/2/4 @matsubokkuri
動作アーキテクチャ コンテナ上で動作する ヘッドレスブラウザを立ち上げている 1つの命令でコンテナを作り直しているので初回は遅い。安全。 1 0 AI朝会 2025/2/4 @matsubokkuri
1 1 AI朝会 2025/2/4 @matsubokkuri
1 2 AI朝会 2025/2/4 @matsubokkuri
ちょっと複雑なUIだと止まる。 。 。 1 3 AI朝会 2025/2/4 @matsubokkuri
WebPilotとは Chromeブラウザプラグインで使うのが一番良いUX 既存のブラウザが使えるのが良い。 独自LLMの無料枠あり。APIでLLMも呼べる。 (ちょっと毛色が違うけど便利だから紹介) 1 4 AI朝会 2025/2/4 @matsubokkuri
Web試験と相性が良さそう。 。 1 5 AI朝会 2025/2/4 @matsubokkuri
1 6 AI朝会 2025/2/4 @matsubokkuri
1 7 AI朝会 2025/2/4 @matsubokkuri
1 8 AI朝会 2025/2/4 @matsubokkuri
Browser-use-webui OSS 見た目が面白い Xでよく見るやつはこれ 1 9 AI朝会 2025/2/4 @matsubokkuri
setup 2 0 AI朝会 2025/2/4 @matsubokkuri
run 2 1 AI朝会 2025/2/4 @matsubokkuri
setting 2 2 AI朝会 2025/2/4 @matsubokkuri
「NISSANのEVを試乗予約して!」 2 3 AI朝会 2025/2/4 @matsubokkuri
EV探してる 2 4 AI朝会 2025/2/4 @matsubokkuri
近くのディーラーを探してる 2 5 AI朝会 2025/2/4 @matsubokkuri
適当な名前名前で申し込みを入れようとしている 2 6 AI朝会 2025/2/4 @matsubokkuri
動画へのリンク 2 7 AI朝会 2025/2/4 @matsubokkuri
考察 どれも動作が重いので何度もPCが不安定になる OpenAI OperatorはOpenHandsに近そう 2 8 AI朝会 2025/2/4 @matsubokkuri
おまけ note 2 9 AI朝会 2025/2/4 @matsubokkuri