Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMを使ったブラウザ操作紹介
Search
Yuki Matsukura
February 03, 2025
Technology
0
25
LLMを使ったブラウザ操作紹介
社内での15分のプレゼン用資料
Marpで作りました。
Yuki Matsukura
February 03, 2025
Tweet
Share
More Decks by Yuki Matsukura
See All by Yuki Matsukura
IRONMAN World Championshipを旅行としてもオススメする理由
matsubo
0
71
Practice for AWS access key leakage.
matsubo
0
430
Other Decks in Technology
See All in Technology
自己管理型チームと個人のセルフマネジメント 〜モチベーション編〜
kakehashi
PRO
2
210
Claude Codeを使った情報整理術
knishioka
15
11k
[PR] はじめてのデジタルアイデンティティという本を書きました
ritou
0
640
さくらのクラウド開発ふりかえり2025
kazeburo
2
1.3k
会社紹介資料 / Sansan Company Profile
sansan33
PRO
11
390k
AWS Lambda durable functions を使って AWS Lambda の15分の壁を超えてみよう
matsuzawatakeshi
0
120
[Data & AI Summit '25 Fall] AIでデータ活用を進化させる!Google Cloudで作るデータ活用の未来
kirimaru
0
4.2k
ハッカソンから社内プロダクトへ AIエージェント「ko☆shi」開発で学んだ4つの重要要素
sonoda_mj
6
2k
AWS re:Inventre:cap ~AmazonNova 2 Omniのワークショップを体験してきた~
nrinetcom
PRO
0
120
業務の煩悩を祓うAI活用術108選 / AI 108 Usages
smartbank
9
18k
AWSインフルエンサーへの道 / load of AWS Influencer
whisaiyo
0
240
「駆動」って言葉、なんかカッコイイ_Mitz
comucal
PRO
0
130
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
For a Future-Friendly Web
brad_frost
180
10k
Amusing Abliteration
ianozsvald
0
79
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
How to make the Groovebox
asonas
2
1.9k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
97
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
140
The Curse of the Amulet
leimatthew05
0
6.5k
Building Flexible Design Systems
yeseniaperezcruz
330
39k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
0
81
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
286
14k
Transcript
LLMを使ったブラウザ操作紹介 @matsubokkuri AI朝会 2025/2/4 @matsubokkuri
サマリー 発表の目的 LLMを利用したブラウザ操作アプリと現状を紹介 概要 LLMがブラウザを使えるとできることの例 LLMブラウザでできることの事例 3つのブラウザ操作ツールの紹介 マインディアビジネス、業務への示唆、効果 RPAが作れそう 2
AI朝会 2025/2/4 @matsubokkuri
LLMを使ったブラウザ操作とは 「抽象的な指示の元、LLMが自律的にブラウザ 操作を行ってゴールへ向かって進む。 」 3 AI朝会 2025/2/4 @matsubokkuri
ブラウザが使えるとなにが嬉しいのか? => LLM(脳)に目と手が追加される 4 AI朝会 2025/2/4 @matsubokkuri
OpenAIがOperatorを発表 日本では未だ公開されていない。専用アプリの中でブラウザが立ち上がって いるっぽい。 5 AI朝会 2025/2/4 @matsubokkuri
紹介されているユースケース タスク自動化 繰り返し業務の自動処理 複数アプリケーション間のワークフロー連携 インテリジェントアシスタント 自然言語でのユーザー問い合わせへの即時応答 個人スケジュール管理とリマインダー設定 データ分析支援 大規模データセットからの傾向抽出 予測モデルの自動構築と可視化
開発者向けツール コード生成とデバッグ支援 API連携の自動セットアップ カスタマーサポート 6 AI朝会 2025/2/4 @matsubokkuri
事例 みんなで飲みにいくんですけど、Devinさんも来ます? - Devin観察日記 居酒屋のWeb注文QRコードを読んで、口頭で注文を指示するとよしなに画面 遷移して注文。 7 AI朝会 2025/2/4 @matsubokkuri
既存のツール OpenHands: LLMを活用したプログラミングツール WebPilot: Chrome Extensionで動く Browser Use UI: ホストOSのブラウザを子プロセスで立ち上げて操作
8 AI朝会 2025/2/4 @matsubokkuri
OpenHandsとは 無料 LLMはAPI呼び出し 実行環境はDockerでコマンド1発 9 AI朝会 2025/2/4 @matsubokkuri
動作アーキテクチャ コンテナ上で動作する ヘッドレスブラウザを立ち上げている 1つの命令でコンテナを作り直しているので初回は遅い。安全。 1 0 AI朝会 2025/2/4 @matsubokkuri
1 1 AI朝会 2025/2/4 @matsubokkuri
1 2 AI朝会 2025/2/4 @matsubokkuri
ちょっと複雑なUIだと止まる。 。 。 1 3 AI朝会 2025/2/4 @matsubokkuri
WebPilotとは Chromeブラウザプラグインで使うのが一番良いUX 既存のブラウザが使えるのが良い。 独自LLMの無料枠あり。APIでLLMも呼べる。 (ちょっと毛色が違うけど便利だから紹介) 1 4 AI朝会 2025/2/4 @matsubokkuri
Web試験と相性が良さそう。 。 1 5 AI朝会 2025/2/4 @matsubokkuri
1 6 AI朝会 2025/2/4 @matsubokkuri
1 7 AI朝会 2025/2/4 @matsubokkuri
1 8 AI朝会 2025/2/4 @matsubokkuri
Browser-use-webui OSS 見た目が面白い Xでよく見るやつはこれ 1 9 AI朝会 2025/2/4 @matsubokkuri
setup 2 0 AI朝会 2025/2/4 @matsubokkuri
run 2 1 AI朝会 2025/2/4 @matsubokkuri
setting 2 2 AI朝会 2025/2/4 @matsubokkuri
「NISSANのEVを試乗予約して!」 2 3 AI朝会 2025/2/4 @matsubokkuri
EV探してる 2 4 AI朝会 2025/2/4 @matsubokkuri
近くのディーラーを探してる 2 5 AI朝会 2025/2/4 @matsubokkuri
適当な名前名前で申し込みを入れようとしている 2 6 AI朝会 2025/2/4 @matsubokkuri
動画へのリンク 2 7 AI朝会 2025/2/4 @matsubokkuri
考察 どれも動作が重いので何度もPCが不安定になる OpenAI OperatorはOpenHandsに近そう 2 8 AI朝会 2025/2/4 @matsubokkuri
おまけ note 2 9 AI朝会 2025/2/4 @matsubokkuri