Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMを使ったブラウザ操作紹介
Search
Yuki Matsukura
February 03, 2025
Technology
0
24
LLMを使ったブラウザ操作紹介
社内での15分のプレゼン用資料
Marpで作りました。
Yuki Matsukura
February 03, 2025
Tweet
Share
More Decks by Yuki Matsukura
See All by Yuki Matsukura
IRONMAN World Championshipを旅行としてもオススメする理由
matsubo
0
71
Practice for AWS access key leakage.
matsubo
0
430
Other Decks in Technology
See All in Technology
AIプラットフォームにおけるMLflowの利用について
lycorptech_jp
PRO
1
150
エンジニアリングマネージャー はじめての目標設定と評価
halkt
0
280
Gemini でコードレビュー知見を見える化
zozotech
PRO
1
250
「図面」から「法則」へ 〜メタ視点で読み解く現代のソフトウェアアーキテクチャ〜
scova0731
0
100
AWS CLIの新しい認証情報設定方法aws loginコマンドの実態
wkm2
6
740
AWSセキュリティアップデートとAWSを育てる話
cmusudakeisuke
0
270
re:Invent 2025 ふりかえり 生成AI版
takaakikakei
1
210
re:Invent2025 コンテナ系アップデート振り返り(+CloudWatchログのアップデート紹介)
masukawa
0
360
MLflowで始めるプロンプト管理、評価、最適化
databricksjapan
1
220
評価駆動開発で不確実性を制御する - MLflow 3が支えるエージェント開発
databricksjapan
1
180
AWSを使う上で最低限知っておきたいセキュリティ研修を社内で実施した話 ~みんなでやるセキュリティ~
maimyyym
2
820
形式手法特論:CEGAR を用いたモデル検査の状態空間削減 #kernelvm / Kernel VM Study Hokuriku Part 8
ytaka23
2
460
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Raft: Consensus for Rubyists
vanstee
141
7.2k
The Language of Interfaces
destraynor
162
25k
Statistics for Hackers
jakevdp
799
230k
Making Projects Easy
brettharned
120
6.5k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Building Applications with DynamoDB
mza
96
6.8k
RailsConf 2023
tenderlove
30
1.3k
Git: the NoSQL Database
bkeepers
PRO
432
66k
Thoughts on Productivity
jonyablonski
73
5k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.8k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.3k
Transcript
LLMを使ったブラウザ操作紹介 @matsubokkuri AI朝会 2025/2/4 @matsubokkuri
サマリー 発表の目的 LLMを利用したブラウザ操作アプリと現状を紹介 概要 LLMがブラウザを使えるとできることの例 LLMブラウザでできることの事例 3つのブラウザ操作ツールの紹介 マインディアビジネス、業務への示唆、効果 RPAが作れそう 2
AI朝会 2025/2/4 @matsubokkuri
LLMを使ったブラウザ操作とは 「抽象的な指示の元、LLMが自律的にブラウザ 操作を行ってゴールへ向かって進む。 」 3 AI朝会 2025/2/4 @matsubokkuri
ブラウザが使えるとなにが嬉しいのか? => LLM(脳)に目と手が追加される 4 AI朝会 2025/2/4 @matsubokkuri
OpenAIがOperatorを発表 日本では未だ公開されていない。専用アプリの中でブラウザが立ち上がって いるっぽい。 5 AI朝会 2025/2/4 @matsubokkuri
紹介されているユースケース タスク自動化 繰り返し業務の自動処理 複数アプリケーション間のワークフロー連携 インテリジェントアシスタント 自然言語でのユーザー問い合わせへの即時応答 個人スケジュール管理とリマインダー設定 データ分析支援 大規模データセットからの傾向抽出 予測モデルの自動構築と可視化
開発者向けツール コード生成とデバッグ支援 API連携の自動セットアップ カスタマーサポート 6 AI朝会 2025/2/4 @matsubokkuri
事例 みんなで飲みにいくんですけど、Devinさんも来ます? - Devin観察日記 居酒屋のWeb注文QRコードを読んで、口頭で注文を指示するとよしなに画面 遷移して注文。 7 AI朝会 2025/2/4 @matsubokkuri
既存のツール OpenHands: LLMを活用したプログラミングツール WebPilot: Chrome Extensionで動く Browser Use UI: ホストOSのブラウザを子プロセスで立ち上げて操作
8 AI朝会 2025/2/4 @matsubokkuri
OpenHandsとは 無料 LLMはAPI呼び出し 実行環境はDockerでコマンド1発 9 AI朝会 2025/2/4 @matsubokkuri
動作アーキテクチャ コンテナ上で動作する ヘッドレスブラウザを立ち上げている 1つの命令でコンテナを作り直しているので初回は遅い。安全。 1 0 AI朝会 2025/2/4 @matsubokkuri
1 1 AI朝会 2025/2/4 @matsubokkuri
1 2 AI朝会 2025/2/4 @matsubokkuri
ちょっと複雑なUIだと止まる。 。 。 1 3 AI朝会 2025/2/4 @matsubokkuri
WebPilotとは Chromeブラウザプラグインで使うのが一番良いUX 既存のブラウザが使えるのが良い。 独自LLMの無料枠あり。APIでLLMも呼べる。 (ちょっと毛色が違うけど便利だから紹介) 1 4 AI朝会 2025/2/4 @matsubokkuri
Web試験と相性が良さそう。 。 1 5 AI朝会 2025/2/4 @matsubokkuri
1 6 AI朝会 2025/2/4 @matsubokkuri
1 7 AI朝会 2025/2/4 @matsubokkuri
1 8 AI朝会 2025/2/4 @matsubokkuri
Browser-use-webui OSS 見た目が面白い Xでよく見るやつはこれ 1 9 AI朝会 2025/2/4 @matsubokkuri
setup 2 0 AI朝会 2025/2/4 @matsubokkuri
run 2 1 AI朝会 2025/2/4 @matsubokkuri
setting 2 2 AI朝会 2025/2/4 @matsubokkuri
「NISSANのEVを試乗予約して!」 2 3 AI朝会 2025/2/4 @matsubokkuri
EV探してる 2 4 AI朝会 2025/2/4 @matsubokkuri
近くのディーラーを探してる 2 5 AI朝会 2025/2/4 @matsubokkuri
適当な名前名前で申し込みを入れようとしている 2 6 AI朝会 2025/2/4 @matsubokkuri
動画へのリンク 2 7 AI朝会 2025/2/4 @matsubokkuri
考察 どれも動作が重いので何度もPCが不安定になる OpenAI OperatorはOpenHandsに近そう 2 8 AI朝会 2025/2/4 @matsubokkuri
おまけ note 2 9 AI朝会 2025/2/4 @matsubokkuri