Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CLIPでrosbagの データを検索してみる話
Search
Masaya Kataoka
December 17, 2023
0
86
CLIPでrosbagの データを検索してみる話
Masaya Kataoka
December 17, 2023
Tweet
Share
More Decks by Masaya Kataoka
See All by Masaya Kataoka
【令和最新版】ロボットシミュレータ Genesis x ROS 2で始める快適AIロボット開発
hakuturu583
1
440
AMBER、rosbag と pytorchで はじめるお手軽マルチ モーダルロボット開発
hakuturu583
0
170
Featured
See All Featured
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
95
17k
The Power of CSS Pseudo Elements
geoffreycrofte
73
5.4k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
66k
The Invisible Side of Design
smashingmag
298
50k
GitHub's CSS Performance
jonrohan
1031
460k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
Building an army of robots
kneath
302
44k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Unsuck your backbone
ammeep
669
57k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Producing Creativity
orderedlist
PRO
342
39k
Transcript
CLIPでrosbagの データを検索してみる話 2023/09/14 片岡 大哉 ROS Japan UG #52 仙台の陣
自己紹介 • 2012 - 2016 (大学生時代) ◦ 大学時代にVRがやりたくてUnityでゲームプログラミングを始める • 2016
- 2018 (大学院時代) ◦ 研究室でロボットを始める ▪ 柔らかいロボット機構の制御を研究 ▪ ロボカップでロボットサッカーにハマる ◦ 海洋ロボットの開発に着手 ▪ 今も趣味で自律航行システムを開発中 ▪ オープンなROS 2教材つくったり • 2018- (社会人) ◦ 新卒で自動運転業界に入る ▪ 某社で高速道路ADAS開発に従事 ◦ 株式会社TIER IVに転職 ▪ 主にシミュレータ開発を担当 ▪ 最近はROSJP運営やったり
RSJ、お疲れ様でした!
世はML全盛期 一昨年くらいからOpenAIのCLIPを皮切りにV&Lの研究が活発に ついに21KクラスインスタンスセグメンテーションできるDeticなども発表 出典: Open AI CLIP 出典: facebook research
Detic
マルチモーダルな基盤モデルで何ができるか 今までかけまくっていた複雑なフィルタや 状態機械を一部置き換え可能 モダリティをまたいでいるので、言語モデ ルの推論結果で画像認識を補助したり、 様々な応用が可能 出典: IT media
ROSにおける基盤モデル活用のつらさ • NLP技術がハブになっていることが多く、「プロンプト」を入力してタスクを説かせ るケースが多い • いわゆるプロンプトエンジニアリング • 例:DeticはFaster R-CNN +
CLIPの2段階が存在 ◦ Detectionがうまく行っても適切なプロンプトが必要 ◦ 特徴量空間が高次元であるため人間の直感と反することも => 「ある事象を表すのにプロンプトって何...??」 出典:2万クラスを検出できる インスタンスセグメンテーション
表現学習 CLIPのようにデータとデータの「関係性」 を学習する手法、CLIPは画像エンコーダ とテキストエンコーダを対照学習させてテ キストイメージペアがコサイン類似度が 高い512次元のベクトルで表現されるよう にエンコーダを学習させる 出典: Open AI
CLIP
ロボティクス特有の課題 お絵描きAIなどでは大規模なデータセッ トで学習を回すが、ロボットは時系列画 像を扱うため、時系列画像をそのまま使 うとどうしてもImage Encoderの出力が ほとんど同じ ログデータから物体認識を設計しようとし ても概念の境界線を決める作業がいわ ゆるAIの手法をそのまま適用しただけで
は困難 ただの transformer 似たような画 像 似たようなベ クトル 出てくるコサイン 類似度が全部近い! 出典: Open AI CLIP
解決方法 • わかりやすく可視化 • 可視化結果をもとにコサイン類 似度のしきい値とプロンプトを 設計可能 • 思わぬ副作用で画像をプロン プトで検索できるように
• 未検証でこれから実装してみま すが、クラスタリングすればプ ロンプトの設計不要説も...
amber ROSBAGのデータを可視化したり、 pytorchに直 接食べさせたりするOSS clipで識別器を実装してたらまともに動かなかっ たので可視化ツールを実装しました。 ROS依存はありませんのでクラウドなどでも使え ます Github rosconjpで僕と握手!
論よりRUN 会場の方はこのURLでtensorboardをとおしてCLIPの特徴量空間を眺められます(多分)
まとめ • ROSとCLIPを使って画像識別器を効率よく設計する手法についてまとめた • amberを使うことで簡単にマルチモーダルなROSを活用したロボットの基盤を構 築可能 <<<< 超重要! >>> rosconjp
@ 浅草で僕と握手!