Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CLIPでrosbagの データを検索してみる話
Search
Masaya Kataoka
December 17, 2023
0
100
CLIPでrosbagの データを検索してみる話
Masaya Kataoka
December 17, 2023
Tweet
Share
More Decks by Masaya Kataoka
See All by Masaya Kataoka
【令和最新版】ロボットシミュレータ Genesis x ROS 2で始める快適AIロボット開発
hakuturu583
2
1.7k
AMBER、rosbag と pytorchで はじめるお手軽マルチ モーダルロボット開発
hakuturu583
0
210
Featured
See All Featured
Why Our Code Smells
bkeepers
PRO
335
57k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Code Reviewing Like a Champion
maltzj
521
39k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.5k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.4k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
11
900
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Statistics for Hackers
jakevdp
797
220k
Documentation Writing (for coders)
carmenintech
67
4.6k
Typedesign – Prime Four
hannesfritz
40
2.5k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
30
2.1k
Transcript
CLIPでrosbagの データを検索してみる話 2023/09/14 片岡 大哉 ROS Japan UG #52 仙台の陣
自己紹介 • 2012 - 2016 (大学生時代) ◦ 大学時代にVRがやりたくてUnityでゲームプログラミングを始める • 2016
- 2018 (大学院時代) ◦ 研究室でロボットを始める ▪ 柔らかいロボット機構の制御を研究 ▪ ロボカップでロボットサッカーにハマる ◦ 海洋ロボットの開発に着手 ▪ 今も趣味で自律航行システムを開発中 ▪ オープンなROS 2教材つくったり • 2018- (社会人) ◦ 新卒で自動運転業界に入る ▪ 某社で高速道路ADAS開発に従事 ◦ 株式会社TIER IVに転職 ▪ 主にシミュレータ開発を担当 ▪ 最近はROSJP運営やったり
RSJ、お疲れ様でした!
世はML全盛期 一昨年くらいからOpenAIのCLIPを皮切りにV&Lの研究が活発に ついに21KクラスインスタンスセグメンテーションできるDeticなども発表 出典: Open AI CLIP 出典: facebook research
Detic
マルチモーダルな基盤モデルで何ができるか 今までかけまくっていた複雑なフィルタや 状態機械を一部置き換え可能 モダリティをまたいでいるので、言語モデ ルの推論結果で画像認識を補助したり、 様々な応用が可能 出典: IT media
ROSにおける基盤モデル活用のつらさ • NLP技術がハブになっていることが多く、「プロンプト」を入力してタスクを説かせ るケースが多い • いわゆるプロンプトエンジニアリング • 例:DeticはFaster R-CNN +
CLIPの2段階が存在 ◦ Detectionがうまく行っても適切なプロンプトが必要 ◦ 特徴量空間が高次元であるため人間の直感と反することも => 「ある事象を表すのにプロンプトって何...??」 出典:2万クラスを検出できる インスタンスセグメンテーション
表現学習 CLIPのようにデータとデータの「関係性」 を学習する手法、CLIPは画像エンコーダ とテキストエンコーダを対照学習させてテ キストイメージペアがコサイン類似度が 高い512次元のベクトルで表現されるよう にエンコーダを学習させる 出典: Open AI
CLIP
ロボティクス特有の課題 お絵描きAIなどでは大規模なデータセッ トで学習を回すが、ロボットは時系列画 像を扱うため、時系列画像をそのまま使 うとどうしてもImage Encoderの出力が ほとんど同じ ログデータから物体認識を設計しようとし ても概念の境界線を決める作業がいわ ゆるAIの手法をそのまま適用しただけで
は困難 ただの transformer 似たような画 像 似たようなベ クトル 出てくるコサイン 類似度が全部近い! 出典: Open AI CLIP
解決方法 • わかりやすく可視化 • 可視化結果をもとにコサイン類 似度のしきい値とプロンプトを 設計可能 • 思わぬ副作用で画像をプロン プトで検索できるように
• 未検証でこれから実装してみま すが、クラスタリングすればプ ロンプトの設計不要説も...
amber ROSBAGのデータを可視化したり、 pytorchに直 接食べさせたりするOSS clipで識別器を実装してたらまともに動かなかっ たので可視化ツールを実装しました。 ROS依存はありませんのでクラウドなどでも使え ます Github rosconjpで僕と握手!
論よりRUN 会場の方はこのURLでtensorboardをとおしてCLIPの特徴量空間を眺められます(多分)
まとめ • ROSとCLIPを使って画像識別器を効率よく設計する手法についてまとめた • amberを使うことで簡単にマルチモーダルなROSを活用したロボットの基盤を構 築可能 <<<< 超重要! >>> rosconjp
@ 浅草で僕と握手!