Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CLIPでrosbagの データを検索してみる話
Search
Masaya Kataoka
December 17, 2023
0
25
CLIPでrosbagの データを検索してみる話
Masaya Kataoka
December 17, 2023
Tweet
Share
More Decks by Masaya Kataoka
See All by Masaya Kataoka
AMBER、rosbag と pytorchで はじめるお手軽マルチ モーダルロボット開発
hakuturu583
0
97
Featured
See All Featured
Building Effective Engineering Teams - LeadDev
addyosmani
33
1.9k
How STYLIGHT went responsive
nonsquared
92
4.9k
Bash Introduction
62gerente
605
210k
Building Adaptive Systems
keathley
32
1.9k
Agile that works and the tools we love
rasmusluckow
325
20k
Optimizing for Happiness
mojombo
371
69k
A Tale of Four Properties
chriscoyier
153
22k
KATA
mclloyd
16
12k
Bootstrapping a Software Product
garrettdimon
PRO
302
110k
Facilitating Awesome Meetings
lara
43
5.6k
Pencils Down: Stop Designing & Start Developing
hursman
117
11k
Why You Should Never Use an ORM
jnunemaker
PRO
51
8.7k
Transcript
CLIPでrosbagの データを検索してみる話 2023/09/14 片岡 大哉 ROS Japan UG #52 仙台の陣
自己紹介 • 2012 - 2016 (大学生時代) ◦ 大学時代にVRがやりたくてUnityでゲームプログラミングを始める • 2016
- 2018 (大学院時代) ◦ 研究室でロボットを始める ▪ 柔らかいロボット機構の制御を研究 ▪ ロボカップでロボットサッカーにハマる ◦ 海洋ロボットの開発に着手 ▪ 今も趣味で自律航行システムを開発中 ▪ オープンなROS 2教材つくったり • 2018- (社会人) ◦ 新卒で自動運転業界に入る ▪ 某社で高速道路ADAS開発に従事 ◦ 株式会社TIER IVに転職 ▪ 主にシミュレータ開発を担当 ▪ 最近はROSJP運営やったり
RSJ、お疲れ様でした!
世はML全盛期 一昨年くらいからOpenAIのCLIPを皮切りにV&Lの研究が活発に ついに21KクラスインスタンスセグメンテーションできるDeticなども発表 出典: Open AI CLIP 出典: facebook research
Detic
マルチモーダルな基盤モデルで何ができるか 今までかけまくっていた複雑なフィルタや 状態機械を一部置き換え可能 モダリティをまたいでいるので、言語モデ ルの推論結果で画像認識を補助したり、 様々な応用が可能 出典: IT media
ROSにおける基盤モデル活用のつらさ • NLP技術がハブになっていることが多く、「プロンプト」を入力してタスクを説かせ るケースが多い • いわゆるプロンプトエンジニアリング • 例:DeticはFaster R-CNN +
CLIPの2段階が存在 ◦ Detectionがうまく行っても適切なプロンプトが必要 ◦ 特徴量空間が高次元であるため人間の直感と反することも => 「ある事象を表すのにプロンプトって何...??」 出典:2万クラスを検出できる インスタンスセグメンテーション
表現学習 CLIPのようにデータとデータの「関係性」 を学習する手法、CLIPは画像エンコーダ とテキストエンコーダを対照学習させてテ キストイメージペアがコサイン類似度が 高い512次元のベクトルで表現されるよう にエンコーダを学習させる 出典: Open AI
CLIP
ロボティクス特有の課題 お絵描きAIなどでは大規模なデータセッ トで学習を回すが、ロボットは時系列画 像を扱うため、時系列画像をそのまま使 うとどうしてもImage Encoderの出力が ほとんど同じ ログデータから物体認識を設計しようとし ても概念の境界線を決める作業がいわ ゆるAIの手法をそのまま適用しただけで
は困難 ただの transformer 似たような画 像 似たようなベ クトル 出てくるコサイン 類似度が全部近い! 出典: Open AI CLIP
解決方法 • わかりやすく可視化 • 可視化結果をもとにコサイン類 似度のしきい値とプロンプトを 設計可能 • 思わぬ副作用で画像をプロン プトで検索できるように
• 未検証でこれから実装してみま すが、クラスタリングすればプ ロンプトの設計不要説も...
amber ROSBAGのデータを可視化したり、 pytorchに直 接食べさせたりするOSS clipで識別器を実装してたらまともに動かなかっ たので可視化ツールを実装しました。 ROS依存はありませんのでクラウドなどでも使え ます Github rosconjpで僕と握手!
論よりRUN 会場の方はこのURLでtensorboardをとおしてCLIPの特徴量空間を眺められます(多分)
まとめ • ROSとCLIPを使って画像識別器を効率よく設計する手法についてまとめた • amberを使うことで簡単にマルチモーダルなROSを活用したロボットの基盤を構 築可能 <<<< 超重要! >>> rosconjp
@ 浅草で僕と握手!