Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CLIPでrosbagの データを検索してみる話
Search
Masaya Kataoka
December 17, 2023
0
180
CLIPでrosbagの データを検索してみる話
Masaya Kataoka
December 17, 2023
Tweet
Share
More Decks by Masaya Kataoka
See All by Masaya Kataoka
【令和最新版】ロボットシミュレータ Genesis x ROS 2で始める快適AIロボット開発
hakuturu583
2
2.8k
AMBER、rosbag と pytorchで はじめるお手軽マルチ モーダルロボット開発
hakuturu583
0
290
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.3k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.8k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Making the Leap to Tech Lead
cromwellryan
135
9.6k
Site-Speed That Sticks
csswizardry
13
960
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
33
1.8k
The Language of Interfaces
destraynor
162
25k
BBQ
matthewcrist
89
9.9k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.6k
Stop Working from a Prison Cell
hatefulcrawdad
272
21k
Transcript
CLIPでrosbagの データを検索してみる話 2023/09/14 片岡 大哉 ROS Japan UG #52 仙台の陣
自己紹介 • 2012 - 2016 (大学生時代) ◦ 大学時代にVRがやりたくてUnityでゲームプログラミングを始める • 2016
- 2018 (大学院時代) ◦ 研究室でロボットを始める ▪ 柔らかいロボット機構の制御を研究 ▪ ロボカップでロボットサッカーにハマる ◦ 海洋ロボットの開発に着手 ▪ 今も趣味で自律航行システムを開発中 ▪ オープンなROS 2教材つくったり • 2018- (社会人) ◦ 新卒で自動運転業界に入る ▪ 某社で高速道路ADAS開発に従事 ◦ 株式会社TIER IVに転職 ▪ 主にシミュレータ開発を担当 ▪ 最近はROSJP運営やったり
RSJ、お疲れ様でした!
世はML全盛期 一昨年くらいからOpenAIのCLIPを皮切りにV&Lの研究が活発に ついに21KクラスインスタンスセグメンテーションできるDeticなども発表 出典: Open AI CLIP 出典: facebook research
Detic
マルチモーダルな基盤モデルで何ができるか 今までかけまくっていた複雑なフィルタや 状態機械を一部置き換え可能 モダリティをまたいでいるので、言語モデ ルの推論結果で画像認識を補助したり、 様々な応用が可能 出典: IT media
ROSにおける基盤モデル活用のつらさ • NLP技術がハブになっていることが多く、「プロンプト」を入力してタスクを説かせ るケースが多い • いわゆるプロンプトエンジニアリング • 例:DeticはFaster R-CNN +
CLIPの2段階が存在 ◦ Detectionがうまく行っても適切なプロンプトが必要 ◦ 特徴量空間が高次元であるため人間の直感と反することも => 「ある事象を表すのにプロンプトって何...??」 出典:2万クラスを検出できる インスタンスセグメンテーション
表現学習 CLIPのようにデータとデータの「関係性」 を学習する手法、CLIPは画像エンコーダ とテキストエンコーダを対照学習させてテ キストイメージペアがコサイン類似度が 高い512次元のベクトルで表現されるよう にエンコーダを学習させる 出典: Open AI
CLIP
ロボティクス特有の課題 お絵描きAIなどでは大規模なデータセッ トで学習を回すが、ロボットは時系列画 像を扱うため、時系列画像をそのまま使 うとどうしてもImage Encoderの出力が ほとんど同じ ログデータから物体認識を設計しようとし ても概念の境界線を決める作業がいわ ゆるAIの手法をそのまま適用しただけで
は困難 ただの transformer 似たような画 像 似たようなベ クトル 出てくるコサイン 類似度が全部近い! 出典: Open AI CLIP
解決方法 • わかりやすく可視化 • 可視化結果をもとにコサイン類 似度のしきい値とプロンプトを 設計可能 • 思わぬ副作用で画像をプロン プトで検索できるように
• 未検証でこれから実装してみま すが、クラスタリングすればプ ロンプトの設計不要説も...
amber ROSBAGのデータを可視化したり、 pytorchに直 接食べさせたりするOSS clipで識別器を実装してたらまともに動かなかっ たので可視化ツールを実装しました。 ROS依存はありませんのでクラウドなどでも使え ます Github rosconjpで僕と握手!
論よりRUN 会場の方はこのURLでtensorboardをとおしてCLIPの特徴量空間を眺められます(多分)
まとめ • ROSとCLIPを使って画像識別器を効率よく設計する手法についてまとめた • amberを使うことで簡単にマルチモーダルなROSを活用したロボットの基盤を構 築可能 <<<< 超重要! >>> rosconjp
@ 浅草で僕と握手!