Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CLIPでrosbagの データを検索してみる話
Search
Masaya Kataoka
December 17, 2023
220
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
CLIPでrosbagの データを検索してみる話
Masaya Kataoka
December 17, 2023
More Decks by Masaya Kataoka
See All by Masaya Kataoka
【令和最新版】ロボットシミュレータ Genesis x ROS 2で始める快適AIロボット開発
hakuturu583
2
3.1k
AMBER、rosbag と pytorchで はじめるお手軽マルチ モーダルロボット開発
hakuturu583
0
340
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
580
A Soul's Torment
seathinner
6
2.9k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
940
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
270
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
200
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
56k
Transcript
CLIPでrosbagの データを検索してみる話 2023/09/14 片岡 大哉 ROS Japan UG #52 仙台の陣
自己紹介 • 2012 - 2016 (大学生時代) ◦ 大学時代にVRがやりたくてUnityでゲームプログラミングを始める • 2016
- 2018 (大学院時代) ◦ 研究室でロボットを始める ▪ 柔らかいロボット機構の制御を研究 ▪ ロボカップでロボットサッカーにハマる ◦ 海洋ロボットの開発に着手 ▪ 今も趣味で自律航行システムを開発中 ▪ オープンなROS 2教材つくったり • 2018- (社会人) ◦ 新卒で自動運転業界に入る ▪ 某社で高速道路ADAS開発に従事 ◦ 株式会社TIER IVに転職 ▪ 主にシミュレータ開発を担当 ▪ 最近はROSJP運営やったり
RSJ、お疲れ様でした!
世はML全盛期 一昨年くらいからOpenAIのCLIPを皮切りにV&Lの研究が活発に ついに21KクラスインスタンスセグメンテーションできるDeticなども発表 出典: Open AI CLIP 出典: facebook research
Detic
マルチモーダルな基盤モデルで何ができるか 今までかけまくっていた複雑なフィルタや 状態機械を一部置き換え可能 モダリティをまたいでいるので、言語モデ ルの推論結果で画像認識を補助したり、 様々な応用が可能 出典: IT media
ROSにおける基盤モデル活用のつらさ • NLP技術がハブになっていることが多く、「プロンプト」を入力してタスクを説かせ るケースが多い • いわゆるプロンプトエンジニアリング • 例:DeticはFaster R-CNN +
CLIPの2段階が存在 ◦ Detectionがうまく行っても適切なプロンプトが必要 ◦ 特徴量空間が高次元であるため人間の直感と反することも => 「ある事象を表すのにプロンプトって何...??」 出典:2万クラスを検出できる インスタンスセグメンテーション
表現学習 CLIPのようにデータとデータの「関係性」 を学習する手法、CLIPは画像エンコーダ とテキストエンコーダを対照学習させてテ キストイメージペアがコサイン類似度が 高い512次元のベクトルで表現されるよう にエンコーダを学習させる 出典: Open AI
CLIP
ロボティクス特有の課題 お絵描きAIなどでは大規模なデータセッ トで学習を回すが、ロボットは時系列画 像を扱うため、時系列画像をそのまま使 うとどうしてもImage Encoderの出力が ほとんど同じ ログデータから物体認識を設計しようとし ても概念の境界線を決める作業がいわ ゆるAIの手法をそのまま適用しただけで
は困難 ただの transformer 似たような画 像 似たようなベ クトル 出てくるコサイン 類似度が全部近い! 出典: Open AI CLIP
解決方法 • わかりやすく可視化 • 可視化結果をもとにコサイン類 似度のしきい値とプロンプトを 設計可能 • 思わぬ副作用で画像をプロン プトで検索できるように
• 未検証でこれから実装してみま すが、クラスタリングすればプ ロンプトの設計不要説も...
amber ROSBAGのデータを可視化したり、 pytorchに直 接食べさせたりするOSS clipで識別器を実装してたらまともに動かなかっ たので可視化ツールを実装しました。 ROS依存はありませんのでクラウドなどでも使え ます Github rosconjpで僕と握手!
論よりRUN 会場の方はこのURLでtensorboardをとおしてCLIPの特徴量空間を眺められます(多分)
まとめ • ROSとCLIPを使って画像識別器を効率よく設計する手法についてまとめた • amberを使うことで簡単にマルチモーダルなROSを活用したロボットの基盤を構 築可能 <<<< 超重要! >>> rosconjp
@ 浅草で僕と握手!