CLIPでrosbagのデータを検索してみる話

CLIPでrosbagのデータを検索してみる話 2023/09/14 片岡　大哉 ROS Japan UG #52 仙台の陣

自己紹介 • 2012 - 2016 (大学生時代) ◦ 大学時代にVRがやりたくてUnityでゲームプログラミングを始める • 2016
- 2018 (大学院時代) ◦ 研究室でロボットを始める ▪ 柔らかいロボット機構の制御を研究 ▪ ロボカップでロボットサッカーにハマる ◦ 海洋ロボットの開発に着手 ▪ 今も趣味で自律航行システムを開発中 ▪ オープンなROS 2教材つくったり • 2018- (社会人) ◦ 新卒で自動運転業界に入る ▪ 某社で高速道路ADAS開発に従事 ◦ 株式会社TIER IVに転職 ▪ 主にシミュレータ開発を担当 ▪ 最近はROSJP運営やったり

RSJ、お疲れ様でした！

世はML全盛期一昨年くらいからOpenAIのCLIPを皮切りにV&Lの研究が活発についに21KクラスインスタンスセグメンテーションできるDeticなども発表出典: Open AI CLIP 出典: facebook research
Detic

マルチモーダルな基盤モデルで何ができるか今までかけまくっていた複雑なフィルタや状態機械を一部置き換え可能モダリティをまたいでいるので、言語モデルの推論結果で画像認識を補助したり、様々な応用が可能出典: IT media

ROSにおける基盤モデル活用のつらさ • NLP技術がハブになっていることが多く、「プロンプト」を入力してタスクを説かせるケースが多い • いわゆるプロンプトエンジニアリング • 例：DeticはFaster R-CNN +
CLIPの２段階が存在 ◦ Detectionがうまく行っても適切なプロンプトが必要 ◦ 特徴量空間が高次元であるため人間の直感と反することも＝＞　「ある事象を表すのにプロンプトって何...??」出典：2万クラスを検出できるインスタンスセグメンテーション

表現学習 CLIPのようにデータとデータの「関係性」を学習する手法、CLIPは画像エンコーダとテキストエンコーダを対照学習させてテキストイメージペアがコサイン類似度が高い512次元のベクトルで表現されるようにエンコーダを学習させる出典: Open AI
CLIP

ロボティクス特有の課題お絵描きAIなどでは大規模なデータセットで学習を回すが、ロボットは時系列画像を扱うため、時系列画像をそのまま使うとどうしてもImage Encoderの出力がほとんど同じログデータから物体認識を設計しようとしても概念の境界線を決める作業がいわゆるAIの手法をそのまま適用しただけで
は困難ただの transformer 似たような画像似たようなベクトル出てくるコサイン類似度が全部近い！出典: Open AI CLIP

解決方法 • わかりやすく可視化 • 可視化結果をもとにコサイン類似度のしきい値とプロンプトを設計可能 • 思わぬ副作用で画像をプロンプトで検索できるように
• 未検証でこれから実装してみますが、クラスタリングすればプロンプトの設計不要説も...

amber ROSBAGのデータを可視化したり、 pytorchに直接食べさせたりするOSS clipで識別器を実装してたらまともに動かなかったので可視化ツールを実装しました。 ROS依存はありませんのでクラウドなどでも使えます Github rosconjpで僕と握手！

論よりRUN 会場の方はこのURLでtensorboardをとおしてCLIPの特徴量空間を眺められます（多分）

まとめ • ROSとCLIPを使って画像識別器を効率よく設計する手法についてまとめた • amberを使うことで簡単にマルチモーダルなROSを活用したロボットの基盤を構築可能 <<<< 超重要！ >>> rosconjp
@ 浅草で僕と握手！

CLIPでrosbagのデータを検索してみる話

CLIPでrosbagのデータを検索してみる話

Masaya Kataoka

More Decks by Masaya Kataoka

Featured

Transcript