Slide 1

Slide 1 text

Video Object Segmentation using Teacher-Student Adaptation in a Human Robot Interaction (HRI) Setting Mennatullah Siam, Chen Jiang, Steven Lu, Laura Petrich, Mahmoud Gamal, Mohamed Elhoseiny, Martin Jagersand https://msiam.github.io/ivos/ @p_shiko

Slide 2

Slide 2 text

論文の概要 ● 新規物体のセグメンテーションを人とロボットの対話的作業を 通した Adaptation により学習する手法を提案 ● 対話的学習の動作を含む家具のセグメンテーション済ビデオ データセット(IVOS)の作成 [1] https://msiam.github.io/ivos/

Slide 3

Slide 3 text

1. モチベーション 2. 提案データセット 3. 提案手法 4. 実験結果

Slide 4

Slide 4 text

モチベーション ● ものを掴むタスクではObject Segmentationは重要 ● ロボットが対象とする環境・物体は多種多様 → 事前に全てをデータセットに含むのは困難! ● 転移学習で都度新規物体を学習しよう! →でも新規物体の動画にセグメンテーションラベルつけるの辛い・・・ よく分からない物体達 [2] [2] https://arxiv.org/abs/1809.05825

Slide 5

Slide 5 text

一般的なセグメンテーションタスク DAVIS Challenge on Video Object Segmentation ● Semi-Supervised Challenge 最初のフレームがAnnotatoinされた状態から残りのフレームを Segmentation ● Interactive Challenge 人のラフなAnnotation動作から全体をSegmentation ● Unsupervised Challenge 情報なし⇐未知物体という意味でなく、どこが関心領域かが未知 何をセグメンテーションするべきか (関心領域はなにか)を推論するのは一つのチャレンジ Interactive Challenge train data [3]https://davischallenge.org/index.html

Slide 6

Slide 6 text

実際のロボット環境におけるタスク ● タスクが物体把持などのケースでは対象物体が手元にあるケースが多い → 人が対話的に対象物体の情報を提供することが可能 ● 対話的学習を用いることで、より容易に関心物体の学習が可能では? 対話的学習を用いた視点でセグメンテーションの学習をしよう! [1] https://msiam.github.io/ivos/

Slide 7

Slide 7 text

提案手法(Motion Adaptation) 1. Optical Flow とRGB Imageを入力とし、セグメンテーションを行うネットワークを学習とし教師ネッ トワークとする 2. 学習させた新規物体に関して、 Optical FlowとRGB Imageを教師ネットワークに入力 疑似ラベル(セグメンテーション )を生成 3. RGB Imageのみで教師ネットワークの疑似ラベルを再現するように生徒ネットワークを学習させ る Source Target Teacher RGB + Motion 正解ラベル Student RGB Teacher出力

Slide 8

Slide 8 text

IVOS( Interactive Video Object Segmentation) (1)人間が様々な角度で家具を映した映像 (訓練データ)と(2) 訓練データにある家具が実際に利用されてい る映像(テストデータ) の二種類のビデオが含まれる

Slide 9

Slide 9 text

改めて提案手法の立ち位置 ● Semi-Supervised Challenge 最初のフレームのみ ● Interactive Challenge 人のラフなAnnotation動作 ● Unsupervised Challenge Annotation情報なし Annotationラベルではなく対話的な動作で学習をさせる - ラベルがないという意味ではUnsupervised - しかし関心対象を明示する場合はSemi-Supervised?

Slide 10

Slide 10 text

実験 ● DAVIS や IVOSで MOTAdapt の有効性を確認 ● その他のSOTAなUnsupervisedな手法より高い性能を示す ● IVOSデータセットにおいて , 視点変化に対しても頑健な Segmentationができていることを確認

Slide 11

Slide 11 text

所感 ● HRIによるデータ入力を前提として, 入力情報を制御するのは良い発想 ● 精度に関しては DAVIS Challenge 2019 のUnsupervisedタスクのモデルも含めて 評価したい ● ICRA実装がなくて辛いことあるどちゃんとGitHubにコードがあるのは良い