問題設定:参照表現セグメンテーション+指示文理解
• 対象タスク:Object Segmentation from Manipulation Instructions(OSMI)
– 指示文と画像から動作対象物のセグメンテーションマスクを予測
– 「指示文の中から対象物の特定 & 対象物に対する参照表現の理解」が必要
4
"Go to the living room and
fetch the pillow closest to
the radio art on the wall."
Inputs: 画像, 指示文 Output:マスク
Slide 4
Slide 4 text
“the pillow on the right side
above the couch"
Inputs: 画像, 参照表現
問題設定:OSMIタスクはRESタスクよりも難度が高い
• 参照表現セグメンテーション(RES)とOSMIの違い
– 指示文から適切な動作対象物を特定する必要がある
– 平均文長が長い
6
"Go to the living room and
fetch the pillow closest to
the radio art on the wall."
Inputs: 画像, 指示文 Output:マスク
データセット 平均文長
G-Ref [Mao+, CVPR16] 8.4
SHIMRIE 18.8
RES
Slide 5
Slide 5 text
“the pillow on the right side
above the couch"
Inputs: 画像, 参照表現
問題設定:OSMIタスクはRESタスクよりも難度が高い
• 参照表現セグメンテーション(RES)とOSMIの違い
– 指示文から適切な動作対象物を特定する必要がある
– 平均文長が長い
7
"Go to the living room and
fetch the pillow closest to
the radio art on the wall."
Inputs: 画像, 指示文 Output:マスク
データセット 平均文長
G-Ref [Mao+, CVPR16] 8.4
SHIMRIE 18.8
OSMI