画像, 参照表現 問題設定:OSMIタスクはRESタスクよりも難度が高い • 参照表現セグメンテーション(RES)とOSMIの違い – 指示文から適切な動作対象物を特定する必要がある – 平均文長が長い 7 "Go to the living room and fetch the pillow closest to the radio art on the wall." Inputs: 画像, 指示文 Output:マスク データセット 平均文長 G-Ref [Mao+, CVPR16] 8.4 SHIMRIE 18.8 OSMI