提案手法: Paraphraser – 大規模言語モデルを用いた
指示文言い換え
- 12 -
■ Paraphraser
■ ドメイン間の差異を埋める言い換えを行う
■ 不必要なドメイン転移を抑える
例:
→転移学習手法の精度向上を期待
“Make your way down
the hall to the second
floor office kitchen and
turn on the lights”
“Turn off the lights in
the second floor office
kitchen”
GPT-3.5␣
この文型のドメイン転移をモデルに
学習させるのはリソースの浪費
定性的結果-成功例1 : 参照表現を正しく理解
- 16 -
■ 指示文: "Take down the photo closest to the kitchen doorway“
■ 候補領域: 右手前の絵
指示文が示す対象物体: 右手前の絵
と正しく判断
■ “closest to the kitchen doorway”
という参照表現を正しく理解
Slide 17
Slide 17 text
定性的結果-成功例2: 参照表現を正しく理解
- 17 -
■ 指示文: "Bring me the light brown pillow next to the plant."
■ 候補領域: 中央オレンジの枕
指示文が示す対象物体: 最も左の枕
と正しく判断
■ “next to the plant”
という参照表現を正しく理解
Slide 18
Slide 18 text
定性的結果-失敗例: 視覚情報の欠如
- 18 -
■ 指示文: "Pull out the chair furthest from the fireplace."
■ 候補領域: 左側の椅子
指示文が示す対象物体: 右手前の椅子
と誤った判断
■ 画像内に“the fireplace”が
存在しない
Appendix: エラー分析
- 21 -
CE(Comprehension Error)
■ 視覚情報や言語情報の処理に失敗した例
■ 参照表現理解に失敗した場合
■ 言語情報から関連する物体を正しく特定できなかった場合
AI(Ambiguous Instruction)
■ 曖昧な命令文が与えられた例
SR(Small Region)
■ 対象領域が画像全体の1%に満たず,極端に小さい例
エラーの
種類
CE AI SR SO ML AE MO IL
エラー数 42 18 16 9 8 3 2 2
Slide 22
Slide 22 text
Appendix: エラー分析
- 22 -
SO(Severe Occlusion)
■ 対象物体が他の物体に隠れている例
ML(Missing Landmark)
■ タスクの実行に必要な参照表現の視覚情報が欠如している例
AE(Annotation Error)
■ アノテーション誤りを含む例
エラーの
種類
CE AI SR SO ML AE MO IL
エラー数 42 18 16 9 8 3 2 2
Slide 23
Slide 23 text
Appendix: エラー分析
- 23 -
MO(Multiple Object)
■ 候補領域が複数の物体を含む例
IL(Paraphraser Information Loss)
■ Paraphraserを通して命令文から余分な情報を除去したときに,
タスクの実行に必要な情報が失われてしまう例
エラーの
種類
CE AI SR SO ML AE MO IL
エラー数 42 18 16 9 8 3 2 2