Slide 6
Slide 6 text
既存研究:既存手法では生成文の品質が低い
6
タスク 代表的手法 概要
Image Captioning
Object Relation Transformer
[Herdade+ NeurIPS19]
領域間の幾何的参照表現をモデル化
Video Captioning
VideoBERT
[Sun+ ICCV19]
映像と音声を扱ったBERT-basedモデル
Change Captioning
DUDA
[Park+ ICCV19]
RNNを用いたChange captioningモデル
FIG
Case Relation Transformer
[Kambara+ RAL&IROS21]
Transformerを用いた言語生成モデル
VideoBERT Case Relation Transformer
Object Relation Transformer