Slide 9
Slide 9 text
Sequence construction – Bounding boxを離散トークンに
Class labelはもともと離散トークンとして表現される(object idなど)
Bounding boxも離散トークンに変換
一つの物体に対して最終的に得られるトークン列は
[ , class]
➔ LMにおけるDecoderの入力(全ての物体の情報)は
[SOS, 1 1 1 1, class1, classL, EOS]
9
→ (54, 261, 439, 409)
→ (0.11, 0.41, 0.91, 0.64)
→ (55, 205, 454, 319)
→ [55, 205, 454, 319, 1764]