Slide 89
Slide 89 text
89
89
©MIXI
VIT(Vision Transformer)
● Transformerの仕組みを画像分野に応⽤する試み
● 画像を均⼀に分割したパッチを1ピクセルごとのRGB
⾏列に変換し、これを単語のように扱う
● 特徴
○ CNNベースモデルより精度が⾼い
➢ データセットが⼩さい場合は
CNNの⽅が精度が⾼い傾向にある
○ Attentionの機構を利⽤して、
判断根拠(どこに注⽬したか)の抽出ができる
パッチ化(均一に分割)
パッチごとにベクトル化
(本当はRGBの行列)
パッチのベクトルを
単語のように扱う
[(0, 0, 0), (0, 0, 0), (225, 10, 10), (235, 5, 5), (255, 0, 0) ...]