Slide 79
Slide 79 text
©MIXI
79
VIT(Vision Transformer)
● Transformerの仕組みを画像分野に応用する試み
● 画像を均一に分割したパッチを1ピクセルごとの
RGB行列に変換し、これを単語のように扱う
● 特徴
○ CNNベースモデルより精度が高い
➢ データセットが小さい場合は
CNNの方が精度が高い傾向にある
○ Attentionの機構を利用して、
判断根拠(どこに注目したか)の抽出ができる
パッチ化(均一に分割)
パッチごとにベクトル化
(本当はRGBの行列)
パッチのベクトルを
単語のように扱う
[(0, 0, 0), (0, 0, 0), (225, 10, 10), (235, 5, 5), (255, 0, 0) ...]