Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vision Transformer 入門 2章

Avatar for Takuya Mouri Takuya Mouri
October 23, 2023
140

Vision Transformer 入門 2章

Avatar for Takuya Mouri

Takuya Mouri

October 23, 2023
Tweet

Transcript

  1. Transformer は Encoder + Decoder のネットワークで構成 ViTは Transformer の Encoder

    のネットワークを利用、10クラスの分類で例示 TransformerとViT 6 以降、Vision Transformer入門 より引用
  2. Input layerは画像をパッチに分解、クラストークンを付与、Encoder に入力 Encoder BlockはSelf Attention+MLPの構造 ✓ Self Attentionはトークン間の関連性を捉える ✓

    MLPはトークンごとに非線形層を加える(ゼロから作るDL でカバー!) MLP Headはタスクで決まる(ゼロから作るDL でカバー!) ViTの全体像 7
  3. Input layerは画像をパッチに分解、クラストークンを付与、Encoder に入力 Encode BlockはSelf Attention+MLPの構造 ✓ Self Attentionはトークン間の関連性を捉える ✓

    MLPはトークンごとに非線形層を加える(ゼロから作るDL でカバー!) MLP Headはタスクで決まる(ゼロから作るDL でカバー!) ViTのまとめ(再掲) 28