Vision Transformer入門をもっと楽しむために

Slide 1

Slide 1 text

Vision Transformer入門をもっと楽しむために 2022.12.13 品川政太朗 (NAIST) cvpaper.challenge conference Winter 2022 1/23

Slide 2

Slide 2 text

自己紹介品川政太朗（しながわせいたろう）奈良先端科学技術大学院大学先端科学技術研究科知能コミュニケーション研究室助教好物： • Vision and Language（画像と言語の融合領域） • 対話システム • 深層学習 HP：https://sites.google.com/view/seitaro-shinagawa/ twitter: (@sei_shinagawa) 2/24

Slide 3

Slide 3 text

本日は、Vision Transformer入門 (ViT本)の見どころを中心に紹介します第1章 TransformerからVision Transformerへの進化第2章 Vision Transformerの基礎と実装第3章実験と可視化によるVision Transformerの探求第4章コンピュータビジョンタスクへの応用第5章 Vision and Languageタスクへの応用第6章 Vision Transformerの派生手法第7章 Transformerの謎を読み解く第8章 Vision Transformerの謎を読み解く 3/24

Slide 4

Slide 4 text

Amazonでいただいたコメント https://www.amazon.co.jp/Vision-Transformer%E5%85%A5%E9%96%80- Computer-Library/dp/4297130580/ Vision Transformer（ViT）について、前半は余り数式もなく、平易に書かれているので、何周かすれば段々理解が深まると思います。 … 一方で、後半は数式が増えて来て、数学が苦手な人には苦しい内容となっています。この本を読んだ一番の収穫は、Vision Transformerが何をやっているのかを概ね理解出来た点と、何故上手く行くのかはまだ誰もよく分かっていないという事が分かった点(笑)。「最近Vision Transformer系のモデルの名前をよく聞く。でも一から勉強するのも大変だし、今やっている仕事はResnetでそこそこ上手くいっているし、後回しで良いか」といったレベル感の人に最適だと思う。 ViTの概念的な説明から実装、応用まで幅広くポイントを抑えている。特にCNNとの対比や各論文のモチベーションについては簡潔ながら丁寧に書かれている。 4/24

Slide 5

Slide 5 text

ViT本はどんな本？本書が対象としている方 • 目的関数や誤差逆伝搬などの機械学習の基礎的な仕組みを知っている • Multi-layer perceptron (MLP)やConvolutional Neural Network (CNN)を知っている • でもTransformerやVision Transformerは興味あるがよく知らない • これから基礎から応用まで最新情報に最速で追いつきたい方向け 5/24

Slide 6

Slide 6 text

第1章 TransformerからVision Transformerへの進化 • 概要と歴史第2章 Vision Transformerの基礎と実装第3章実験と可視化によるVision Transformerの探求 • 基礎と実装第4章コンピュータビジョンタスクへの応用第5章 Vision and Languageタスクへの応用 • 応用先の事例と展望第6章 Vision Transformerの派生手法第7章 Transformerの謎を読み解く第8章 Vision Transformerの謎を読み解く • Advancedな内容（ある程度知っている人向け）各章の立ち位置（ざっくり）初学者向け玄人向け？ 6/24

Slide 7

Slide 7 text

目指した立ち位置はViTの教科書編集者の高屋さん • 幅広い層の方に読んでいただける本にしたい • 最新動向よりは教科書として色あせない基礎を知識の解説ライブラリの使い方を解説した本コード付きの実装解説はあります（一応）ライブラリはHugging Faceが有名 https://huggingface.co/docs/transformers/index 7/24

Slide 8

Slide 8 text

Q. 本書を読むのに最低限の知識をつけるには何から始めれば？瀧雅人著『これならわかる深層学習入門』の8章までだいたい把握できていればOKです 1 はじめに 2 機械学習と深層学習 3 ニューラルネット 4 勾配降下法による学習 5 深層学習の正則化 6 誤差逆伝播法 7 自己符号化器 8 畳み込みニューラルネット 9 再帰型ニューラルネット 10 ボルツマンマシン 11 深層強化学習 8/24

Slide 9

Slide 9 text

各章の見どころ 9/24

Slide 10

Slide 10 text

第1章 TransformerからVision Transformerへの進化 TransformerからViT、そして近年の新展開について、歴史的経緯を踏まえて概観できる！ TransformerやViTをまず俯瞰から把握したい方におススメ初学者向け 10/24

Slide 11

Slide 11 text

第2章 Vision Transformerの基礎と実装 https://github.com/ghmagazine/ vit_book/tree/main/ch2 ゼロから作るVision Transformer Vision Transformerの仕組みが図付きで丁寧に解説されてます PyTorch実装のコードも解説付きでついているので試せる！ Vision Transformerの仕組みを一から丁寧に把握したい方におススメ初学者向け 11/24

Slide 12

Slide 12 text

第3章実験と可視化によるVision Transformer の探求本書オリジナルでViTの追試を行い、実験設計から分析までの実験手続きも学べるデータセットは以下をサポート • ImageNet-1k • Fractal DataBase-1k（FractalDB-1k）特に学んでおくと役に立つこと • 画像認識を行う際に考慮すべきデータ拡張の方法 • ハイパーパラメータの設定方法 • 位置埋め込みや判断根拠の可視化方法 ViTの理解だけでなく、ViTを研究に使うために自分で手を動かしたい方の最初のチュートリアルとしておススメ初学者向け Colabのリンク：https://colab.research.google.com/drive/12560QE3okNuXHxy0GLp3nv74S1ildHEF?usp=sharing 12/24

Slide 13

Slide 13 text

第4章コンピュータビジョンタスクへの応用 Transformerで学ぶコンピュータビジョン(CV) CVタスクの概要と、 Transformerの応用が学べる • 画像認識 • 物体検出 • セマンティックセグメンテーション • 動画認識 • オブジェクトトラッキング • 3Dビジョン CVタスクの各論と Transformerの応用について知りたい方におススメ初学者向け 13/24

Slide 14

Slide 14 text

第5章 Vision and Languageタスクへの応用 Transformerで学ぶVision and Language (V&L) V&Lタスクの概要と、 Transformerの応用が学べる • VQA • Image Captioning • Embodied AI • etc. V&Lタスクの各論と Transformerの応用について知りたい方におススメ特にEmbodied AIは詳しいです初学者向け 14/24

Slide 15

Slide 15 text

第6章 Vision Transformerの派生手法 Vision Transformerの系統樹をご覧あれ！ SWin TransformerやDeiTなど、 Vision Transformerの代表的な派生手法について紹介している章 Vision Transformerを理解して物足りなくなってきたら読んでみましょう玄人向け ViTの発展系を網羅的に把握しておきたい方におススメ 15/24

Slide 16

Slide 16 text

第7章 Transformerの謎を読み解く玄人向け Transformerで引っ掛かりがちな謎を丁寧に解説しました Transformerをよりディープに理解したい方におススメ 16/24

Slide 17

Slide 17 text

例えばこういうことがわかります色々な位置埋め込みの作り方と入力の仕方の違い • 学習するのかしないのか • 入力に入れるのかAttentionのbiasとして入れるのか • 絶対位置か相対位置か • 自然言語処理とコンピュータビジョンでどのモデルが該当するか 17/24

Slide 18

Slide 18 text

第8章 Vision Transformerの謎を読み解く玄人向け Vision Transformers vs CNNs (ResNet) vs MLP-Mixers の三国時代の決着やいかに？三国時代によって見えてきたViTの現在に興味がある方におススメ 18/24

Slide 19

Slide 19 text

例えばこういうことがわかります • ViTとCNNは似たもの同士 • 大規模にすると入力への反応(activation map)も似てくる • しかし、違いはやはりありそう→組み合わせるのが大事かも？ 19/24

Slide 20

Slide 20 text

執筆背景 Transformerメタサーベイ • 2021年2月~4月に実施 • 目的はTransformerの分野横断的把握 • 著者のうち、山本、Qiu、品川はここからのつながりがきっかけ https://www.slideshare.net/cvpaperchalleng e/transformer-247407256 色々な発表機会にも恵まれたくさんの反響とフィードバックをいただきましたありがとうございます 20/24

Slide 21

Slide 21 text

TransformerメタサーベイからViT bookへメタサーベイが終わった時の私（2021年4月末）やった・・・この地獄からようやく解放される (Vision) Transformerで本を書きませんか！（2021年12月ごろ?）片岡さんうおお・・・まあでもTransformerで学生さんに同じ苦しみを味わってほしくないしな・・・わかりました、（人柱を）やりましょう！ 21/24

Slide 22

Slide 22 text

Vision Transformer本執筆、始動著者陣の分担はあっさり決まりました • 品川はTransformerとVision Transformerの分析的な話について後半の2章分を担当書く内容には最初からだいたい目途をつけていました • 基準は、「TransformerやViTをこれから使い始める・使っている人が最低限知っておくと全体の見通しがよくなりそうなこと」 • 効果は絶大。自分の学生さんの質問にもよく使っています「謎を読み解く」に落ち着いたのは、「CV最前線と被る」「教科書的な立ち位置を目指したい」という理由から • Transformer、ViTの謎に迫る！---分析と改善の最前線（Transformer編） • Transformer、ViTの謎に迫る！---分析と改善の最前線（ViT編）余談：品川担当分は現在進行形な話も入るので最初の章題は下記でした 22/24

Slide 23

Slide 23 text

Vision Transformer本執筆、つらい特に手を焼いたのはViTとCNNの敵対的摂動への頑健性の話とんでもないところに手を突っ込んでしまった感 • 日々更新されていくSoTA • 沢山出てくる新規論文>>読める量 • 執筆途中でひっくり返る前説・・・ • 執筆初期：ぱっと見ViTの方がCNNより強いやろ • 執筆中期：あれ、意外とViTの頑健性に否定的な報告も出てきてるな・・・わからなくなってきた・・・ • 執筆後期：モデルの規模もデータセットも揃ってなくてめちゃくちゃやんけ・・・サーベイ論文もないし自分でまとめるしかないか • 執筆終盤：ViT vs CNNで頑健性を考えるのは不毛、お互い仲良く生きていこうな・・・という結論に到達 23/24

Slide 24

Slide 24 text

それでも学びも多かったやはり執筆した当人が一番勉強になる • 最高精度のモデルは大規模化が進んでいる • 一方で、小規模で高性能なViTの研究も進んでいる動きがある • ViTは帰納バイアスが小さいので、iPS細胞のようにCNNのような役割やプーリングの役割をしているところがある • CNNとプーリングをViTに適切に組み合わせれば必要サンプルサイズを小さくすることが可能 • 一方で、ViTでないとできないこと、というものは少ない • 訓練方法の工夫で、CNNも性能が向上する • 現状ViTがCNNよりも優れていそうなのは、形状認識くらい？詳しくはVision Transformer入門で！ 24/24