Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

第60回名古屋CV・PRMU勉強会:CVPR2024論文紹介(Vision Transformer)

第60回名古屋CV・PRMU勉強会:CVPR2024論文紹介(Vision Transformer)

2024年7月20日に開催された第60回名古屋CV・PRMU勉強会で発表された内容です.
CVPR2024で発表されたVision Transformerに関する論文をまとめました.

Wakayama Hiroyuki

July 19, 2024
Tweet

Other Decks in Research

Transcript

  1. 自己紹介 • 研究内容 – ViTとCNNの構造と特性 – ViTの圧縮手法(量子化) • 趣味 –

    炊き込みご飯 – 燭台集め  中部大学 工学研究科 ロボット理工学専攻 修士2年 藤吉弘亘 研究室
  2. Vision Transformer(ViT) • CNNの次世代:画像認識分野で大規模で高性能なモデル – 爆発的な人気モデル→様々な派生手法が発表  計算量が膨大 大規模なデータセットが必要 受容野が広いことは有効か?

    局所的な細かい認識が苦手 ViTの成功の鍵はSAなの?構造最強説 SAの計算が無駄に多い 帰納的バイアスが小さい 認識特性で高周波成分を獲得しない 特定のノイズに弱い ハイパラの影響を受けやすい 収束が遅い マルチヘッドはアンサンブル効果を発揮? クラストークンは悪影響? 位置埋め込みは必要? パッチの分割方法は最善か? ResNetのように階層型が良い? SAは動的なパラメータだから成功? SAじゃなくても良くない? CNNと違う特徴抽出してる? CNNも負けてない MLPも負けてない これら問題点を解決して ViTは進化する ViT 派生論文 モデル圧縮:枝刈り,量子化,蒸留 ラベルなし:自己教師あり学習 ~ ViTの悪口 ~ ViT 詳しくはこちら https://qiita.com/wakayama_90b/items/32fb39e0d609148478c1
  3. ViTモデル構造【簡単ver】  MHSA FFN ×N 馬 MHSA FFN Q ヘッド分割

    Liner V K A SA SA Liner Liner パッチ間の関係を捉える パッチ内の関係を捉える 牛 車
  4. MLP Can Be A Good Transformer Learner[S.Lin+,CVPR2024] • ViTのSAの計算が高コスト –

    従来研究からViTは冗長でトークンの枝刈りで有効 – 不要なSAの選別して計算負荷を軽減:深い層は重要,浅い層は不要 • 学習中に情報エントロピー(学習の貢献度)で重要度を相対的に判別 • 重要ではないトークンをSAの出力にマスクM(要素ごとにマスク) • マスクMが0になった時:SAの計算は完全に削除 – 全層でトークンの枝刈りしていて比較的深い層が有効  M=0の場合に2xが残る
  5. Mean-Shift Feature Transformer [T.kobayasi,CVPR2024] • ViTのSAの効果を最大化 – LinearPを通したP(シフト) – QKVの計算後に重要なトークンの分布はプラスにシフト

    • シフトの効果を最大化:どのトークンが重要かを理解する必要 – 内積でなくDistCompを使用 • トークン間の類似度計算(ユークリッド距離で計算) – トークンのクラスタリングのように全トークンの関係を捉える – 重要なトークンは集約するようにシフト • 内積は1対1のトークンの関係を捉える – 全てのトークンの絶対評価が不可能 – 全体を捉えるクラスタリングを理解できない • 局所的なSAで計算量削減  QKVにPを追加
  6. SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design [S.Yun+,CVPR2024]

    • ViTの構造的な観点から計算量削減 – パッチ分割:4層の3x3畳み込み,ステージ1:SAを削除 • ViTの浅い層は畳み込みと似た特徴抽出→畳み込みに置換 • ViTの持たない畳み込みの局所的な特徴抽出知識の獲得,早期収束 • ダウンサンプリングによるSAの計算量削減 • 2,3ステージ:シングルヘッドSA – SAするヘッドとしないヘッドに分割 – ! ".$% のチャンネルをSAの計算に使用 • 実験的に決定したハイパラ – 残りのチャンネルには手をつけない • 計算量削減,ヘッドは冗長 
  7. You Only Need Less Attention at Each Stage in Vision

    Transformers [S.Zhang+,CVPR2024] • ViTでSAはそんなに必要ない – ステージ2,3,4の1層目にSA • 2層目から前層のAttention Weightを用いて次のAttention Weightを計算 • 前層のAttention Weight→Linearと行列転置→ softmax後に前層のMLPの出力と内積 • この操作がSAに置き換わる • 有効なAttention Weightを生成するために特別は勾配関数を使用 – attntion weightの妥当性を向上 • 対角要素(自分自身の注意スコア) が他要素より大きいこと • 注意行列が対称であること – これら目指すように重み更新  ステージ1は全て通常のSA Softmax前のAttention Weightを次層に伝達
  8. Learning Correlation Structures for Vision Transformers [M.Kim+,CVPR2024] • ViTの新しいSA手法:StructSAの提案 –

    Attention weightの表現力の向上 • StructSA :SAの計算でQKの内積後に3x3畳み込みを追加 – 局所的な認識特性の獲得,Attention weightのチャンネル数を8倍に拡張 – 多様な表現力を獲得→各チャンネルでsoftmax→Vと内積→1チャンネルに圧縮 • 動画の場合 – Qは最初のフレームを入力,Kは次のフレームを入力 • フレーム間の相関関係を捉える • フレームが8つ – 入力が8チャンネルで畳み込み出力も8チャンネル 
  9. RMT: Retentive Networks Meet Vision Transformers [Q.Fan+,CVPR2024] • ViTの計算範囲グローバル?ローカル? –

    それぞれ良い特性を持つ – その両方の特性を獲得できるようなモデル • 位置埋め込みの値から距離 (L1距離) が近いほどSAの重要度に重み付け(距離による重み) • 計算量削減:全ての行→水平と垂直に分割してSA  距離による重みD 行と列で分割して Attention Weight
  10. TransNeXt: Robust Foveal Visual Perception for Vision Transformers [D.Shi,CVPR2024] •

    生物の眼球運動も模倣したViT設計(SAに代用) – ローカルSA:クエリ周辺のパッチKVと内積 – グローバルSA:画像全体からダウンサンプリングしたパッチKVと内積 • 連結→Softmax:より有効な受容野の情報が次に伝達 – Query Embedding:学習可能パラメータを持つベクトル • SAに静的なパラメータの導入で強化,特定のタスクに適応 – 学習可能トークン:クエリと学習可能なパラメータのKと内積 • 動的に位置情報を捉える • CLU(FFNに代用) – チャンネル重要度を動的に決定 – ゲート構造 • 片ルートは0~1の重要度 • Activation(シグモイド関数) 
  11. Multi-criteria Token Fusion with One-step-ahead Attention for Efficient Vision Transformers

    [S,Lee+,CVPR2024] • ViTのトークンは冗長:トークンを削除するのではなくトークンの融合 – 融合方法:MLPの1層を通して融合(厳密には引力関数) • 情報損失を削減しながら融合する方法(Attention Weightから計算) – 類似性:情報が類似したトークン同士は融合(W_sim) – 情報量:情報量が少ないトークン同士は融合(W_info) – 融合トークンサイズ:融合した範囲が小さいトークン同士は融合(W_size) • 融合しすぎてトークンサイズが大きくなりすぎも抑制 
  12. A General and Efficient Training for Transformer via Token Expansion

    [W.Huang+,CVPR2024] • ViTの冗長なパッチを統合:計算量削減と高速化 • トークンを2つのグループに分割(一様なサンプリングで決定:中心のトークンはA) – トークンセットA(前景トークン),トークンセットB (背景トークン) • 学習の段階的にAに追加するトークン,Aの分布に統合するトークンの2つをBから削除 – Aの分布と距離が最も遠いトークン:Aに追加 • 背景トークンが追加:背景情報も大切な情報 – Aの分布と距離が最も近いトークン:Aの分布に統合(2つのトークン値の平均) • 削除ではなく統合することで情報が保持 • フルトークンと比較 – 少ないトークンでも多様な表現力  Bの背景トークンはAに追加した背景トークンと統合 Bの前景トークンはAにある前景トークンと統合
  13. Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation

    Methods [M.Jiang+,CVPR2024] • ViTとCNNの違いについての調査 – ViTの重要な複数パッチ(MSE)を特定 – MSEでいくつかのパッチをぼかし処理orマスク処理 – 重要なパッチがマスク:クラス確率の変化 • 変化しない:マスクされたパッチが重要でない • 大きく低下:マスクされたパッチが重要 他パッチとの強い相互作用 • 決定木でパッチが様々なパターンでマスク(下段:多くのパッチをマスク) – どのマスクパターンでも強い精度 
  14. • 各モデルで特徴抽出が近似してるか調査 – 学習済みモデルからピクセル単位の重要度ヒートマップ – 重要でないピクセルをぼかし処理 – 処理後の画像を他モデルに入力:クラス確率の変化 • 精度向上:特徴抽出が近似

    • 特徴抽出が似たモデル – (ViT系)ViT,ConNeXt,(CNN系)ResNet,VGG,Swin,DeiT • 重要なパッチMSEの傾向 – CNN,ConvNeXt,DeiT:MSEの数が多い • 重要な1つパッチがあれば精度向上 • 対象のパッチが削除:精度低下の可能性(パッチ依存) – Swin,ViT:MSEの数が少ない • 多くのパッチを考慮,パッチ間の関係性を認識 • 部分的な情報が欠けても高い分類精度を維持する傾向(全体を捉える)  Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods [M.Jiang+,CVPR2024]
  15. Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision Transformer

    [J.Wu+,CVPR2024] • ViTの視覚的説明性の向上:可視化手法の問題点 – Grad-CAM:SAの動的な注意重みを反映することが困難 – Attention Rollout:FFNの影響を反映できない – ViTの全層を考慮した可視化が実現できていない • TokenTMを提案( Rollout と組み合わせて全層の貢献を追跡可能) – 可視化の初期値:各層の特徴のトークンの長さ(値の強さ)を計測(L2ノルム) – 各層のLinearの前後の値の変化を計測(L2ノルム,コサイン類似度)貢献マップの更新 – 各層の貢献マップを集約 
  16. On the Faithfulness of Vision Transformer Explanations [J.Wu+,CVPR2024] • ViTの適切な可視化方法が分からない

    – 注目位置とクラス確率の貢献度が一致していない可能性 • 注目位置を評価するSaCoを提案 1. 各可視化手法で可視化 ヒートマップの値を計算 2. 各ピクセルを重要度別にK個のグループに分ける 3. 特定のグループの値を全ての平均値に置換 4. モデルのクラス確率を再評価 5. 信頼度を測定 • 結果的にViTでスコアの集計(SaCo)が高い可視化手法 – Transformer Attribution,ATTCAT(Attentive Class Activation Tokens)  一番重要なグループが平均値に置換:精度低下が自然 自然な傾向:プラススコア 不自然な傾向:マイナススコア
  17. Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach [W.Dong+,CVPR2024]

    • 大規模な事前学習ViTモデル:下流タスク適応でファインチューニングが必要 – 更新すべきパラメータが大きすぎる – 効率的に下流タスクに適応する手法を提案 • 事前学習ViTに学習可能なスケールとシフトを追加 – 学習済み重みでなく追加したスケールとシフトのみを更新:下流タスクに適応 – 事前学習で獲得した重みとバイアスは固定 – 追加したスケールsとシフトfをのみを学習 • スケールやシフトによって更新されたΔWで重みWを更新 • Wにスケールの要素積 – 特異値分解の手法で計算 – 計算量削減 
  18. Instance-Aware Group Quantization for Vision Transformers [J.Moon+,CVPR2024] • ViTの入力で各チャンネルで分布のバラツキ:量子化する際に表現力の低下 –

    各チャンネルで分布が似ているチャンネルでグループ化:グループ内で量子化 – 量子化の細かさ:層ごと<グループ<チャンネルごと – グループは極論:層ごと,チャンネルごとのどちらにもなる可能性 • グループ数は動的にアルゴリズムに沿って決定 – 各層でグループ数が決定,各グループのチャンネル数は不均等 – 予測確率の近似とグループ数による計算量制約のバランスを探索 • Softmax後の量子化:パッチ毎に分布のバラツキ – 各パッチで似た分布でグループを作成 
  19. Once for Both: Single Stage of Importance and Sparsity Search

    for Vision Transformer Compression [H.Ye+,CVPR2024] • ViTの枝刈り手法:枝刈り対象の正確な特定と高い圧縮率を実現 • 二重マスク戦略 – 重要度スコアS(予測性能にどれだけ寄与しているか) – スパース性スコアV(各ユニットが保持されるべき確率α) – 学習初期(t=1,2,3,…)は重要度スコア,学習後半(t=100,101,..)でスパース性に基づいて評価 • 適応型ワンホットロス – スパースで計算量が 小さくなるように重みを更新  ユニット:各色の範囲に1つ学習可能な保持確率αを保持 値が低いと枝刈り
  20. Solving Masked Jigsaw Puzzles with Diffusion Vision Transformers [J.Liu+,CVPR2024] •

    画像や動画のジグゾーパズル問題:難解タスク • 画像編集,生物学,考古学,文書や写真の修復などで重要 • 順番がバラバラ,一部マスクもされている状態から完全に回復 • 学習方法 – ViTのパッチ分割でランダムにパッチをマスク • 条件付き拡散モデルでマスクされたパッチの生成で誤差計算 – 位置埋め込みの値をマスク • 位置埋め込みの値で誤差計算 • テスト時:順番?の穴あきの画像を入力(位置埋め込みなし) – パッチの復元と正しい配置の画像出力 
  21. Towards Understanding and Improving Adversarial Robustness of Vision Transformers [S.Jain+,CVPR2024]

    • 従来では敵対的攻撃はCNNの方が有利(ピクセルの値を少し変えるなど人間に認識できない小さな変更→頑健なモデルの証拠) – ViTがうまくいかない原因:SAのSoftmaxで小さな値の表現エラーが多い – この問題を解決する方法:softmax前にスケールを導入(動的なスカラー値) • softmaxは0~1に制限 – 入力の値が極端に小さい,大きい,偏りがある場合に,softmaxの表現力が理論的に低下 – スカラー値の導入:その分布の問題を改善 • 範囲値が (0~0.1)の場合にスカラー値10の積→値範囲(0~1)の状態でsoftmax:表現力が保持 • 学習時から攻撃画像で学習 • 蒸留のように距離計算( SAの出力位置) – 教師に画像の攻撃なし,スケールなしで計算 – 生徒に画像の攻撃あり,スケールありで計算 – 2つの分布の距離(一致度)が高くなるよう重み更新 
  22. Random Entangled Tokens for Adversarially Robust Vision Transformer [H.Gong+,CVPR2024] •

    ViTの敵対的攻撃の頑健性の向上 – 様々なノイズに頑健→一般性の向上が必須 • SAのトークンに学習可能なノイズトークンを追加 – ノイズトークンと一緒にSAを計算 • ノイズトークンを一緒にSoftmax – 外れ値で元データに悪影響 – ノイズトークンだけ個別にsoftmax – 1つのノイズトークンでは不十分 2つの異なる特性を持つノイズトークンを使用 • 2つのトークンは互いに異なる特徴を持つように学習 • ラベル誤差と一緒にノイズトークンの類似性も最小化するように学習 – モデルがノイズトークンに適応するように訓練 – 学習段階で敵対的攻撃の画像を学習→頑健な重みを獲得 • このようにして敵対的攻撃に頑健なViTを学習 
  23. DeiT-LT: Distillation Strikes Back for Vision Transformer Training on Long-Tailed

    Datasets [H.Rangwani+,CVPR2024] • 各クラスでデータ数に偏りがあるデータセット:有効な学習ができない – データの不十分でテスト時に未知データの可能性→一般性(ロバスト)を向上させて解決 – ViTの解決方法: OOD画像の蒸留,蒸留損失の再重み付け • OOD画像の蒸留(未知データを使用して蒸留) – DeiTのように蒸留トークンの追加で学習済みCNNを教師 – 蒸留トークンが少数クラス,分類トークンが多数クラス の専門家として機能 • 蒸留損失の再重み付け – SAMで損失関数の周囲の鋭さをなめらかに進化 • 重み分布を少しシフト →損失の差を最小化するように重みを更新  蒸留トークンの追加で可視化能力の向上 DeiT
  24. Dexterous Grasp Transformer [G.Xu+,CVPR2024] • 運動学などで計算して把持するより把持方法を深層学習で探索した方が有効 • Transformerで多彩で柔軟性な把持ポーズを生成 – 3次元データ→Object

    Encoderで特徴ベクトルに変換→Transformerに入力 – FFN:特徴ベクトルを具体的な把持ポーズ(位置,回転,関節角度)に変換 • Transformerの理由 – 把持はグローバルな視点が必要 – 多様な把持ポーズの生成 – 高性能な物体検出 etc. • 発生する問題のペナルティ – オブジェクトの貫通 – 手とオブジェクトが遠すぎる – 手のリンク部分が接触 – 手の関節同士の貫通 
  25. Dual-Scale Transformer for Large-Scale Single-Pixel Imaging [G.Qu+,CVPR2024] • シングルピクセルイメージング(SPI) –

    光を取り込むディレクターが1つ(通常は1ピクセルに1ディレクトリ) – 暗い場所で有効:1つのディレクターが全ての光を集める(10個あったら光は1/10) – データの容量が軽量,他カメラと比較して安価 • どのように1つのディレクターで撮影するか? – 様々なマスクパターンで撮影 – 撮影した対象物の特徴量から対象物をアルゴリズム的に再構成 – 近年は深層学習で再構成 • 再構成する際のノイズ – データ量が十分でない時に,対象物を再構成するのに劣化 – 照明条件や外部の干渉,センサの不完全性 – これらノイズの発生しないようViTで再構成  Single-pixel imaging 12 years on: a review Gibson+, 2020
  26. • ViTを使用して再構成 • 空間方向の自己注意(S-SA) – チャンネル方向に2分割 – 高周波(上)の特徴と低周波(下)の特徴を生成→チャンネル方向に連結 • チャネル方向の自己注意(C-SA)

    – SENetのような構造:各チャンネルの重要度を動的に決定 • 入力:様々なマスクパターンで撮影 – 例:50枚撮影,10枚ずつ圧縮 圧縮された5枚=チャンネル数 – ただのノイズみたいなやつ  ResNetのような階層型 各ステージではU-NETのような構造 Dual-Scale Transformer for Large-Scale Single-Pixel Imaging [G.Qu+,CVPR2024]
  27. MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers [Y.Siddiqui+,CVPR2024] • 3次元のオブジェを生成(

    3角形の組み合わせ) – 各3角形には以下の情報で構成(これら複数の三角形で3Dオブジェが完成) • 頂点座標(各三角形の3つの頂点の位置(x, y, z)) • 法線ベクトル(三角形の表面の方向を示すベクトル) • 辺の長さと角度(三角形の各辺の長さと、各頂点で形成される角度) • 面積 – 従来法では大量の三角形で構成→この手法でとてもシンプルな構造 
  28. • エンコーダの学習 – グラフ畳み込みを使用 – 3Dオブジェの特徴を学習→特徴ベクトルを獲得 – デコーダに1DResNetを配置 • デコーダーの学習

    – デコーダにTransfromerを使用 – エンコーダから獲得した特徴ベクトルを入力 – 3Dオブジェを段階的に生成 • 自然言語のように前に生成した情報も考慮しながら次の生成を計算 • いきなりデコーダをTransformerを使用しない理由 – 学習初期に機能せずグラフ畳み込みの学習が困難 – ある程度安定した状態のTransformerは有効 – 計算コストの増加  デコーダの学習(Transfromer) エンコーダの重みは固定 エンコーダの学習(グラフ畳み込み) MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers [Y.Siddiqui+,CVPR2024]
  29. HEAL-SWIN: A Vision Transformer On The Sphere [O.Carlsson+,CVPR2024] • 魚眼レンズで撮影した画像をViTで認識

    – 通常の画像の場合:パッチ分割のグリッドは均等に分割 – 魚眼レンズの場合:天文学で使用されるHEALPixグリッドの理論を使用 • 歪んだ画像には歪んだパッチ分割が有効 • Swin(ローカルSA)を使用した認識 – 浅い層では強く歪んだ画像計算→歪みの影響が大きい – Swinの場合に浅い層ではローカル範囲を計算 • 赤い線の範囲で歪みの影響を軽減 – 地球は遠くから見たら球体だけど,近くで見たら平坦理論 
  30. Autoregressive Queries for Adaptive Tracking with Spatio-Temporal Transformers [J.Xie+,CVPR2024] •

    Transformerを使用した視線追跡 – 防犯カメラなどで特定の人物や物体を追跡(動画から時系列的に物体検出) • 精度向上のための複数フレームから特徴抽出(前の数フレームを使用して特徴抽出) – 各フレームでエンコーダデコーダ構造で認識 • 空間エンコーダ:空間的情報をSAやCA(クロスアテンション)で認識 • STM:空間エンコーダと時間デコーダの特徴を統合 – その出力と初期値テンプレート(図2の左の#0)の類似度計算 – 時間方向と空間方向で認識対象を特定 
  31. • 時間デコーダ:時間方向の特徴を認識 – TA(Temporal Attention) • パッチごとの類似度計算でなく,フレームごとの類似度計算 – 最初のフレーム:1フレーム目の情報のみで計算 –

    2フレーム目:1フレーム目の出力を2フレーム目のKVの入力に統合 • 過去の情報を考慮した認識が可能 • ターゲットの位置特定がフレームごとに更新 • 一貫性の向上,知識の蓄積で認識性能向上 – 3フレームは,1,2フレームの出力をKVに統合と続く  Autoregressive Queries for Adaptive Tracking with Spatio-Temporal Transformers [J.Xie+,CVPR2024]
  32. Point Transformer V3: Simpler, Faster, Stronger [X.Wu+,CVPR2024] • 3D点群データを使用したViT認識:取得したデータからセグメンテーションなど •

    各点にシリアル化:点群の位置に基づいて1次元データに変換(点群の位置関係データ) – 各点の関係性を捉える→近傍の点と関係を繋げる – 繋がった点を分割:分割されたグループをパッチ – 各パッチの関係を捉えるためにViTを使用  Point Cloud:点群データ Serialization:シリアル化 Shuffle Orders:パッチ内の関係を学習 Attention:パッチ間の関係を学習 点群データをパッチ化 Swinのようなローカに範囲で計算 様々なアルゴリズムがあるが4つを組み合わせた手法が最善
  33. Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

    [Y.Zhang+,CVPR2024] • ViTは様々なモダリティにおいて高精度 – 画像から画像タスクに知識を継承 • ImageNet-21kで学習し教師の重みをImageNet-1kで学習する生徒に継承:高性能 – 無関係なデータから画像タスクに継承:高性能な結果になる? • 画像タスクを学習する際に(動画,点群,音声)タスクを学習した重みを継承 • 全ての組み合わせで継承:精度向上 – 潜在的な相関関係,特定のタスクに適応せずに一般性の向上 – モダリティ特有の知識だけでなく,一般的な知識も獲得  学習タスク 補助タスク 補助モデルの重みと学習モデルの重みをサイズを合わせる 継承:補助モデルに学習可能なλを付与,継承する割合を調整
  34. Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers [Z.Yang+,CVPR2024] •

    Transformerを使用した人の目線予測 – トップダウン制御,ボトムアップ制御の両方を同時に予測 • トップダウン:とある目的によって動く目線(時計を探す際に壁を見る) • ボトムアップ:目立ったり動いたりと無意識に動く目線(物が落ちたら見てしまう) • 広告や運転支援に応用可能 – 視線の予測により効果的な運用 
  35. • Feature Extraction Module(ボトムアップ制御) – 画像の特徴を抽出:p1(グローバル特徴),p4(ローカル特徴) • Foveation Module –

    視覚情報が蓄積され次に注視する場所の予測に利用 – 視線の移動に伴ってこのメモリを更新 • Aggregation Module – Cross Attention • その指示に適切なFoveation Moduleを抽出(トップダウン制御) • 時計を探すに適した行動 – Self Attention • 画像の特徴を抽出(ボトムアップ制御) • 目立つものを抽出など  Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers [Z.Yang+,CVPR2024]
  36. Making Vision Transformers Truly Shift-Equivariant [R.Rojas-Gomez+,CVPR2024] • ViTは画像の位置をずらすシフトの影響に敏感 – パッチ分割:同じパッチになる画素が変化→悪影響の可能性

    – システム的に決定した箇所→データの特性に応じて動的に調整可能に再設計 • パッチ分割,ローカルSAの範囲,ステージ間のパッチ統合,位置埋め込み – 入力データに基づいて動的に調整可能  シフト前後でパッチグループが異なる シフト前後でパッチグループが同じ
  37. RepViT: Revisiting Mobile CNN From ViT Perspective [A.Wang+,CVPR2024] • モバイルCNNモデル(従来のモバイルViT,モバイルCNNを参考)

    • 改善箇所 – ブロック:ViTは空間認識→チャンネル認識と分離計算,RepViTも同じように改善 • 識別層:ViTは次元方向にGAP→MLP(シンプルでモバイル向き)RepViTも同じく • カーネル:高性能CNNは3x3以上のカーネルサイズ,モバイルに適さないため3x3を使用 • 拡張率:通常ViTの場合で3,4倍でモバイルViTは2倍, RepViTの1x1convの拡張率2 • 動的な計算:SAは動的に計算,RepViTにはSE(動的に重要なチャネルを計算