Perceiver: General Perception with Iterative [輪講発表資料]

Perceiver: General Perception with Iterative Attention [Jaegle, Gimeno+ 2020] 京都大学
音声メディア研究室 M1 渋谷和樹 1

これまではモダリティに依存したアーキテクチャが主流 ⇒アーキテクチャがモダリティにロックインされる Transformerはモダリティに依存しない Transformerの計算量は入力インデックスの二乗に比例任意の入力長に対応できるTransformerベースのアーキテクチャが必要 ⇒Perceiverの登場 Introduction 2

Perceiver 3

Transformerベースのモダリティ非依存アーキテクチャ CrossAttentionによってTransformerの計算量を削減画像・音声・点群において優れた性能 Perceiver 4

アーキテクチャ図計算量 Cross Attention: Transformer: アーキテクチャ（1ブロック） O(M × N ×
D ) ≃ ′ M≪N O(N × D ) ′ O(L × M × 2 D ) 2 5

Attentionは入力系列の順序に依存しない Transformerと同様の位置エンコーディングを利用 p = i,2k sin(f πx
) k d p = i,2k+1 cos(f πx ) k d : ハイパーパラメータ : 次元における位置（） Transformerと異なり、加算ではなく入力へ連結する位置エンコーディング f k x d d −1 ∼ 1 6

結果（Image） 7

実験設定データセット: ImageNet ピクセルレベルの並び替えあり・並び替えなしで実験評価指標: 予測ラベルの正解率アーキテクチャ: (CrossAttention + TransformerEncoder
* 6) * 8 入力ベクトル: 50176x3 潜在ベクトル: 512x1024 結果（Image） 8

比較モデル ResNet-50: レイヤー数50のCNNベースモデル ViT-B-16: Transformerベースモデル入力の処理に16x16の畳み込みを利用 Transformer: 64x64にダウンサンプリングした上で入力結果（Image -
並び替えなしの場合） 9

結果モダリティの仮定をせずにベースラインと互角の性能を発揮ベースラインに位置エンコーディングを入力しても性能は向上しなかった結果（Image - 並び替えなしの場合） 10

設定各画像内のピクセルを同一の規則に従って並び替える帰納バイアスの利用を防ぐ並び替え前に位置エンコーディングを行う位置エンコーディングからピクセル同士の関連は学習可能 Learned pos: 位置エンコーディングを学習する inputRF: 入力レイヤーにおける受容野の大きさ
結果（Image - 並び替えありの場合） 11

結果モダリティを仮定しないTransformerやPerceiverでは性能が悪化しなかった ViTは性能が劣化しづらかった ViTで採用されている畳み込みフィルターはResNet50より大きいから？最終的にTransformerでパッチ間の関係を見ていることも関係してそう？結果（Image - 並び替えありの場合） 12

結果（Audio and Video） 13

実験設定データセット: AudioSet Audio, Video, Audio&Videoで実験評価指標: meanAveragePrecision アーキテクチャ: (CrossAttention+TransformerEncoder*8)*2
入力ベクトル生音声: 480x128 メルスペクトログラム: 4800x1 動画: 12544x128 潜在ベクトル: サイズ記載なし結果（Audio and Video） 14

結果いずれの入力パターンでもほとんどの比較手法と同等以上の性能 CNN-14に関してはbalancingおよびmixupなどの前処理を除くと性能が下回った Attention AV-fusionとの違いは今後の調査課題結果（Audio and Video） 15

結果（Point clouds） 16

実験設定データセット: ModelNet40 評価指標: 予測ラベルの正解率アーキテクチャ: (CrossAttention+TransformerEncoder*6)*2 入力ベクトル: サイズ記載なし（おそらく単純にflatten?）潜在ベクトル:
サイズ記載なし結果（Point cloulds） 17

結果 PointNet++以外の手法より優れていた PointNet++ではドメイン知識に基づいたデータ拡張や特徴量エンジニアリングを行っているため比較対象としては不適？結果（Point cloulds） 18

まとめ 19

TransformerベースのPerceiverを提案 Cross-Attentionの利用により、Transformerの計算量を削減画像・音声・点群いずれにおいても極めて高い性能を発揮モダリティ特有のデータ拡張や位置エンコーディングへの依存を減らすのが今後の課題まとめ 20

Perceiver: General Perception with Iterative [輪...

Perceiver: General Perception with Iterative [輪講発表資料]

shibutani

More Decks by shibutani

Other Decks in Research

Featured

Transcript

Perceiver: General Perception with Iterative Attention [Jaegle, Gimeno+ 2020] 京都大学

Perceiver 3

Transformerベースのモダリティ非依存アーキテクチャ CrossAttentionによってTransformerの計算量を削減画像・音声・点群において優れた性能 Perceiver 4

アーキテクチャ図計算量 Cross Attention: Transformer: アーキテクチャ（1ブロック） O(M × N ×

Attentionは入力系列の順序に依存しない Transformerと同様の位置エンコーディングを利用 p = i,2k sin(f πx

結果（Image） 7

実験設定データセット: ImageNet ピクセルレベルの並び替えあり・並び替えなしで実験評価指標: 予測ラベルの正解率アーキテクチャ: (CrossAttention + TransformerEncoder

比較モデル ResNet-50: レイヤー数50のCNNベースモデル ViT-B-16: Transformerベースモデル入力の処理に16x16の畳み込みを利用 Transformer: 64x64にダウンサンプリングした上で入力結果（Image -