Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Perceiver: General Perception with Iterative [輪...
Search
shibukazu
June 22, 2022
Research
0
96
Perceiver: General Perception with Iterative [輪講発表資料]
Perceiver: General Perception with Iterativeに関する輪講発表資料
shibukazu
June 22, 2022
Tweet
Share
More Decks by shibukazu
See All by shibukazu
Hybrid Autoregressive Transducer [輪講発表資料]
shibukazu
0
270
Other Decks in Research
See All in Research
3D Gaussian Splattingによる高効率な新規視点合成技術とその応用
muskie82
5
2.7k
数理最適化と機械学習の融合
mickey_kubo
15
8.9k
Submeter-level land cover mapping of Japan
satai
3
120
問いを起点に、社会と共鳴する知を育む場へ
matsumoto_r
PRO
0
390
Mechanistic Interpretability:解釈可能性研究の新たな潮流
koshiro_aoki
1
310
ノンパラメトリック分布表現を用いた位置尤度場周辺化によるRTK-GNSSの整数アンビギュイティ推定
aoki_nosse
0
320
Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery
satai
3
490
[輪講] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
nk35jk
2
560
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
1.1k
LLM-as-a-Judge: 文章をLLMで評価する@教育機関DXシンポ
k141303
3
830
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
130
Weekly AI Agents News!
masatoto
33
68k
Featured
See All Featured
Mobile First: as difficult as doing things right
swwweet
223
9.7k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
GraphQLとの向き合い方2022年版
quramy
49
14k
Code Review Best Practice
trishagee
69
18k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.4k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
The World Runs on Bad Software
bkeepers
PRO
69
11k
4 Signs Your Business is Dying
shpigford
184
22k
Speed Design
sergeychernyshev
32
1k
Why Our Code Smells
bkeepers
PRO
336
57k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Done Done
chrislema
184
16k
Transcript
Perceiver: General Perception with Iterative Attention [Jaegle, Gimeno+ 2020] 京都大学
音声メディア研究室 M1 渋谷和樹 1
これまではモダリティに依存したアーキテクチャが主流 ⇒アーキテクチャがモダリティにロックインされる Transformerはモダリティに依存しない Transformerの計算量は入力インデックスの二乗に比例 任意の入力長に対応できるTransformerベースのアーキテクチャが必要 ⇒Perceiverの登場 Introduction 2
Perceiver 3
Transformerベースのモダリティ非依存アーキテクチャ CrossAttentionによってTransformerの計算量を削減 画像・音声・点群において優れた性能 Perceiver 4
アーキテクチャ図 計算量 Cross Attention: Transformer: アーキテクチャ(1ブロック) O(M × N ×
D ) ≃ ′ M≪N O(N × D ) ′ O(L × M × 2 D ) 2 5
Attentionは入力系列の順序に依存しない Transformerと同様の位置エンコーディングを利用 p = i,2k sin(f πx
) k d p = i,2k+1 cos(f πx ) k d : ハイパーパラメータ : 次元 における位置( ) Transformerと異なり、加算ではなく入力へ連結する 位置エンコーディング f k x d d −1 ∼ 1 6
結果(Image) 7
実験設定 データセット: ImageNet ピクセルレベルの並び替えあり・並び替えなしで実験 評価指標: 予測ラベルの正解率 アーキテクチャ: (CrossAttention + TransformerEncoder
* 6) * 8 入力ベクトル: 50176x3 潜在ベクトル: 512x1024 結果(Image) 8
比較モデル ResNet-50: レイヤー数50のCNNベースモデル ViT-B-16: Transformerベースモデル 入力の処理に16x16の畳み込みを利用 Transformer: 64x64にダウンサンプリングした上で入力 結果(Image -
並び替えなしの場合) 9
結果 モダリティの仮定をせずにベースラインと互角の性能を発揮 ベースラインに位置エンコーディングを入力しても性能は向上しなかった 結果(Image - 並び替えなしの場合) 10
設定 各画像内のピクセルを同一の規則に従って並び替える 帰納バイアスの利用を防ぐ 並び替え前に位置エンコーディングを行う 位置エンコーディングからピクセル同士の関連は学習可能 Learned pos: 位置エンコーディングを学習する inputRF: 入力レイヤーにおける受容野の大きさ
結果(Image - 並び替えありの場合) 11
結果 モダリティを仮定しないTransformerやPerceiverでは性能が悪化しなかった ViTは性能が劣化しづらかった ViTで採用されている畳み込みフィルターはResNet50より大きいから? 最終的にTransformerでパッチ間の関係を見ていることも関係してそう? 結果(Image - 並び替えありの場合) 12
結果(Audio and Video) 13
実験設定 データセット: AudioSet Audio, Video, Audio&Videoで実験 評価指標: meanAveragePrecision アーキテクチャ: (CrossAttention+TransformerEncoder*8)*2
入力ベクトル 生音声: 480x128 メルスペクトログラム: 4800x1 動画: 12544x128 潜在ベクトル: サイズ記載なし 結果(Audio and Video) 14
結果 いずれの入力パターンでもほとんどの比較手法と同等以上の性能 CNN-14に関してはbalancingおよびmixupなどの前処理を除くと性能が下回った Attention AV-fusionとの違いは今後の調査課題 結果(Audio and Video) 15
結果(Point clouds) 16
実験設定 データセット: ModelNet40 評価指標: 予測ラベルの正解率 アーキテクチャ: (CrossAttention+TransformerEncoder*6)*2 入力ベクトル: サイズ記載なし(おそらく単純にflatten?) 潜在ベクトル:
サイズ記載なし 結果(Point cloulds) 17
結果 PointNet++以外の手法より優れていた PointNet++ではドメイン知識に基づいたデータ拡張や特徴量エンジニアリングを行って いるため比較対象としては不適? 結果(Point cloulds) 18
まとめ 19
TransformerベースのPerceiverを提案 Cross-Attentionの利用により、Transformerの計算量を削減 画像・音声・点群いずれにおいても極めて高い性能を発揮 モダリティ特有のデータ拡張や位置エンコーディングへの依存を減らすのが今後の課題 まとめ 20