[Journal club] Perceiver IO: A General Architecture for Structured Inputs & Outputs

Perceiver IO: A General Architecture for Structured Inputs & Outputs
Andrew Jaegle 1, Sebastian Borgeaud 1, Jean-Baptiste Alayrac 1, Carl Doersch1, Catalin Ionescu1, David Ding 1, Skanda Koppula 1, Daniel Zoran 1, Andrew Brock 1, Evan Shelhamer 1, Olivier Hénaff 1, Matthew M. Botvinick 1, Andrew Zisserman1, Oriol Vinyals 1, João Carreira 1 1: DeepMind ICLR2022 Spotlight 慶応義塾大学杉浦孔明研究室小槻誠太郎 A. Jaegle, S. Borgeaud, J.-B. Alayrac, C. Doersch, C. Ionescu, D. Ding, S. Koppula, D. Zoran, A. Brock, E. Shelhamer, O.J. Henaff, M. Botvinick, A. Zisserman, O. Vinyals, and J. Carreira, “Perceiver IO: A general architecture for structured inputs & outputs,” ICLR, 2022.

•◦◦◦◦ ◦◦◦◦◦ 概要 - Perceiver IO 2 ••◦◦◦ ◦◦◦◦◦ ◦◦◦◦
✓ 背景タスク特化のモデルの研究→様々なタスクを統一的に解ける単一のモデルの探求 →Perceiver: 入力をbyte列と見做して統一的に処理，入力長に対して線形の計算量 ✓ 提案 Perceiverの入力に対する柔軟性を出力にも持たせた Perceiver IO ✓ 結果自然言語処理，Optical flow，画像分類，音声+動画分類など広範なタスクでその分野の手法と比較して顕著な結果を残した

•◦◦◦◦ ◦◦◦◦◦ 背景 - それぞれのタスクに特化したモデルの研究ほとんどの機械学習モデルは特定のタスクに特化して研究されてきた e.g. ResNet [He+, CVPR
2016] Transformer [Vaswani+, NeurIPS 2017] 3 •••◦◦ ◦◦◦◦◦ ◦◦◦◦

•◦◦◦◦ ◦◦◦◦◦ Transformer: • 自然言語処理分野で提案 • 並列処理に向いた構造欠点: 入力系列長 S
に対して二乗の時間空間計算量 O(S 2 ) 4 ••••◦ ◦◦◦◦◦ ◦◦◦◦ 背景 - Transformerの欠点

•◦◦◦◦ ◦◦◦◦◦ 関連・先行研究 - Multiple domains / Efficient Transformer 5
手法概要 VATT [Akbari+, NeurIPS 2021] マルチドメインのタスクを解く研究だが，事前に定義された有限のモダリティの集合に対する手法 Set Transformer [Lee+, ICML 2019] 入力集合中の要素間の相互作用をモデリング入力集合 S に対する計算量 O(|S|2) O(|S|) cosFormer [Qin+, ICLR2022] Query-Key間の内積部分を置換，加法定理で分解し，入力長に対して線形の計算量 ••••• ◦◦◦◦◦ ◦◦◦◦

•◦◦◦◦ ◦◦◦◦◦ 先行研究 - Perceiver [Jaegle+, ICML 2021] • 入力をbyte列と見做して統一的に処理
• 入力長に対して線形の時間空間計算量 6 ••••• •◦◦◦◦ ◦◦◦◦

•◦◦◦◦ ◦◦◦◦◦ 任意の入力をbyte列として扱うことで様々な入力に適用可入力を固定サイズの潜在空間にマッピング Cross Attention: R M x
C x R N x D → R N x D →入力長Mに対して線形な計算量 7 ••••• ••◦◦◦ ◦◦◦◦ 先行研究 - Perceiver [Jaegle+, ICML 2021]

•◦◦◦◦ ◦◦◦◦◦ • 利点 ◦ 構造の大半を入力の大きさやモダリティから切り離した →様々な入力を扱える ◦ 入力長に対して線形の時間空間計算量 •
欠点 ◦ 出力はクラス分類などの単純なものしか扱えない 8 ••••• •••◦◦ ◦◦◦◦ 先行研究 - Perceiver [Jaegle+, ICML 2021]

•◦◦◦◦ ◦◦◦◦◦ 9 ••••• ••••◦ ◦◦◦◦ 提案手法 - Perceiver IO:
多様な出力が可能入力だけでなく出力についても多様な出力が可能

•◦◦◦◦ ◦◦◦◦◦ 10 ••••• ••••• ◦◦◦◦ 提案手法1 - モデル構造1 (Perceiverによる処理)
入力を潜在空間上の配列にCross Attentionで変換 (Encode) Encodeで得た配列に対してSelf Attentionを繰り返す (Process)

•◦◦◦◦ ◦◦◦◦◦ 11 ••••• ••••• •◦◦◦ 提案手法2 - モデル構造2 (Query
Arrayによる出力生成) Processで得た配列をkey, valueとするCross Attentionで、 Query Arrayから出力を生成 (Decode)

•◦◦◦◦ ◦◦◦◦◦ 12 ••••• ••••• ••◦◦ 提案手法2 - モデル構造2 (Query
Arrayによる出力生成) タスクの望ましい出力に応じたQuery Arrayの選択→さまざまな形状の出力に対応

•◦◦◦◦ ◦◦◦◦◦ SentencePieceを利用した時，同一FLOPsのBERTをわずかに超えた文字列をUTF-8のbyte列として扱った際， SentencePieceを利用した同一FLOPsのBERTに匹敵モデルを大きくすることでさらに高い性能を記録定量的結果 - MLMでBERTを超えた 13
••••• ••••• •••◦

•◦◦◦◦ ◦◦◦◦◦ まとめ - Perceiver IO 14 ••••• ••••• ••••
✓ 背景タスク特化のモデルの研究→様々なタスクを統一的に解ける単一のモデルの探求 →Perceiver: 入力をbyte列と見做して統一的に処理，入力長に対して線形の計算量 ✓ 提案 Perceiverの入力に対する柔軟性を出力にも持たせた Perceiver IO ✓ 結果自然言語処理，Optical flow，画像分類，音声+動画分類など広範なタスクでその分野の手法と比較して顕著な結果を残した

•◦◦◦◦ ◦◦◦◦◦ Perceiver IOをベースにした Perceiver Moduleを利用 Transformerを採用した場合は全体で4層までしかメモリに載らなかった →2つのPerceiver Moduleで合計12層まで
メモリに載ることを確認 “空間計算量が小さい” 15 [小槻+, RSJ22] - RSJ22における提案手法の一部に採用 ••••• ••••• ••••• ◦◦◦◦

•◦◦◦◦ ◦◦◦◦◦ 16 ••••• ••••• ••••• •◦◦◦ Sintel.clean、Sintel.finalにおいて PWCNetやRAFTといった SoTAアルゴリズムを超える性能
Appendix - その他の結果: Optical Flow

•◦◦◦◦ ◦◦◦◦◦ 17 ••••• ••••• ••••• ••◦◦ Appendix - その他の結果:
画像分類 (ImageNet)

•◦◦◦◦ ◦◦◦◦◦ AlphaStar: リアルタイム戦略ゲーム STARCRAFT II のSoTAシステム内部のtransformerをPerceiver IOで置き換えた結果性能を保ったままFLOPsを下げ，パラメータ数を減らせた
18 ••••• ••••• ••••• •••◦ Appendix - その他の結果: ゲームAI

•◦◦◦◦ ◦◦◦◦◦ 19 ••••• ••••• ••••• •••• Multimodal Autoencoding: モデルの構造が持つボトルネックを通した上で，マルチモーダル入力を正確に再構成
動画，音声，クラスラベルを一つの2次元配列に埋め込んで処理しつつ，再構成に成功 →複数の全く異なるモダリティのデータを同時に扱う能力左: 入力右: 再構成結果 Appendix - その他の定量的結果: Multimodal Autoencoding

[Journal club] Perceiver IO: A General Architec...

[Journal club] Perceiver IO: A General Architecture for Structured Inputs & Outputs

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Perceiver IO: A General Architecture for Structured Inputs & Outputs

•◦◦◦◦ ◦◦◦◦◦ 概要 - Perceiver IO 2 ••◦◦◦ ◦◦◦◦◦ ◦◦◦◦

•◦◦◦◦ ◦◦◦◦◦ 背景 - それぞれのタスクに特化したモデルの研究ほとんどの機械学習モデルは特定のタスクに特化して研究されてきた e.g. ResNet [He+, CVPR

•◦◦◦◦ ◦◦◦◦◦ Transformer: • 自然言語処理分野で提案 • 並列処理に向いた構造欠点: 入力系列長 S

•◦◦◦◦ ◦◦◦◦◦ 関連・先行研究 - Multiple domains / Efficient Transformer 5

•◦◦◦◦ ◦◦◦◦◦ 先行研究 - Perceiver [Jaegle+, ICML 2021] • 入力をbyte列と見做して統一的に処理

•◦◦◦◦ ◦◦◦◦◦ 任意の入力をbyte列として扱うことで様々な入力に適用可入力を固定サイズの潜在空間にマッピング Cross Attention: R M x

•◦◦◦◦ ◦◦◦◦◦ • 利点 ◦ 構造の大半を入力の大きさやモダリティから切り離した →様々な入力を扱える ◦ 入力長に対して線形の時間空間計算量 •

•◦◦◦◦ ◦◦◦◦◦ 9 ••••• ••••◦ ◦◦◦◦ 提案手法 - Perceiver IO:

•◦◦◦◦ ◦◦◦◦◦ 10 ••••• ••••• ◦◦◦◦ 提案手法1 - モデル構造1 (Perceiverによる処理)

•◦◦◦◦ ◦◦◦◦◦ 11 ••••• ••••• •◦◦◦ 提案手法2 - モデル構造2 (Query

•◦◦◦◦ ◦◦◦◦◦ 12 ••••• ••••• ••◦◦ 提案手法2 - モデル構造2 (Query

•◦◦◦◦ ◦◦◦◦◦ まとめ - Perceiver IO 14 ••••• ••••• ••••

•◦◦◦◦ ◦◦◦◦◦ Perceiver IOをベースにした Perceiver Moduleを利用 Transformerを採用した場合は全体で4層までしかメモリに載らなかった →2つのPerceiver Moduleで合計12層まで

•◦◦◦◦ ◦◦◦◦◦ 16 ••••• ••••• ••••• •◦◦◦ Sintel.clean、Sintel.finalにおいて PWCNetやRAFTといった SoTAアルゴリズムを超える性能

•◦◦◦◦ ◦◦◦◦◦ 17 ••••• ••••• ••••• ••◦◦ Appendix - その他の結果:

•◦◦◦◦ ◦◦◦◦◦ AlphaStar: リアルタイム戦略ゲーム STARCRAFT II のSoTAシステム内部のtransformerをPerceiver IOで置き換えた結果性能を保ったままFLOPsを下げ，パラメータ数を減らせた

•◦◦◦◦ ◦◦◦◦◦ 19 ••••• ••••• ••••• •••• Multimodal Autoencoding: モデルの構造が持つボトルネックを通した上で，マルチモーダル入力を正確に再構成