Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Perceiver IO: A General Architecture for Structured Inputs & Outputs

[Journal club] Perceiver IO: A General Architecture for Structured Inputs & Outputs

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Perceiver IO: A General Architecture for Structured Inputs & Outputs

    Andrew Jaegle 1, Sebastian Borgeaud 1, Jean-Baptiste Alayrac 1, Carl Doersch1, Catalin Ionescu1, David Ding 1, Skanda Koppula 1, Daniel Zoran 1, Andrew Brock 1, Evan Shelhamer 1, Olivier Hénaff 1, Matthew M. Botvinick 1, Andrew Zisserman1, Oriol Vinyals 1, João Carreira 1 1: DeepMind ICLR2022 Spotlight 慶応義塾大学 杉浦孔明研究室 小槻誠太郎 A. Jaegle, S. Borgeaud, J.-B. Alayrac, C. Doersch, C. Ionescu, D. Ding, S. Koppula, D. Zoran, A. Brock, E. Shelhamer, O.J. Henaff, M. Botvinick, A. Zisserman, O. Vinyals, and J. Carreira, “Perceiver IO: A general architecture for structured inputs & outputs,” ICLR, 2022.
  2. •◦◦◦◦ ◦◦◦◦◦ 概要 - Perceiver IO 2 ••◦◦◦ ◦◦◦◦◦ ◦◦◦◦

    ✓ 背景 タスク特化のモデルの研究→様々なタスクを統一的に解ける単一のモデルの探求 →Perceiver: 入力をbyte列と見做して統一的に処理,入力長に対して線形の計算量 ✓ 提案 Perceiverの入力に対する柔軟性を出力にも持たせた Perceiver IO ✓ 結果 自然言語処理,Optical flow,画像分類,音声+動画分類など 広範なタスクでその分野の手法と比較して顕著な結果を残した
  3. •◦◦◦◦ ◦◦◦◦◦ 背景 - それぞれのタスクに特化したモデルの研究 ほとんどの機械学習モデルは特定のタスクに特化して研究されてきた e.g. ResNet [He+, CVPR

    2016] Transformer [Vaswani+, NeurIPS 2017] 3 •••◦◦ ◦◦◦◦◦ ◦◦◦◦
  4. •◦◦◦◦ ◦◦◦◦◦ Transformer: • 自然言語処理分野で提案 • 並列処理に向いた構造 欠点: 入力系列長 S

    に対して二乗の時間空間計算量 O(S 2 ) 4 ••••◦ ◦◦◦◦◦ ◦◦◦◦ 背景 - Transformerの欠点
  5. •◦◦◦◦ ◦◦◦◦◦ 関連・先行研究 - Multiple domains / Efficient Transformer 5

    手法 概要 VATT [Akbari+, NeurIPS 2021] マルチドメインのタスクを解く研究だが,事前に定義さ れた有限のモダリティの集合に対する手法 Set Transformer [Lee+, ICML 2019] 入力集合中の要素間の相互作用をモデリング 入力集合 S に対する計算量 O(|S|2) O(|S|) cosFormer [Qin+, ICLR2022] Query-Key間の内積部分を置換,加法定理で分解し, 入力長に対して線形の計算量 ••••• ◦◦◦◦◦ ◦◦◦◦
  6. •◦◦◦◦ ◦◦◦◦◦ 先行研究 - Perceiver [Jaegle+, ICML 2021] • 入力をbyte列と見做して統一的に処理

    • 入力長に対して線形の時間空間計算量 6 ••••• •◦◦◦◦ ◦◦◦◦
  7. •◦◦◦◦ ◦◦◦◦◦ 任意の入力をbyte列として扱うことで 様々な入力に適用可 入力を固定サイズの潜在空間にマッピング Cross Attention: R M x

    C x R N x D → R N x D →入力長Mに対して線形な計算量 7 ••••• ••◦◦◦ ◦◦◦◦ 先行研究 - Perceiver [Jaegle+, ICML 2021]
  8. •◦◦◦◦ ◦◦◦◦◦ • 利点 ◦ 構造の大半を入力の大きさやモダリティから切り離した →様々な入力を扱える ◦ 入力長に対して線形の時間空間計算量 •

    欠点 ◦ 出力はクラス分類などの単純なものしか扱えない 8 ••••• •••◦◦ ◦◦◦◦ 先行研究 - Perceiver [Jaegle+, ICML 2021]
  9. •◦◦◦◦ ◦◦◦◦◦ 9 ••••• ••••◦ ◦◦◦◦ 提案手法 - Perceiver IO:

    多様な出力が可能 入力だけでなく出力についても多様な出力が可能
  10. •◦◦◦◦ ◦◦◦◦◦ 10 ••••• ••••• ◦◦◦◦ 提案手法1 - モデル構造1 (Perceiverによる処理)

    入力を潜在空間上の配列にCross Attentionで変換 (Encode) Encodeで得た配列に対してSelf Attentionを繰り返す (Process)
  11. •◦◦◦◦ ◦◦◦◦◦ 11 ••••• ••••• •◦◦◦ 提案手法2 - モデル構造2 (Query

    Arrayによる出力生成) Processで得た配列をkey, valueとするCross Attentionで、 Query Arrayから出力を生成 (Decode)
  12. •◦◦◦◦ ◦◦◦◦◦ 12 ••••• ••••• ••◦◦ 提案手法2 - モデル構造2 (Query

    Arrayによる出力生成) タスクの望ましい出力に応じたQuery Arrayの選択→さまざまな形状の出力に対応
  13. •◦◦◦◦ ◦◦◦◦◦ SentencePieceを利用した時,同一FLOPsのBERTをわずかに超えた 文字列をUTF-8のbyte列として扱った際, SentencePieceを利用した同一FLOPsのBERTに匹敵 モデルを大きくすることでさらに高い性能を記録 定量的結果 - MLMでBERTを超えた 13

    ••••• ••••• •••◦
  14. •◦◦◦◦ ◦◦◦◦◦ まとめ - Perceiver IO 14 ••••• ••••• ••••

    ✓ 背景 タスク特化のモデルの研究→様々なタスクを統一的に解ける単一のモデルの探求 →Perceiver: 入力をbyte列と見做して統一的に処理,入力長に対して線形の計算量 ✓ 提案 Perceiverの入力に対する柔軟性を出力にも持たせた Perceiver IO ✓ 結果 自然言語処理,Optical flow,画像分類,音声+動画分類など 広範なタスクでその分野の手法と比較して顕著な結果を残した
  15. •◦◦◦◦ ◦◦◦◦◦ Perceiver IOをベースにした Perceiver Moduleを利用 Transformerを採用した場合は全体で4層まで しかメモリに載らなかった →2つのPerceiver Moduleで合計12層まで

    メモリに載ることを確認 “空間計算量が小さい” 15 [小槻+, RSJ22] - RSJ22における提案手法の一部に採用 ••••• ••••• ••••• ◦◦◦◦
  16. •◦◦◦◦ ◦◦◦◦◦ 16 ••••• ••••• ••••• •◦◦◦ Sintel.clean、Sintel.finalにおいて PWCNetやRAFTといった SoTAアルゴリズムを超える性能

    Appendix - その他の結果: Optical Flow
  17. •◦◦◦◦ ◦◦◦◦◦ 17 ••••• ••••• ••••• ••◦◦ Appendix - その他の結果:

    画像分類 (ImageNet)
  18. •◦◦◦◦ ◦◦◦◦◦ AlphaStar: リアルタイム戦略ゲーム STARCRAFT II のSoTAシステム 内部のtransformerをPerceiver IOで置き換えた結果 性能を保ったままFLOPsを下げ,パラメータ数を減らせた

    18 ••••• ••••• ••••• •••◦ Appendix - その他の結果: ゲームAI
  19. •◦◦◦◦ ◦◦◦◦◦ 19 ••••• ••••• ••••• •••• Multimodal Autoencoding: モデルの構造が持つボトルネックを通した上で,マルチモーダル入力を正確に再構成

    動画,音声,クラスラベルを一つの2次元配列に埋め込んで処理しつつ,再構成に成功 →複数の全く異なるモダリティのデータを同時に扱う能力 左: 入力 右: 再構成結果 Appendix - その他の定量的結果: Multimodal Autoencoding