Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Perceiver IO: A General Architec...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

[Journal club] Perceiver IO: A General Architecture for Structured Inputs & Outputs

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Perceiver IO: A General Architecture for Structured Inputs & Outputs

    Andrew Jaegle 1, Sebastian Borgeaud 1, Jean-Baptiste Alayrac 1, Carl Doersch1, Catalin Ionescu1, David Ding 1, Skanda Koppula 1, Daniel Zoran 1, Andrew Brock 1, Evan Shelhamer 1, Olivier Hénaff 1, Matthew M. Botvinick 1, Andrew Zisserman1, Oriol Vinyals 1, João Carreira 1 1: DeepMind ICLR2022 Spotlight 慶応矩塟倧孊 杉浊孔明研究宀 小槻誠倪郎 A. Jaegle, S. Borgeaud, J.-B. Alayrac, C. Doersch, C. Ionescu, D. Ding, S. Koppula, D. Zoran, A. Brock, E. Shelhamer, O.J. Henaff, M. Botvinick, A. Zisserman, O. Vinyals, and J. Carreira, “Perceiver IO: A general architecture for structured inputs & outputs,” ICLR, 2022.
  2. •◊◊◊◊ ◩◩◩◩◩ 抂芁 - Perceiver IO 2 ••◊◊◊ ◩◩◩◩◩ ◩◩◩◩

    ✓ 背景 タスク特化のモデルの研究→様々なタスクを統䞀的に解ける単䞀のモデルの探求 →Perceiver: 入力をbyte列ず芋做しお統䞀的に凊理入力長に察しお線圢の蚈算量 ✓ 提案 Perceiverの入力に察する柔軟性を出力にも持たせた Perceiver IO ✓ 結果 自然蚀語凊理Optical flow画像分類音声+動画分類など 広範なタスクでその分野の手法ず比范しお顕著な結果を残した
  3. •◊◊◊◊ ◩◩◩◩◩ Transformer: • 自然蚀語凊理分野で提案 • 䞊列凊理に向いた構造 欠点: 入力系列長 S

    に察しお二乗の時間空間蚈算量 O(S 2 ) 4 ••••◊ ◩◩◩◩◩ ◩◩◩◩ 背景 - Transformerの欠点
  4. •◊◊◊◊ ◩◩◩◩◩ 関連・先行研究 - Multiple domains / Efficient Transformer 5

    手法 抂芁 VATT [Akbari+, NeurIPS 2021] マルチドメむンのタスクを解く研究だが事前に定矩さ れた有限のモダリティの集合に察する手法 Set Transformer [Lee+, ICML 2019] 入力集合䞭の芁玠間の盞互䜜甚をモデリング 入力集合 S に察する蚈算量 O(|S|2) O(|S|) cosFormer [Qin+, ICLR2022] Query-Key間の内積郚分を眮換加法定理で分解し 入力長に察しお線圢の蚈算量 ••••• ◩◩◩◩◩ ◩◩◩◩
  5. •◊◊◊◊ ◩◩◩◩◩ 先行研究 - Perceiver [Jaegle+, ICML 2021] • 入力をbyte列ず芋做しお統䞀的に凊理

    • 入力長に察しお線圢の時間空間蚈算量 6 ••••• •◊◊◊◊ ◩◩◩◩
  6. •◊◊◊◊ ◩◩◩◩◩ 任意の入力をbyte列ずしお扱うこずで 様々な入力に適甚可 入力を固定サむズの朜圚空間にマッピング Cross Attention: R M x

    C x R N x D → R N x D →入力長Mに察しお線圢な蚈算量 7 ••••• ••◊◊◊ ◩◩◩◩ 先行研究 - Perceiver [Jaegle+, ICML 2021]
  7. •◊◊◊◊ ◩◩◩◩◩ • 利点 ◩ 構造の倧半を入力の倧きさやモダリティから切り離した →様々な入力を扱える ◩ 入力長に察しお線圢の時間空間蚈算量 •

    欠点 ◩ 出力はクラス分類などの単玔なものしか扱えない 8 ••••• •••◊◊ ◩◩◩◩ 先行研究 - Perceiver [Jaegle+, ICML 2021]
  8. •◊◊◊◊ ◩◩◩◩◩ 9 ••••• ••••◊ ◩◩◩◩ 提案手法 - Perceiver IO:

    倚様な出力が可胜 入力だけでなく出力に぀いおも倚様な出力が可胜
  9. •◊◊◊◊ ◩◩◩◩◩ 10 ••••• ••••• ◩◩◩◩ 提案手法1 - モデル構造1 (Perceiverによる凊理)

    入力を朜圚空間䞊の配列にCross Attentionで倉換 (Encode) Encodeで埗た配列に察しおSelf Attentionを繰り返す (Process)
  10. •◊◊◊◊ ◩◩◩◩◩ 11 ••••• ••••• •◊◊◊ 提案手法2 - モデル構造2 (Query

    Arrayによる出力生成) Processで埗た配列をkey, valueずするCross Attentionで、 Query Arrayから出力を生成 (Decode)
  11. •◊◊◊◊ ◩◩◩◩◩ 12 ••••• ••••• ••◊◊ 提案手法2 - モデル構造2 (Query

    Arrayによる出力生成) タスクの望たしい出力に応じたQuery Arrayの遞択→さたざたな圢状の出力に察応
  12. •◊◊◊◊ ◩◩◩◩◩ たずめ - Perceiver IO 14 ••••• ••••• ••••

    ✓ 背景 タスク特化のモデルの研究→様々なタスクを統䞀的に解ける単䞀のモデルの探求 →Perceiver: 入力をbyte列ず芋做しお統䞀的に凊理入力長に察しお線圢の蚈算量 ✓ 提案 Perceiverの入力に察する柔軟性を出力にも持たせた Perceiver IO ✓ 結果 自然蚀語凊理Optical flow画像分類音声+動画分類など 広範なタスクでその分野の手法ず比范しお顕著な結果を残した
  13. •◊◊◊◊ ◩◩◩◩◩ Perceiver IOをベヌスにした Perceiver Moduleを利甚 Transformerを採甚した堎合は党䜓で4局たで しかメモリに茉らなかった →2぀のPerceiver Moduleで合蚈12局たで

    メモリに茉るこずを確認 “空間蚈算量が小さい” 15 [小槻+, RSJ22] - RSJ22における提案手法の䞀郚に採甚 ••••• ••••• ••••• ◩◩◩◩
  14. •◊◊◊◊ ◩◩◩◩◩ 19 ••••• ••••• ••••• •••• Multimodal Autoencoding: モデルの構造が持぀ボトルネックを通した䞊でマルチモヌダル入力を正確に再構成

    動画音声クラスラベルを䞀぀の2次元配列に埋め蟌んで凊理し぀぀再構成に成功 →耇数の党く異なるモダリティのデヌタを同時に扱う胜力 å·Š: 入力 右: 再構成結果 Appendix - その他の定量的結果: Multimodal Autoencoding