NeurIPS 2021 論文読み会: How Modular should Neural Module Networks Be for Systematic Generalization?

Slide 1

Slide 1 text

How Modular should Neural Module Networks Be for Systematic Generalization? 高山温 @ NewsPicks (Uzabase group) NeurIPS 2021 論文読み会 2022/01/25

Slide 2

Slide 2 text

自己紹介 ● Atsushi Takayama / 高山温 ● 2020年からNewsPicksでCTOをしていましたが、今年からFellowしてます ○ データ基盤、データ分析、レコメンドエンジン、検索エンジンなどのチームを率いています ● 大学中退 → 大学院中退 → 大学院生(ｲﾏｺｺ) ○ 元々物理をやっていましたが、今はコンピュータサイエンスを勉強中 ● 宣伝: ユーザベースはエンジニアの多様なキャリアと多様な成長を応援する会社です

Slide 3

Slide 3 text

Table of Contents ● VQAとは ● この研究の位置付け ● 研究内容 ● 結果 ● 所感

Slide 4

Slide 4 text

VQA (Visual Question Answering) ● since 2015 ○ 画像を与えられて質問に答える問題 ● 2021年に人間並みの精度になった ○ Microsoft, Alibabaなど ■ pre-trained attention-based models 人間 95.49 80.84 67.89 80.78

Slide 5

Slide 5 text

この研究の位置付け 1 ● SOTAとは別方向で、「少ない例で学習して、どれだけ類似の質問に答えられるか」という問題設定がある ● 右のような例で、人間なら少し学習しただけで類似の質問にも答えられる ○ Systematic Generalizationという

Slide 6

Slide 6 text

この研究の位置付け 2 NMN: Neural Modular Networks 質問文をパースしてネットワークを構築 →少し学習しただけでそこそこ強い FiLM: End-to-Endで微分可能なネットワーク →大量に学習しないと強くない

Slide 7

Slide 7 text

この研究の位置付け 3 ● NMNを詳しく研究したら何かおもしろいことがわかるのでは？ ○ 例えば、End-to-Endのモデルで「質問文の構造」を学習するような機構を取り入れられないか、とか ○ VQAだけでなく画像認識でも Systematic Generalizationを上げるにはどうすればいいか、とか

Slide 8

Slide 8 text

● 下のような画像と質問1〜3があるとする ○ 1と2は色に関する質問、 3は文字に関する質問 ● 論文のタイトル “How Modular Should Neural Networks Be” は次のようなイメージ ○ 左: 全部の質問に対応できるネットワークを学習する (最もModularityが低い) ○ 中央: 色とカテゴリーというグループごとにネットワークを学習する ○ 右: 各質問ごとに別々のネットワークを学習する (最もModularityが高い) 研究内容 1

Slide 9

Slide 9 text

研究内容 2 ● 少し複雑な質問でも、同様にsub-taskに分解して、Modularityが高いネットワークから低いネットワークまでのパターンを作る

Slide 10

Slide 10 text

結果 1 ● グラフ(a)〜(d) ○ 質問の種類 ● 横軸 ○ 全体の何割のデータで学習したか ● 縦軸 ○ 学習に登場しなかった類似の質問の正答率 ● 4色のバー ○ 右に行くにつれて Modularityが高い

Slide 11

Slide 11 text

結果 2 ● 他にも色んなデータセットで検証 ● やっぱりModularityは効く（結果は割愛）

Slide 12

Slide 12 text

所感 ● ここまで書いていて、富士通さんのテックブログに解説が載ってるのに気づきました ● 実はまったく知らない分野でしたが、締め切り駆動で10本ぐらい読んでみると多くのことが学べました。誘っていただき感謝 https://blog.fltech.dev/entry/2021/12/09/neurips2021-ja