Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI最新論文読み会2021年6月

 AI最新論文読み会2021年6月

AI最新論文読み会2021年6月

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Research

Transcript

  1. Top10 Recent 1 MLP-Mixer: An all-MLP Architecture for Vision 2

    Self-Supervised Learning with Swin Transformers 3 The Modern Mathematics of Deep Learning 4 Multiscale Vision Transformers 5 Diffusion Models Beat GANs on Image Synthesis 6 Neural Algorithmic Reasoning 7 Emerging Properties in Self-Supervised Vision Transformers 8 Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges 9 A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning 10 Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency
  2. Top10 Hype 1. Minimum-Distortion Embedding 2. StyleCLIP: Text-Driven Manipulation of

    StyleGAN Imagery 3. RepVGG: Making VGG-style ConvNets Great Again 4. Representation Learning for Networks in Biology and Medicine: Advancements, Challenges, and Opportunities 5. Cross-validation: what does it estimate and how well does it do it? 6. Factors of Influence for Transfer Learning across Diverse Appearance Domains and Task Types 7. Why Do Local Methods Solve Nonconvex Problems? 8. Scaling Scaling Laws with Board Games 9. Vision Transformers for Dense Prediction 10. EfficientNetV2: Smaller Models and Faster Training)
  3. Top recent ①LP-Mixer:視覚のためのオールMLPアーキテクチャ (原文: MLP-Mixer: An all-MLP Architecture for Vision)

    畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの代表的なモデルです。最近では、Vision Transformerのようなアテンションベースのネットワークも人気があります。本論文では、コンボリューションとアテン ションはどちらも良い性能を発揮するのに十分であるが、どちらも必要ではないことを示す。我々は、多層パーセプトロ ン(MLP)のみを用いたアーキテクチャであるMLP-Mixerを発表します。MLP-Mixerには、2種類のレイヤーがあります。1 つは、MLPを画像パッチに独立して適用したもの(つまり、位置ごとの特徴を「混合」する)、もう1つは、MLPをパッチ 全体に適用したもの(つまり、空間情報を「混合」する)です。大規模なデータセットや最新の正則化スキームを用いて 学習した場合、MLP-Mixerは画像分類のベンチマークで競争力のあるスコアを獲得し、事前学習と推論のコストは最先端の モデルと同等である。これらの結果が、CNNやTransformerの領域を超えて、さらなる研究のきっかけとなることを期待し ています。 http://arxiv.org/abs/2105.01601v2 Google Research, Brain Team. →MLPのみで、すごいのできたよ スケールするのもいいよ
  4. ②スウィン変圧器による自己教師付き学習 (原文: Self-Supervised Learning with Swin Transformers) コンピュータビジョンの分野では、CNNからTransformerへとモデルチェンジが進んでいます。本研究で は、Vision Transformersをバックボーン・アーキテクチャとする、MoBYと呼ばれる自己教師付き学習ア

    プローチを発表する。このアプローチには基本的に新しい発明はなく、MoCo v2とBYOLを組み合わせ、 ImageNet-1Kの線形評価で合理的に高い精度を達成するように調整されている。DeiT-SとSwin-Tを用いて、 300エポックの学習により、それぞれ72.8%と75.0%のトップ1精度を達成しています。この性能は、DeiT をバックボーンとして採用しているMoCo v3やDINOなどの最近の作品よりも、より軽快なトリックを用 いており、わずかに優れています。 さらに重要なことは、汎用的なSwin Transformerをバックボーンと することで、物体検出や意味分割などの下流のタスクでも学習した表現を評価することができることで す。今回の結果が、Transformerアーキテクチャ用に設計された自己教師付き学習手法のより包括的な評 価につながることを期待しています。私たちのコードとモデルは、 https://github.com/SwinTransformer/Transformer-SSL で公開されており、今後も継続的に充実させていく 予定です。 http://arxiv.org/abs/2105.04553v2 Tsinghua University 2Xi’an Jiaotong University 3Microsoft Research Asia) → MoCo v2とBYOL組み合わせたもの発表 Swin Transformerをバックボーンにして 75.0%のトップ1精度を達成
  5. ③ディープラーニングの現代数学 (原文: The Modern Mathematics of Deep Learning) 深層学習の数学的解析という新しい分野について説明します。この分野は、古典的な学習理論の枠組みの 中では答えられなかった研究課題のリストに基づいて生まれた。これらの疑問は、オーバーパラメトリッ

    クなニューラルネットワークの優れた一般化能力、深層アーキテクチャにおける深さの役割、次元の呪い が明らかにないこと、問題が非凸であるにもかかわらず最適化が驚くほどうまくいくこと、どのような特 徴が学習されるかを理解すること、なぜ深層アーキテクチャが物理的な問題で例外的にうまくいくのか、 アーキテクチャのどの細かい側面が学習タスクの動作にどのように影響するのか、などである。本論文で は、これらの問題に対する部分的な回答を得るための最新のアプローチの概要を紹介します。厳選された アプローチについては、主要なアイデアをより詳細に説明する。 http://arxiv.org/abs/2105.04026v1 Julius Berner† Philipp Grohs‡ Gitta Kutyniok§ Philipp Petersen →数学的解析によって、上記疑問に答えるアプローチの紹介
  6. ④マルチスケールビジョントランスフォーマー (原文: Multiscale Vision Transformers) 我々は、マルチスケール特徴階層の精緻なアイデアをトランスフォーマーモデルと結びつけることによ り、ビデオおよび画像認識のためのマルチスケール・ビジョン・トランスフォーマー(MViT)を発表す る。マルチスケール・トランスフォーマーは,複数のチャンネル解像度スケールの段階を持つ.入力解 像度と小さなチャネル次元からスタートした各ステージは,空間解像度を下げながらチャネル容量を階 層的に拡大していきます.これにより、単純な低レベルの視覚情報をモデル化するために高い空間解像

    度で動作する初期の層と、空間的に粗いが複雑な高次元の特徴を持つ深い層からなる、特徴のマルチス ケール・ピラミッドが形成される。我々は、様々なビデオ認識タスクにおいて、視覚信号の緻密な性質 をモデル化するためのこの基本的なアーキテクチャ優先度を評価したところ、大規模な外部事前学習に 依存し、計算やパラメータにおいて5~10倍のコストがかかる既存の視覚変換器よりも優れていました。 さらに、時間的次元を取り除き、画像分類にこのモデルを適用したところ、先行する視覚変換装置を上 回る結果が得られました。コードは https://github.com/facebookresearch/SlowFast から入手可能です。 http://arxiv.org/abs/2104.11227v1 Facebook AI Research 2UC Berkeley →空間解像度を下げながらチャネル容量を階層的に拡大する構造をもつ トランスフォーマーでいい性能、コストでたよ
  7. ⑤画像合成における拡散モデル・ビートGAN (原文: Diffusion Models Beat GANs on Image Synthesis) 拡散モデルは、現在の最先端の生成モデルよりも優れた画像サンプル品質を達成できることを示します。

    これは、無条件の画像合成において、一連のアブレーションにより、より良いアーキテクチャを見つける ことで達成されます。条件付き画像合成では、分類器ガイダンスを用いてサンプル品質をさらに向上させ ます。これは、分類器からの勾配を用いて多様性とサンプル品質をトレードオフする、シンプルで計算効 率の高い方法です。その結果、ImageNet 128$¥¥$128では2.97、ImageNet 256$¥$256では4.59、ImageNet 512$¥$512では7.72のFIDを達成しました。最後に、分類器ガイダンスが拡散モデルのアップサンプリング とうまく組み合わさることを発見し、ImageNet 512$¥でFIDを3.85まで改善しました。我々のコードは https://github.com/openai/guided-diffusion で公開しています。 http://arxiv.org/abs/2105.05233v3 OpenAI →拡散モデルで2.97FID達成したよ
  8. ⑥ニューラルアルゴリズムによる推論 (原文: Neural Algorithmic Reasoning) アルゴリズムは、近年の世界的な技術進歩の基盤となっており、特に、ある分野の技術的進歩を別の分野に急速に 応用する礎となっています。我々は、アルゴリズムが深層学習法とは根本的に異なる性質を持っていることを主張 しており、このことは、深層学習法がアルゴリズムを模倣することができるようになれば、アルゴリズムで見られ るような一般化が深層学習で可能になることを強く示唆している--現在の機械学習法では到底到達できないことだ。 さらに、ニューラルネットワークは、学習されたアルゴリズムの連続空間の要素を表現することで、既知のアルゴ

    リズムを実世界の問題により近い形で適応させることができ、人間のコンピュータ科学者が提案するものよりも効 率的で実用的な解決策を見つけられる可能性がある。 ここでは、ニューラルアルゴリズム推論(アルゴリズム計算 を実行できるニューラルネットワークを構築する技術)を紹介し、従来のアルゴリズムではアクセスできないと考 えられていた入力に対して、古典的なアルゴリズムを実行するための変革の可能性について意見を述べる。 http://arxiv.org/abs/2105.02761v1 DeepMind →古典的なアルゴリズムを実行するための変革の可能性
  9. ⑦自己保存型ビジョントランスフォーマーの新たな特性 (原文: Emerging Properties in Self-Supervised Vision Transformers) 本論文では,自己教師付き学習がVision Transformer

    (ViT)に,畳み込みネットワーク(convnets)と 比較して際立った新しい特性を与えるかどうかを疑問視している.自己教師付き手法をこの アーキテクチャに適応させると、特にうまくいくという事実に加えて、次のような見解を得 た:第1に、自己教師付きViTの特徴は、画像の意味的なセグメンテーションに関する明確な情 報を含んでいる。次に、これらの特徴は優れたk-NN分類器でもあり、小さなViTでImageNetの 78.3% top-1に達しました。本研究では、モーメンタムエンコーダ、マルチクロップトレーニン グ、およびViTでの小さなパッチの使用の重要性も強調している。我々の研究結果を、DINOと呼 ばれるシンプルな自己教師付き手法に実装し、ラベルのない自己蒸留の一形態と解釈していま す。ViT-Baseを用いた線形評価において、ImageNetで80.1%のtop-1を達成し、DINOとViTsの相乗 効果を示した。。 http://arxiv.org/abs/2104.14294v1 1 Facebook AI Research 2 Inria∗ 3 Sorbonne University →DINO(ラベルのない自己蒸留の一形態)でVitで ImageNetで80.1%のtop-1を達成したよ
  10. ⑧▪ 幾何学的深層学習。格子、群、グラフ、測地線、 そしてゲージ (原文: Geometric Deep Learning: Grids, Groups, Graphs,

    Geodesics, and Gauges) この10年間、データサイエンスと機械学習の分野では、深層学習法に象徴される実験的な革命が起きて います。実際、コンピュータビジョン、囲碁、タンパク質の折り畳みなど、これまで手の届かないもの と考えられていた高次元の学習課題の多くが、適切な計算規模で実現可能となっている。驚くべきこと に、深層学習の本質は、2つの単純なアルゴリズム原理から構築されている。1つ目は、表現または特徴 の学習という概念で、これにより、適応された(多くの場合、階層的な)特徴が各タスクの適切な規則 性の概念を捉える。2つ目は、典型的なバックプロパゲーションとして実装される局所勾配降下法によ る学習である。 高次元で一般的な関数を学習することは呪われた推定問題であるが、関心のあるほと んどのタスクは一般的ではなく、物理的世界の基本的な低次元性と構造から生じる本質的な事前定義さ れた規則性を備えている。このテキストでは、広い範囲のアプリケーションに適用できる統一された幾 何学的原理によって、これらの規則性を明らかにすることを目的としています。 このような「幾何学 的統一」の試みは、フェリックス・クラインのエアランジェン・プログラムの精神に基づいており、2 つの目的を持っている。一方で、ニューラル・アーキテクチャに事前の物理的知識を組み込むための建 設的な手順を提供し、まだ発明されていない将来のアーキテクチャを構築するための原理的な方法を提 供しています。 。 http://arxiv.org/abs/2104.13478v2 1 Imperial College London / USI IDSIA / Twitter 2New York University 3Qualcomm AI Research. Qualcomm AI Research is an initiative of Qualcomm Technologies, Inc. 4DeepMind → 「幾何学的統一」の試み
  11. ⑨教師なしの時空間表現学習に関する大規模な研究 (原文: A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning)

    本研究では、動画からの教師なし時空間表現学習に関する大規模な研究を行う。最近の4つの画像ベースのフレームワー クを統一的に捉え、これらの手法を時空間に簡単に一般化できるシンプルな目的を研究しています。我々の目的は、同じ ビデオの中で時間的に永続的な特徴を奨励するもので、その単純さにもかかわらず、驚くべき効果を発揮する。この目的 は、単純であるにもかかわらず、次のような様々な教師なしのフレームワーク、(ii)事前学習データセット、(iii)下流の データセット、(iv)バックボーン・アーキテクチャに渡って驚くほどよく機能します。本研究では、タイムスパンが60秒 であっても、長時間のパーシステントを奨励することが効果的であることなど、興味深い結果が得られています。また、 複数のベンチマークで最先端の結果が得られたことに加え、教師なしの事前学習が教師ありの場合よりも優れているとい ういくつかの有望なケースについても報告します。コードは https://github.com/facebookresearch/SlowFast で公開していま す。 Facebook AI Research (FAIR) http://arxiv.org/abs/2104.14558v1 →動画からの教師なし時空間表現学習に関する大規模な研究したよ 4つのフレームワークを使用したよ
  12. ⑩クロスビデオサイクルコンシステンシーによる画像表現の対照的な学習 (原文: Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency)

    最近の研究では、自己教師付き表現学習の性能が大幅に向上している。その中心となるのが,画像内不変量学習 である.1つの画像インスタンスに対する2つの異なる変換を正のサンプルペアとみなし,そのペアを比較するこ とで不変表現を学習する様々なタスクが設計されている.ビデオデータの場合、同じビデオからのフレームの表 現は、他のビデオからのフレームよりも近くなるように学習される、すなわち、ビデオ内不変性である。しかし、 ビデオ間の関係は、視覚表現の学習のためにはほとんど検討されていない。また,映像内不変性とは異なり,映 像間関係の地物ラベルは人手を介さずには入手できないのが現状である.本論文では,一般的な画像表現学習の ために,周期的整合性を用いて映像間関係を探索する新しい対比学習法を提案する.これにより、異なるビデオ インスタンス間で正のサンプルペアを収集することができ、これがより高レベルのセマンティクスにつながると 仮説を立てている。我々の手法は、この画像表現を、視覚的オブジェクトの追跡、画像分類、行動認識などの複 数の下流タスクに適用することで検証される。その結果、最新のコントラスト学習法に比べて大幅な改善が見ら れました。プロジェクトページは https://happywu.github.io/cycle_contrast_video でご覧いただけます。 http://arxiv.org/abs/2105.06463v1 McGill University, Mila UC San Diego →周期的整合性を用いて映像間関係を探索する新しい対比学習法で、 下流タスクで大幅改善したよ