AI最新論文読み会2021年6月

AI最新論文読み会2021年6月 SaitoMasaaki

自己紹介最初、文字認識ソフト。仕事では、推薦機能付きWEB作成が最初、その後画像AIが多い

アジェンダ Archive Sanity (arxiv-sanity.com) からピックアップした、arxiv.org の過去1ヶ月間の論文紹介。・一番気になった論文の紹介・top recentの論文トップ10
リスト・top hype の論文トップ10 リスト

Archive Sanity? https://www.arxiv-sanity.com/top

Top10 Recent 1 MLP-Mixer: An all-MLP Architecture for Vision 2
Self-Supervised Learning with Swin Transformers 3 The Modern Mathematics of Deep Learning 4 Multiscale Vision Transformers 5 Diffusion Models Beat GANs on Image Synthesis 6 Neural Algorithmic Reasoning 7 Emerging Properties in Self-Supervised Vision Transformers 8 Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges 9 A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning 10 Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency

Top10 Hype 1. Minimum-Distortion Embedding 2. StyleCLIP: Text-Driven Manipulation of
StyleGAN Imagery 3. RepVGG: Making VGG-style ConvNets Great Again 4. Representation Learning for Networks in Biology and Medicine: Advancements, Challenges, and Opportunities 5. Cross-validation: what does it estimate and how well does it do it? 6. Factors of Influence for Transfer Learning across Diverse Appearance Domains and Task Types 7. Why Do Local Methods Solve Nonconvex Problems? 8. Scaling Scaling Laws with Board Games 9. Vision Transformers for Dense Prediction 10. EfficientNetV2: Smaller Models and Faster Training)

Pickup論文

Top recent ①LP-Mixer:視覚のためのオールMLPアーキテクチャ (原文: MLP-Mixer: An all-MLP Architecture for Vision)
畳み込みニューラルネットワーク（CNN）は、コンピュータビジョンの代表的なモデルです。最近では、Vision Transformerのようなアテンションベースのネットワークも人気があります。本論文では、コンボリューションとアテンションはどちらも良い性能を発揮するのに十分であるが、どちらも必要ではないことを示す。我々は、多層パーセプトロン（MLP）のみを用いたアーキテクチャであるMLP-Mixerを発表します。MLP-Mixerには、2種類のレイヤーがあります。1 つは、MLPを画像パッチに独立して適用したもの（つまり、位置ごとの特徴を「混合」する）、もう1つは、MLPをパッチ全体に適用したもの（つまり、空間情報を「混合」する）です。大規模なデータセットや最新の正則化スキームを用いて学習した場合、MLP-Mixerは画像分類のベンチマークで競争力のあるスコアを獲得し、事前学習と推論のコストは最先端のモデルと同等である。これらの結果が、CNNやTransformerの領域を超えて、さらなる研究のきっかけとなることを期待しています。 http://arxiv.org/abs/2105.01601v2 Google Research, Brain Team. →MLPのみで、すごいのできたよスケールするのもいいよ

構造

Top recent: Best10

①MLP-Mixer:視覚のためのオールMLPアーキテクチャ (原文: MLP-Mixer: An all-MLP Architecture for Vision) pickup

②スウィン変圧器による自己教師付き学習 (原文: Self-Supervised Learning with Swin Transformers) コンピュータビジョンの分野では、CNNからTransformerへとモデルチェンジが進んでいます。本研究では、Vision Transformersをバックボーン・アーキテクチャとする、MoBYと呼ばれる自己教師付き学習ア
プローチを発表する。このアプローチには基本的に新しい発明はなく、MoCo v2とBYOLを組み合わせ、 ImageNet-1Kの線形評価で合理的に高い精度を達成するように調整されている。DeiT-SとSwin-Tを用いて、 300エポックの学習により、それぞれ72.8%と75.0%のトップ1精度を達成しています。この性能は、DeiT をバックボーンとして採用しているMoCo v3やDINOなどの最近の作品よりも、より軽快なトリックを用いており、わずかに優れています。さらに重要なことは、汎用的なSwin Transformerをバックボーンとすることで、物体検出や意味分割などの下流のタスクでも学習した表現を評価することができることです。今回の結果が、Transformerアーキテクチャ用に設計された自己教師付き学習手法のより包括的な評価につながることを期待しています。私たちのコードとモデルは、 https://github.com/SwinTransformer/Transformer-SSL で公開されており、今後も継続的に充実させていく予定です。 http://arxiv.org/abs/2105.04553v2 Tsinghua University 2Xi’an Jiaotong University 3Microsoft Research Asia) → MoCo v2とBYOL組み合わせたもの発表 Swin Transformerをバックボーンにして 75.0%のトップ1精度を達成

③ディープラーニングの現代数学 (原文: The Modern Mathematics of Deep Learning) 深層学習の数学的解析という新しい分野について説明します。この分野は、古典的な学習理論の枠組みの中では答えられなかった研究課題のリストに基づいて生まれた。これらの疑問は、オーバーパラメトリッ
クなニューラルネットワークの優れた一般化能力、深層アーキテクチャにおける深さの役割、次元の呪いが明らかにないこと、問題が非凸であるにもかかわらず最適化が驚くほどうまくいくこと、どのような特徴が学習されるかを理解すること、なぜ深層アーキテクチャが物理的な問題で例外的にうまくいくのか、アーキテクチャのどの細かい側面が学習タスクの動作にどのように影響するのか、などである。本論文では、これらの問題に対する部分的な回答を得るための最新のアプローチの概要を紹介します。厳選されたアプローチについては、主要なアイデアをより詳細に説明する。 http://arxiv.org/abs/2105.04026v1 Julius Berner† Philipp Grohs‡ Gitta Kutyniok§ Philipp Petersen →数学的解析によって、上記疑問に答えるアプローチの紹介

④マルチスケールビジョントランスフォーマー (原文: Multiscale Vision Transformers) 我々は、マルチスケール特徴階層の精緻なアイデアをトランスフォーマーモデルと結びつけることにより、ビデオおよび画像認識のためのマルチスケール・ビジョン・トランスフォーマー（MViT）を発表する。マルチスケール・トランスフォーマーは，複数のチャンネル解像度スケールの段階を持つ．入力解像度と小さなチャネル次元からスタートした各ステージは，空間解像度を下げながらチャネル容量を階層的に拡大していきます．これにより、単純な低レベルの視覚情報をモデル化するために高い空間解像
度で動作する初期の層と、空間的に粗いが複雑な高次元の特徴を持つ深い層からなる、特徴のマルチスケール・ピラミッドが形成される。我々は、様々なビデオ認識タスクにおいて、視覚信号の緻密な性質をモデル化するためのこの基本的なアーキテクチャ優先度を評価したところ、大規模な外部事前学習に依存し、計算やパラメータにおいて5～10倍のコストがかかる既存の視覚変換器よりも優れていました。さらに、時間的次元を取り除き、画像分類にこのモデルを適用したところ、先行する視覚変換装置を上回る結果が得られました。コードは https://github.com/facebookresearch/SlowFast から入手可能です。 http://arxiv.org/abs/2104.11227v1 Facebook AI Research 2UC Berkeley →空間解像度を下げながらチャネル容量を階層的に拡大する構造をもつトランスフォーマーでいい性能、コストでたよ

⑤画像合成における拡散モデル・ビートGAN (原文: Diffusion Models Beat GANs on Image Synthesis) 拡散モデルは、現在の最先端の生成モデルよりも優れた画像サンプル品質を達成できることを示します。
これは、無条件の画像合成において、一連のアブレーションにより、より良いアーキテクチャを見つけることで達成されます。条件付き画像合成では、分類器ガイダンスを用いてサンプル品質をさらに向上させます。これは、分類器からの勾配を用いて多様性とサンプル品質をトレードオフする、シンプルで計算効率の高い方法です。その結果、ImageNet 128$¥¥$128では2.97、ImageNet 256$¥$256では4.59、ImageNet 512$¥$512では7.72のFIDを達成しました。最後に、分類器ガイダンスが拡散モデルのアップサンプリングとうまく組み合わさることを発見し、ImageNet 512$¥でFIDを3.85まで改善しました。我々のコードは https://github.com/openai/guided-diffusion で公開しています。 http://arxiv.org/abs/2105.05233v3 OpenAI →拡散モデルで2.97FID達成したよ

⑥ニューラルアルゴリズムによる推論 (原文: Neural Algorithmic Reasoning) アルゴリズムは、近年の世界的な技術進歩の基盤となっており、特に、ある分野の技術的進歩を別の分野に急速に応用する礎となっています。我々は、アルゴリズムが深層学習法とは根本的に異なる性質を持っていることを主張しており、このことは、深層学習法がアルゴリズムを模倣することができるようになれば、アルゴリズムで見られるような一般化が深層学習で可能になることを強く示唆している--現在の機械学習法では到底到達できないことだ。さらに、ニューラルネットワークは、学習されたアルゴリズムの連続空間の要素を表現することで、既知のアルゴ
リズムを実世界の問題により近い形で適応させることができ、人間のコンピュータ科学者が提案するものよりも効率的で実用的な解決策を見つけられる可能性がある。ここでは、ニューラルアルゴリズム推論（アルゴリズム計算を実行できるニューラルネットワークを構築する技術）を紹介し、従来のアルゴリズムではアクセスできないと考えられていた入力に対して、古典的なアルゴリズムを実行するための変革の可能性について意見を述べる。 http://arxiv.org/abs/2105.02761v1 DeepMind →古典的なアルゴリズムを実行するための変革の可能性

⑦自己保存型ビジョントランスフォーマーの新たな特性 (原文: Emerging Properties in Self-Supervised Vision Transformers) 本論文では，自己教師付き学習がVision Transformer
(ViT)に，畳み込みネットワーク(convnets)と比較して際立った新しい特性を与えるかどうかを疑問視している．自己教師付き手法をこのアーキテクチャに適応させると、特にうまくいくという事実に加えて、次のような見解を得た：第1に、自己教師付きViTの特徴は、画像の意味的なセグメンテーションに関する明確な情報を含んでいる。次に、これらの特徴は優れたk-NN分類器でもあり、小さなViTでImageNetの 78.3% top-1に達しました。本研究では、モーメンタムエンコーダ、マルチクロップトレーニング、およびViTでの小さなパッチの使用の重要性も強調している。我々の研究結果を、DINOと呼ばれるシンプルな自己教師付き手法に実装し、ラベルのない自己蒸留の一形態と解釈しています。ViT-Baseを用いた線形評価において、ImageNetで80.1%のtop-1を達成し、DINOとViTsの相乗効果を示した。。 http://arxiv.org/abs/2104.14294v1 1 Facebook AI Research 2 Inria∗ 3 Sorbonne University →DINO（ラベルのない自己蒸留の一形態）でVitで ImageNetで80.1%のtop-1を達成したよ

⑧▪ 幾何学的深層学習。格子、群、グラフ、測地線、そしてゲージ (原文: Geometric Deep Learning: Grids, Groups, Graphs,
Geodesics, and Gauges) この10年間、データサイエンスと機械学習の分野では、深層学習法に象徴される実験的な革命が起きています。実際、コンピュータビジョン、囲碁、タンパク質の折り畳みなど、これまで手の届かないものと考えられていた高次元の学習課題の多くが、適切な計算規模で実現可能となっている。驚くべきことに、深層学習の本質は、2つの単純なアルゴリズム原理から構築されている。1つ目は、表現または特徴の学習という概念で、これにより、適応された（多くの場合、階層的な）特徴が各タスクの適切な規則性の概念を捉える。2つ目は、典型的なバックプロパゲーションとして実装される局所勾配降下法による学習である。高次元で一般的な関数を学習することは呪われた推定問題であるが、関心のあるほとんどのタスクは一般的ではなく、物理的世界の基本的な低次元性と構造から生じる本質的な事前定義された規則性を備えている。このテキストでは、広い範囲のアプリケーションに適用できる統一された幾何学的原理によって、これらの規則性を明らかにすることを目的としています。このような「幾何学的統一」の試みは、フェリックス・クラインのエアランジェン・プログラムの精神に基づいており、2 つの目的を持っている。一方で、ニューラル・アーキテクチャに事前の物理的知識を組み込むための建設的な手順を提供し、まだ発明されていない将来のアーキテクチャを構築するための原理的な方法を提供しています。。 http://arxiv.org/abs/2104.13478v2 1 Imperial College London / USI IDSIA / Twitter 2New York University 3Qualcomm AI Research. Qualcomm AI Research is an initiative of Qualcomm Technologies, Inc. 4DeepMind → 「幾何学的統一」の試み

⑨教師なしの時空間表現学習に関する大規模な研究 (原文: A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning)
本研究では、動画からの教師なし時空間表現学習に関する大規模な研究を行う。最近の4つの画像ベースのフレームワークを統一的に捉え、これらの手法を時空間に簡単に一般化できるシンプルな目的を研究しています。我々の目的は、同じビデオの中で時間的に永続的な特徴を奨励するもので、その単純さにもかかわらず、驚くべき効果を発揮する。この目的は、単純であるにもかかわらず、次のような様々な教師なしのフレームワーク、(ii)事前学習データセット、(iii)下流のデータセット、(iv)バックボーン・アーキテクチャに渡って驚くほどよく機能します。本研究では、タイムスパンが60秒であっても、長時間のパーシステントを奨励することが効果的であることなど、興味深い結果が得られています。また、複数のベンチマークで最先端の結果が得られたことに加え、教師なしの事前学習が教師ありの場合よりも優れているといういくつかの有望なケースについても報告します。コードは https://github.com/facebookresearch/SlowFast で公開しています。 Facebook AI Research (FAIR) http://arxiv.org/abs/2104.14558v1 →動画からの教師なし時空間表現学習に関する大規模な研究したよ４つのフレームワークを使用したよ

⑩クロスビデオサイクルコンシステンシーによる画像表現の対照的な学習 (原文: Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency)
最近の研究では、自己教師付き表現学習の性能が大幅に向上している。その中心となるのが，画像内不変量学習である．1つの画像インスタンスに対する2つの異なる変換を正のサンプルペアとみなし，そのペアを比較することで不変表現を学習する様々なタスクが設計されている．ビデオデータの場合、同じビデオからのフレームの表現は、他のビデオからのフレームよりも近くなるように学習される、すなわち、ビデオ内不変性である。しかし、ビデオ間の関係は、視覚表現の学習のためにはほとんど検討されていない。また，映像内不変性とは異なり，映像間関係の地物ラベルは人手を介さずには入手できないのが現状である．本論文では，一般的な画像表現学習のために，周期的整合性を用いて映像間関係を探索する新しい対比学習法を提案する．これにより、異なるビデオインスタンス間で正のサンプルペアを収集することができ、これがより高レベルのセマンティクスにつながると仮説を立てている。我々の手法は、この画像表現を、視覚的オブジェクトの追跡、画像分類、行動認識などの複数の下流タスクに適用することで検証される。その結果、最新のコントラスト学習法に比べて大幅な改善が見られました。プロジェクトページは https://happywu.github.io/cycle_contrast_video でご覧いただけます。 http://arxiv.org/abs/2105.06463v1 McGill University, Mila UC San Diego →周期的整合性を用いて映像間関係を探索する新しい対比学習法で、下流タスクで大幅改善したよ

Top hype: Best10 すべて前回と同じ

DeepL Translator (deepl.com) https://www.deepl.com/en/translator

AI最新論文読み会2021年6月

AI最新論文読み会2021年6月

医療AI研究所@大阪公立大学

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Research

Featured

Transcript