AI最新論文読み会2021年7月

医療ディープラーニング勉強会 AI最新論文読み会2021年7月理化学研究所落合幸治

自己紹介 • 理研研究員 ※今回保発表は所属する組織と無関係です • 研究内容：細胞の自動培養 • 前回の発表：
2021年2月（当時は阪大博士課程。４月卒業） • 好きなこと：SF小説落合幸治（おちあいこうじ）

Agenda Arxiv sanity (http://www.arxiv-sanity.com/)で人気だった論文を紹介。 2021/6/26にサーベイ 1. Pickup • 発表者が一番気になった論文
2. Top recent • お気に入り数 • Last monthの上位10個 3. Top hype • Twitterでの言及数 • Last monthの上位10個

Top recent 1. Not All Images are Worth 16x16 Words:
Dynamic Vision Transformers with Adaptive Sequence Length 2. Decision Transformer: Reinforcement Learning via Sequence Modeling 3. SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers 4. When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations 5. Reinforcement Learning as One Big Sequence Modeling Problem 6. You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection 7. Towards Long-Form Video Understanding 8. NeRF in detail: Learning to sample for view synthesis 9. DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification 10. Rethinking InfoNCE: How Many Negative Samples Do You Need? Pickup!

Top hype 1. Open source disease analysis system of cactus
by artificial intelligence and image processing 2. The Modern Mathematics of Deep Learning 3. Compacter: Efficient Low-Rank Hypercomplex Adapter Layers 4. Applications of Deep Neural Networks 5. Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning 6. How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers 7. Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks 8. Nested Variational Inference 9. Regularization is all you Need: Simple Neural Nets can Excel on Tabular Data 10. DeepLab2: A TensorFlow Library for Deep Labeling Pickup!

Pickup!

Decision Transformer:シーケンスモデリングによる強化学習 (原文: Decision Transformer: Reinforcement Learning via Sequence Modeling)
http://arxiv.org/abs/2106.01345v2 強化学習（RL）をシーケンスモデリング問題として抽象化したフレームワークを紹介します。これにより、Transformerアーキテクチャのシンプルさとスケーラビリティ、およびGPT-xやBERTなどの言語モデリングにおける関連する進歩を利用することができます。特に、Decision Transformerは、RLの問題を条件付きシーケンスモデリングに変換するアーキテクチャです。価値関数を適合させたり、政策勾配を計算したりするRLの先行的なアプローチとは異なり、Decision Transformerは、因果的にマスクされたTransformerを活用して、最適なアクションを単純に出力します。Decision Transformerのモデルは、望ましいリターン（報酬）、過去の状態、および行動に自己回帰モデルを条件付けすることで、望ましいリターンを達成する未来の行動を生成することができます。Decision Transformerは、そのシンプルさにもかかわらず、Atariタスク、OpenAI Gymタスク、Key-to-Doorタスクにおいて、最先端のモデルフリーオフラインRLベースラインと同等以上の性能を発揮する。 Top recent 2 目的： Transformerをオフライン強化学習に応用方法： Transformerを使いアクションの決定をマスクされたシークエンスの補完として解く著者所属：カルフォルニア・バークレイ大学、 Facebook, Google Brain Submitted on 2 Jun 2021 (v1) Pickup!

Top recent 2 Submitted on 2 Jun 2021 (v1) Pickup! オンライン強化学習オフライン強化学習 Data Model Model World 外界にアクションを出力しながら学習する保存されたデータから学習する

Top recent 2 Pickup! DQNのリプレイデータで学習

Top recent 2 Pickup!

Top recent 2 CQL: Conservative Q-Learning Pickup! 鍵を拾ってドアを開けるという報酬がスパースな場合でも機能する

Top recent 2 Pickup!

Top recent Last month, Top 10

すべての画像が16x16の言葉に値するわけではない。アダプティブ・シーケンス・レングスによるダイナミック・ビジョン・トランスフォーマー (原文: Not All Images are Worth 16x16 Words:
Dynamic Vision Transformers with Adaptive Sequence Length) http://arxiv.org/abs/2105.15075v1 ヴィジョン・トランスフォーマー（ViT）は、大規模な画像認識で大きな成功を収めている。ViTは、すべての2D画像を一定数のパッチに分割し、それぞれをトークンとして扱います。一般的に、画像をより多くのトークンで表現すれば、予測精度は高くなりますが、計算コストは大幅に増加します。予測精度と処理速度を適切にトレードオフするために，経験的にトークンの数を16×16に設定しています．本論文では、画像にはそれぞれ特徴があり、理想的にはトークン数は個々の入力に応じて条件付けられるべきであると主張しています。実際，4x4のトークン数だけで正確に予測できる「簡単な」画像が相当数存在する一方で，より細かい表現を必要とする「難しい」画像はごく一部であることを確認している．この現象にヒントを得て、各入力画像に対して適切なトークンの数を自動的に設定するDynamic Transformerを提案します。これは、トークンの数を増やしていく複数のTransformerをカスケード接続することで実現されており、これらのTransformerは、テスト時に適応的に順次起動される（つまり、十分に自信のある予測が生成されると、推論が終了する）。さらに、Dynamic Transformerの異なるコンポーネント間で、特徴の再利用と関係の再利用のメカニズムを効率的に設計し、冗長な計算を削減します。ImageNet、CIFAR- 10、CIFAR-100を対象とした広範な実証実験の結果、理論的な計算効率と実用的な推論速度の両方において、本手法が競合他社のベースラインを大幅に上回ることが実証された。 Top recent 1 目的：ビジョントランスフォーマーのトークン数自動決定方法：段階的に画像の分割数を上げながら適度なところで出力を出す著者所属：清華大学

すべての画像が16x16の言葉に値するわけではない。アダプティブ・シーケンス・レングスによるダイナミック・ビジョン・トランスフォーマー (原文: Not All Images are Worth 16x16 Words:
Dynamic Vision Transformers with Adaptive Sequence Length) Top recent 1

http://arxiv.org/abs/2106.01345v2 強化学習（RL）をシーケンスモデリング問題として抽象化したフレームワークを紹介します。これにより、Transformerアーキテクチャのシンプルさとスケーラビリティ、およびGPT-xやBERTなどの言語モデリングにおける関連する進歩を利用することができます。特に、Decision Transformerは、RLの問題を条件付きシーケンスモデリングに変換するアーキテクチャです。価値関数を適合させたり、政策勾配を計算したりするRLの先行的なアプローチとは異なり、Decision Transformerは、因果的にマスクされたTransformerを活用して、最適なアクションを単純に出力します。Decision Transformerのモデルは、望ましいリターン（報酬）、過去の状態、および行動に自己回帰モデルを条件付けすることで、望ましいリターンを達成する未来の行動を生成することができます。Decision Transformerは、そのシンプルさにもかかわらず、Atariタスク、OpenAI Gymタスク、Key-to-Doorタスクにおいて、最先端のモデルフリーオフラインRLベースラインと同等以上の性能を発揮する。 Top recent 2 目的： Transformerをオフライン強化学習に応用方法： Transformerを使いアクションの決定をマスクされたシークエンスの補完として解く著者所属：カルフォルニア・バークレイ大学、 Facebook, Google Brain Submitted on 2 Jun 2021 (v1) Pickup

SegFormer:トランスフォーマーを用いたセマンティック・セグメンテーションのためのシンプルで効率的な設計 (原文: SegFormer: Simple and Efficient Design for Semantic Segmentation
with Transformers) http://arxiv.org/abs/2105.15203v2 今回紹介するSegFormerは、Transformerと軽量なMLP（multilayer perception）デコーダを統合した、シンプルで効率的かつ強力なセマンティックセグメンテーションフレームワークです。SegFormerには2つの魅力的な特徴がある。1) SegFormerは、マルチスケールの特徴を出力する階層的に構造化された新しいTransformerエンコーダで構成されています。位置符号を必要としないため、テストの解像度がトレーニングと異なる場合に性能低下につながる位置符号の補間を避けることができます。2）SegFormerは複雑なデコーダを避けることができます。提案されたMLPデコーダは、異なる層からの情報を集約することで、ローカルな注意とグローバルな注意の両方を組み合わせ、強力な表現を実現します。このシンプルで軽量な設計が、Transformerでの効率的なセグメンテーションの鍵であることを示します。我々のアプローチをスケールアップして、SegFormer-B0からSegFormer-B5までの一連のモデルを取得し、以前の対応策よりも大幅に優れた性能と効率を達成した。例えば、SegFormer-B4はADE20Kで64Mのパラメータを用いて50.3%のmIoUを達成しており、以前の最良の手法よりも5倍小さく、2.2%優れています。最高のモデルであるSegFormer-B5は、Cityscapes検証セットで84.0%のmIoUを達成し、Cityscapes-Cでは優れたゼロショットのロバスト性を示しています。コードはgithub.com/NVlabs/SegFormerで公開されます。 Top recent 3 目的：画像のセマンティックセグメンテーションの改善方法：広範囲の情報を統合するTransformerとシンプルなMLPを組み合わせる著者所属：香港大学、南京大学、NVIDIA、カリフォルニア工科大学

with Transformers) Top recent 3 パッチの情報を統合シンプルなデコーダー

with Transformers) Top recent 3

with Transformers) Top recent 3 既存手法（DeepLab）もかなり高精度なので違いは間違い探しレベル

事前学習や強力なデータ補強がなくてもビジョントランスフォーマーがResNetsを上回る場合 (原文: When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations) http://arxiv.org/abs/2106.01548v1 ヴィジョン・トランスフォーマー（ViT）やMLPは、手書きの特徴量や帰納的なバイアスを、汎用のニューラル・アーキテクチャに置き換えるためのさらなる取り組みです。既存の研究では、大規模な事前学習や強力なデータ増強の繰り返しなど、大量のデータによってモデルを強化しているが、最適化に関する問題（例えば、初期化や学習率に対する感度）が報告されている。そこで本論文では、ViTとMLP-Mixer を損失幾何学の観点から調査し、モデルの学習時のデータ効率と推論時の一般化を改善することを目的とする。可視化とHessianにより、収束したモデルの非常に鋭いローカルミニマムが明らかになる。最近提案されたシャープネスを考慮したオプティマイザを用いて平滑性を促進することにより、ViTとMLP-Mixerの精度とロバスト性を、教師付き学習、敵対的学習、対照的学習、伝達学習などの様々なタスクで大幅に向上させることができた（例えば、Inceptionスタイルの簡単な前処理を施したViT-B/16とMixer-B/16のImageNetにおけるトップ1 精度は、それぞれ+5.3%と+11.0%である）。滑らかさの向上は、最初の数層のアクティブニューロンの数が少ないことに起因することを示している。このようにして得られたViTは、大規模な前処理や強力なデータ補強を行わずに、ImageNet上でゼロから学習した場合、同程度のサイズとスループットのResNetsよりも優れている。また、ViTは、より鋭敏なアテンションマップを持っています。 Top recent 4 目的： Vision Transformer学習のデータ効率と、推論の一般化を改善する方法：数学的解析とこれまでとは異なるオプティマイザの適用著者所属： Google Research

Strong Data Augmentations) Top recent 4 最適化にSAMを使うと loss空間がなめらかに

Strong Data Augmentations) Top recent 4 Mixer “MLP-Mixer: An all-MLP Architecture for Vision” より MixerはMLPを使った識別器

強化学習は大きなシーケンスモデリング問題である (原文: Reinforcement Learning as One Big Sequence Modeling Problem)
http://arxiv.org/abs/2106.02039v1 強化学習（RL）は通常、シングルステップのポリシーやシングルステップのモデルを推定することを目的としており、マルコフ特性を利用して問題を時間的に因数分解しています。しかし、RLは、高い報酬を得るための一連の行動を予測することを目的とした、シーケンスモデリングの問題であると考えることもできます。このように考えると、自然言語処理などの他の領域でうまく機能している強力で大容量のシーケンス予測モデルが、RL問題に対しても単純で効果的な解決策を提供できるのではないかと考えたくなるでしょう。そこで、最新の Transformerアーキテクチャを用いて、状態、行動、報酬のシーケンスに対する分布をモデル化することで、RLを「1つの大きなシーケンスモデリング」問題として捉え直すことができるかを検討します。RLをシーケンスモデリング問題として扱うことで、様々な設計上の決定が大幅に簡素化されます。オフラインモデルフリーRLの先行研究でよく見られるような、個別の行動ポリシー制約はもはや必要ありませんし、モデルベースRLの先行研究でよく見られるような、アンサンブルや他のエピステミックな不確実性推定器ももはや必要ありません。これらの役割はすべて、同じTransformerシーケンスモデルによって満たされています。実験では、このアプローチが、長期的なダイナミクス予測、模倣学習、目標条件付きRL、オフラインRLに柔軟に対応できることを実証しました。 Top recent 5 目的：強化学習をシークエンスモデリングの問題として解く方法： Transformerを用いて行動のシークエンスをモデル化著者所属：カリフォルニア・バークレイ大学 Submitted on 3 Jun 2021

Top recent 5

Top recent 5 直近のState(a)とAction(a)に強くアテンションがかかっている場合（マルコフ特性を学習）複数のタイムステップの同じ次元にアテンションがかかる場合（主に過去の行動に依存してりアクションスムージングを連想させる）

Top recent 5

You Only Look at One Sequence:視覚におけるトランスフォーマーを物体検出で再考する (原文: You Only Look
at One Sequence: Rethinking Transformer in Vision through Object Detection) http://arxiv.org/abs/2106.00666v2 Transformerは、純粋なシーケンスの観点から、2Dの空間構造に関する最小限の知識で、2Dのオブジェクトレベルの認識を行うことができるのでしょうか？この疑問に答えるために、私たちはYou Only Look at One Sequence (YOLOS)を発表しました。これは、可能な限り最小限の修正と帰納的バイアスを加えたVision Transformerに基づく一連のオブジェクト検出モデルです。中規模のImageNet-1kデータセットのみで事前学習したYOLOSは、COCOでも競争力のある物体検出性能を達成できることがわかりました。また、BERT-Baseから直接採用したYOLOS-Baseは、42.0 box APを達成することができました。また、Transformerが物体検出を通じた視覚において、現在のプレトレーニングスキームとモデルスケーリング戦略の影響と限界についても議論します。コードとモデルの重みは、https://github.com/hustvl/YOLOS で利用可能です。 Top recent 6 目的：オブジェクト検出方法： Vision Transformerを使ったオブジェクト検出モデルの開発著者所属：華中科技大学、ホライゾン・ロボティクス

You Only Look at One Sequence:視覚におけるトランスフォーマーを物体検出で再考する (原文: You Only Look
at One Sequence: Rethinking Transformer in Vision through Object Detection) Top recent 6

長編動画の理解に向けて (原文: Towards Long-Form Video Understanding) http://arxiv.org/abs/2106.11310v1 私たちの世界には絶え間なく視覚刺激が流れていますが、現在の視覚システムは数秒以内のパターンしか正確に認識できません。これらのシステムは、現在の状況を理解することはできても、過去や未来の出来事の文脈を理解することはできません。本論文では、長時間の動画の理解について研究します。長時間の動画をモデル化するためのフレームワークを導入し、大規模なデータセットを用いた
評価プロトコルを開発した。その結果、既存の最先端の短期モデルでは、長時間映像の理解には限界があることがわかった。新しいオブジェクト中心のトランスフォーマー・ベースのビデオ認識アーキテクチャは、7つの多様なタスクで著しく優れた性能を発揮する。また、 AVAデータセットにおいても、最先端のモデルに匹敵する性能を発揮しています。 Top recent 7 目的：長時間の動画の理解方法：トランスフォーマー・ベースのビデオ認識アーキテクチャを開発著者所属：テキサス大学

長編動画の理解に向けて (原文: Towards Long-Form Video Understanding) Top recent 7 自己教師学習
２つのシーンが同じか連続している

長編動画の理解に向けて (原文: Towards Long-Form Video Understanding) Top recent 7

NeRFを詳しく解説。ビュー合成のためのサンプリングを学ぶ (原文: NeRF in detail: Learning to sample for view
synthesis) http://arxiv.org/abs/2106.05264v1 ニューラル・ラディアンス・フィールド（NeRF）法は、斬新なビュー合成の性能を示している。主な手法は、個々の光線に沿ってサンプリングされたポイントでニューラルネットワークに問い合わせて、サンプリングされたポイントの密度と色を取得し、この情報をレンダリング方程式を用いて統合することで、個々のレイをレンダリングするというものです。密なサンプリングは計算量が多いため、一般的な解決策は、粗から詳細へのサンプリングを行うことです。本研究では、粗視化から微視化へのアプローチの明らかな限界に取り組んでいます。それは、ヒューリスティックな手法に基づいており、タスクのためにエンドツーエンドでトレーニングされていないことです。このモジュールは、細かいネットワークに対してサンプルとその重要性を提案し、その神経アーキテクチャに対して複数の選択肢を検討して比較することを学習する、微分可能なモジュールを導入します。提案モジュールをゼロからトレーニングすることは、監視が不足しているために不安定になる可能性があるので、効果的な事前トレーニング戦略も提唱されています。NeRF in detail（NeRF-ID）と名付けられたこのアプローチは、Blenderの合成ベンチマークにおいて、NeRFと最先端の技術を上回る優れたビュー合成品質を実現し、実際のLLFF-NeRFシーンにおいても同等以上の性能を発揮します。さらに、予測されたサンプルの重要性を活用することで、レンダリング品質を大幅に犠牲にすることなく、計算量を25％削減することに成功しました Top recent 8 目的： NeRFの改良方法：著者所属： DeepMind、オックスフォード大学

synthesis) Top recent 8 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesisより https://www.matthewtancik.com/nerf 複数枚の画像から３D 空間の色配置を推定

synthesis) Top recent 8 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesisより https://www.matthewtancik.com/nerf 仮想的な視点からのイメージを合成

synthesis) Top recent 8 視点を荒くサンプリングし、詳細なサンプリングをどこから取るか決める既存法は粗い視点を人が決めそこから重みつきサンプル提案法はサンプリングの事前分布を直接学習

synthesis) Top recent 8

DynamicViT: Dynamic Token Sparsificationによる効率的なビジョントランスファー (原文: DynamicViT: Efficient Vision Transformers with
Dynamic Token Sparsification) http://arxiv.org/abs/2106.02034v1 視覚変換装置では注意が疎になります。我々は、視覚変換装置における最終的な予測は、最も情報量の多いトークンのサブセットにのみ基づいており、これは正確な画像認識には十分であると考えている。この観察結果に基づき、我々は、入力に基づいて冗長なトークンを段階的かつ動的に刈り込む動的トークンスパース化フレームワークを提案する。具体的には、現在の特徴を考慮して各トークンの重要度スコアを推定する軽量の予測モジュールを考案します。このモジュールは、冗長なトークンを階層的に刈り込むために、異なる層に追加されます。予測モジュールをエンド・ツー・エンドで最適化するために、他のトークンとの相互作用をブロックすることでトークンを微分して刈り込むアテンションマスキング戦略を提案する。自己注意の性質を利用することで、構造化されていないスパースなトークンはハードウェアに優しく、本フレームワークは実際の高速化を容易に実現しています。入力トークンの66%を階層的に刈り込むことで、我々の手法は31%～37%のFLOPを大幅に削減し、スループットを40%以上向上させました。一方で、精度の低下は様々なビジョン変換器に対して0.5%以内に抑えられました。DynamicViTモデルは、ダイナミックなトークンスパーシフィケーションフレームワークを用いることで、 ImageNet上で最先端のCNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑さと精度のトレードオフを達成することができます。コードは https://github.com/raoyongming/DynamicViT から入手できます。 Top recent 9 目的： Vision Transformerの計算効率を上げる方法： Vision Transformerの冗長なトークンを動的に刈り込む（0.5%の制度低下で31%～37%のFLOP向上）著者所属：清華大学、カリフォルニア大学

Dynamic Token Sparsification) Top recent 9

Dynamic Token Sparsification) Top recent 9 前レイヤー次レイヤー

Dynamic Token Sparsification) Top recent 9

InfoNCE再考：ネガティブサンプルはいくつ必要か？ (原文: Rethinking InfoNCE: How Many Negative Samples Do You
Need?) http://arxiv.org/abs/2105.13003v1 InfoNCE損失は、コントラストモデルの学習に広く使われている損失関数です。これは、各正のペアとそれに関連するK個の負のペアを識別することで、一対の変数間の相互情報を推定することを目的としている。サンプルのラベルがきれいな場合、より多くの負のサンプルを組み込むと、相互情報量推定の下限が厳しくなり、通常はより良いモデル性能が得られることが証明されている。しかし，現実のタスクではラベルにノイズが含まれていることが多く，モデルの学習にノイズの多い負のサンプルを多く組み込むことは最適ではないかもしれない．本論文では、半定量的な理論的フレームワークを用いて、様々なシナリオにおいてInfoNCEに最適な負のサンプルの数を研究する。具体的には，まず，負のサンプリング比率Kがトレーニングサンプルの情報量に与える影響を分析する確率モデルを提案する．次に，訓練サンプルの情報性に基づいて，モデル学習に対する訓練サンプルの全体的な影響を測定するために，訓練効果関数を設計する．そして，訓練効果関数を最大化するKの値を用いて，最適な負のサンプリング比を推定する．さらに、我々のフレームワークに基づいて、 InfoNCEに基づくモデル学習を改善するために、負のサンプリング比率を動的に調整することができる適応的負のサンプリング法を提案する。実世界の様々なデータセットを用いた大規模な実験により、我々のフレームワークが様々なタスクにおける最適な負のサンプリング比を正確に予測できること、そして我々の提案する適応的負のサンプリング法が、一般的に用いられる固定の負のサンプリング比戦略よりも優れた性能を達成できることが示された。 Top recent 10 目的：コントラスティブ・ラーニングで使用されるInfoNCE損失の最適な負のサンプル数を決める方法：負のサンプリング比率を動的に調整することができる適応的負のサンプリング法を提案著者所属：香港大学、マイクロソフト・リサーチ・アジア

InfoNCE再考：ネガティブサンプルはいくつ必要か？ (原文: Rethinking InfoNCE: How Many Negative Samples Do You
Need?) Top recent 10

Top hype Last month, Top 10

人工知能と画像処理によるサボテンのオープンソース病害解析システム (原文: Open source disease analysis system of cactus by
artificial intelligence and image processing) http://arxiv.org/abs/2106.03669v1 観葉植物から食用、薬用まで、サボテンの用途は多岐にわたるため、サボテン栽培への関心が高まっています。サボテンの生育には様々な病気が影響します。サボテンの病気を分析するための自動モデルを開発し、サボテンの被害を迅速に治療・予防できるようにすること。Faster R-CNNとYOLOアルゴリズム技術を用いて、1）炭疽病、2）カンカー、3）手入れ不足、4）アブラムシ、5）さび病、6）通常群の6 つのグループに自動的に分配されたサボテンの病気を分析した。実験結果によると、YOLOv5アルゴリズムはFaster R-CNNアルゴリズムよりもサボテンの病気を検出・識別するのに有効であることがわかりました。YOLOv5Sモデルを用いたデータのトレーニングとテストの結果、精度は89.7％、精度（リコール）は98.5％となり、サボテン栽培における多くのアプリケーションでさらに使用するのに十分な効果がありました。また、YOLOv5アルゴリズムの画像1枚あたりのテスト時間はわずか26ミリ秒でした。したがって、YOLOv5アルゴリズムはモバイルアプリケーションに適していることがわかり、このモデルはさらにサボテンの病気を分析するプログラムに発展させることができます。 Top hype 1 目的：サボテンの病害解析方法： Faster R-CNNとYOLOアルゴリズム技術を用いて、1）炭疽病、2）カンカー、3）手入れ不足、4）アブラムシ、 5）さび病、6）通常群の6つのグループに自動的に分配著者所属：モンクット王工科大学(タイ)、ミシガン工科大学

人工知能と画像処理によるサボテンのオープンソース病害解析システム (原文: Open source disease analysis system of cactus by
artificial intelligence and image processing) Top hype 1

ディープラーニングの現代数学 (原文: The Modern Mathematics of Deep Learning) http://arxiv.org/abs/2105.04026v1 深層学習の数学的解析という新しい分野について説明します。この分野は、古典的な学習理論の枠組みの中では答えられなかった研
究課題のリストに基づいて生まれた。これらの疑問は、オーバーパラメトリックなニューラルネットワークの優れた一般化能力、深層アーキテクチャにおける深さの役割、次元の呪いが明らかにないこと、問題が非凸であるにもかかわらず最適化が驚くほどうまくいくこと、どのような特徴が学習されるかを理解すること、なぜ深層アーキテクチャが物理的な問題で例外的にうまくいくのか、アーキテクチャのどの細かい側面が学習タスクの動作にどのように影響するのか、などである。本論文では、これらの問題に対する部分的な回答を得るための最新のアプローチの概要を紹介します。厳選されたアプローチについては、主要なアイデアをより詳細に説明する。 Top hype 2 目的：なぜディープラーニングはうまく学習ができるのかを調査方法：文献調査と提案されているアイディアの紹介著者所属：ウィーン大学、ミュンヘン大学

Compacter:効率的な低ランクの超複雑なアダプタ層 (原文: Compacter: Efficient Low-Rank Hypercomplex Adapter Layers) http://arxiv.org/abs/2106.04647v1 大規模な学習済み言語モデルを下流のタスクに適応させるための微調整は，NLP
ベンチマークで最先端の性能を達成するための標準的な方法です．しかし，数百万から数十億のパラメータを持つモデルのすべての重みを微調整することは，サンプル効率が悪く，リソースの少ない環境では不安定であり，タスクごとにモデルのコピーを保存する必要があるため無駄が多い．最近では、パラメータ効率の良い微調整手法が開発されているが、これらのアプローチは比較的多くのパラメータを必要とするか、標準的な微調整の性能を下回っている。本研究では、大規模な言語モデルを微調整するための手法であるCompacterを提案する。Compacterは、タスクのパフォーマンスと学習可能なパラメータの数の間で、先行研究よりも優れたトレードオフを実現する。Compacterは、アダプター、低ランク最適化、パラメータ化された超複雑な乗算層などのアイデアを基にして、これを達成している。具体的には、Compacterは事前学習されたモデルの重みにタスク固有の重み行列を挿入します。この重み行列は、共有された「遅い」重みとCompacterレイヤーごとに定義された「速い」ランクワン行列の間のクロネッカー積の合計として効率的に計算されます。Compacterは、事前に学習したモデルのパラメータの0.047%を学習するだけで、GLUEでの標準的な微調整と同等の性能を発揮し、低リソース環境での微調整よりも優れています。我々のコードは https://github.com/rabeehk/compacter/ で公開されています。 Top hype 3 目的：ファインチューニングのパラメータ効率を上げる方法：事前学習済みのモデルにタスク固有の重み行列を挿入する著者所属：スイス連邦工科大学ローザンヌ校、Idiap Research Institute、DeepMind

Compacter:効率的な低ランクの超複雑なアダプタ層 (原文: Compacter: Efficient Low-Rank Hypercomplex Adapter Layers) Top hype
3 ファイン・チューニングでは黄色の部分だけ学習パラメータ数に対して高性能

Compacter:効率的な低ランクの超複雑なアダプタ層 (原文: Compacter: Efficient Low-Rank Hypercomplex Adapter Layers) Top hype
3 重みを行列分解しパラメータ数を減らす

深層ニューラルネットワークの応用 (原文: Applications of Deep Neural Networks) http://arxiv.org/abs/2009.05673v2 深層学習は、ニューラルネットワークの新しい技術群です。高度な学習技術とニューラルネットワークの構成要素を組み合わせることで、表データ、画像、テキスト、音声などを入力と出力の両方で扱うことができるニューラルネットワークを作ることができるようになりました。
深層学習では、ニューラルネットワークが人間の脳の働きに似た方法で情報の階層を学習することができます。このコースでは、古典的なニューラルネットワークの構造、畳み込みニューラルネットワーク（CNN）、長短記憶（LSTM）、ゲートリカレントニューラルネットワーク（GRU）、一般Adversarial Networks（GAN）、および強化学習を紹介します。また、これらのアーキテクチャのコンピュータビジョン、時系列、セキュリティ、自然言語処理（NLP）、データ生成への応用についても取り上げます。また、ハイパフォーマンス・コンピューティング（HPC）の観点から、GPU（グラフィカル・プロセッシング・ユニット）とグリッドの両方で、深層学習をどのように活用できるかを説明します。主に深層学習の問題への応用に焦点を当て、数学的基礎についても紹介しています。読者は、Pythonプログラミング言語を使用して、Google TensorFlowとKerasを使って深層学習を実装します。この本を読む前にPythonを知っている必要はありませんが、少なくとも1つのプログラミング言語に精通していることが前提です。 Top hype 4 目的： Hintonの書いた深層学習のHow to本。Python code example有り(555p) 方法：- 著者所属： Heaton Research, Inc

深層学習におけるモデル選択のためのスケーラブルな限界尤度推定法 (原文: Scalable Marginal Likelihood Estimation for Model Selection in
Deep Learning) http://arxiv.org/abs/2104.04975v3 周辺尤度に基づくモデル選択は、有望であるにもかかわらず、推定が困難なため、深層学習ではほとんど使用されていない。その代わり、ほとんどのアプローチは検証データに依存していますが、これは容易に入手できない可能性があります。本研究では、学習データのみに基づいてハイパーパラメータとネットワークアーキテクチャの両方を選択する、スケーラブルな周辺尤度推定法を提示します。いくつかのハイパーパラメータは、トレーニング中にオンラインで推定することができ、手順を簡略化することができる。我々の周辺尤度推定法は，ヘシアンに対するラプラス法とガウス・ニュートン近似に基づいており，標準的な回帰および画像分類のデータセットにおいて，特にキャリブレーションと分布外検出の点で，クロスバリデーション法と手動チューニングよりも優れた性能を示している．我々の研究は、限界尤度が一般化を向上させ、検証データが利用できない場合（例えば、非定常設定の場合）に有用であることを示している。 Top hype 5 目的：検証データにたよらず学習データだけでハイパーパラメータとアーキテクチャを選択する方法：周辺尤度を近似的に推定し、それに基づいて選択を行う著者所属：スイス・チューリッヒ大学、マックスプランク研究所、ケンブリッジ大学、理化学研究所

深層学習におけるモデル選択のためのスケーラブルな限界尤度推定法 (原文: Scalable Marginal Likelihood Estimation for Model Selection in
Deep Learning) Top hype 5 周辺尤度 (MargLik)の高いモデルほど当てはまりが良い

ViTを鍛えるには？ビジョントランスフォーマーのデータ、増強、正則化 (原文: How to train your ViT? Data, Augmentation, and
Regularization in Vision Transformers) http://arxiv.org/abs/2106.10270v1 ヴィジョントランスフォーマー（ViT）は、画像分類、物体検出、セマンティック画像セグメンテーションなどの幅広いビジョンアプリケーションにおいて、非常に競争力のある性能を達成することが示されている。畳み込みニューラルネットワークと比較して、ビジョントランスフォーマーの弱い帰納的バイアスは、一般的に、より小さなトレーニングデータセットでトレーニングを行う際に、モデルの正則化またはデータ補強（``AugReg''）への依存度が高くなることが分かっている。我々は、トレーニングデータ量、AugReg、モデルサイズ、計算バジェットの間の相互作用をより良く理解するために、体系的な実証研究を行った。公開されているImageNet-21kデータセットを用いて様々なサイズの ViTモデルを学習したところ、公開されていない大規模なJFT-300Mデータセットを用いて学習したモデルと同等もしくはそれ以上の性能を示すことがわかった。 Top hype 6 目的： Vision Transformerの適切なトレーニングデータ量、データ・オーグメンテーション、モデルサイズを知る方法：体系的な検証実験（計算力で殴る）著者所属： Google Research、独立系研究者(independent researcher)

ViTを鍛えるには？ビジョントランスフォーマーのデータ、増強、正則化 (原文: How to train your ViT? Data, Augmentation, and
Regularization in Vision Transformers) Top hype 6 データ量13M＋オーグメンテーションでデータ量300Mと同等 transformer+Augmentationで Error低下

共有ハイパーネットワークを用いたトランスフォーマーのパラメータ効率の良いマルチタスク微調整 (原文: Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks)
http://arxiv.org/abs/2106.04489v1 パラメータを効率的に微調整するためには，事前に学習した言語モデルの各層間にアダプタモジュールを導入する方法があります。しかし、このようなモジュールはタスクごとに別々に学習されるため、タスク間で情報を共有することができません。本論文では、変換モデルにおけるタスク、アダプタの位置、レイヤIDを条件とした共有ハイパーネットワークを用いてアダプタパラメータを生成することで、全てのレイヤとタスクのアダプタパラメータを学習できることを示す。このパラメータ効率の良いマルチタスク学習フレームワークは、ハイパーネットワークを介してタスク間で知識を共有する一方で、タスク固有のアダプタを介して個々のタスクにモデルを適応させることができるため、双方の長所を活かすことができます。よく知られているGLUEベンチマークを用いた実験では、タスクごとに0.29%のパラメータを追加するだけで、マルチタスク学習の性能が向上しました。さらに、さまざまなタスクにおいて、数ショットの領域の一般化においても、大幅な性能向上が見られました。このコードは、https://github.com/rabeehk/hyperformer で公開されています。 Top hype 7 目的：トランスフォーマーのファインチューニングにおいてタスク間で情報を共有方法：パラメータを生成するハイパーネットワークを使う著者所属：清華大学、カリフォルニア大学

共有ハイパーネットワークを用いたトランスフォーマーのパラメータ効率の良いマルチタスク微調整 (原文: Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks)
Top hype 7 Hyper network

入れ子式変量推論 (原文: Nested Variational Inference) http://arxiv.org/abs/2106.11302v1 本研究では、ネスティッド・インポータンス・サンプラーの提案を、ネスティッドの各レベルにおける順方向または逆方向のKLダイバージェンスを最小化することによって学習する手法群である、ネスティッド変量推論（NVI）を開発した。NVIは、一般的に使用されている多くの重要性サンプリング戦略に適用可能であり、サンプラーを導くためのヒューリスティックとして機能する中間密度を学習するメカニズムを提供する。我々の実験では、NVIを(a)学習されたアニーリング経路を用いたマルチモーダル分布からのサンプリング、(b)隠れマルコフモデ
ルにおける将来の観測値の尤度を近似するヒューリスティクスの学習、(c)階層的な深層生成モデルにおける償却された推論の実行に適用した。本研究では、入れ子になった目的を最適化することで、対数平均重みと有効サンプルサイズの点でサンプルの質が向上することを観察した。 Top hype 8 目的：深層生成モデルの事前分布として複雑な分布を使えるようにする方法：入れ子になった確率分布を学習し、順にサンプリングしていく著者所属：ノースイースタン大学

入れ子式変量推論 (原文: Nested Variational Inference) Top hype 8

必要なのは正則化だけ。シンプルなニューラルネットで表形式のデータを扱うことができる (原文: Regularization is all you Need: Simple Neural Nets
can Excel on Tabular Data) http://arxiv.org/abs/2106.11189v1 表形式のデータセットは、深層学習にとって最後の「未征服の城」であり、Gradient-Boosted Decision Treesのような伝統的なML手法は、最近の特殊なニューラル・アーキテクチャに対しても依然として強力な性能を発揮している。本論文では、ニューラルネットワークの性能を向上させる鍵は、最新の正則化技術の大規模なセットを共同かつ同時に適用することを再考することにあるという仮説を立てている。そこで本論文では、データセットごとに13種類の正則化手法の最適な組み合わせを探索し、どの正則化手法を適用するかとその補助的なハイパーパラメータを共同で最適化することで、プレーンな多層パーセプトロン（MLP）ネットワークの正則化を提案する。これらの正則化カクテルがMLPに与える影響を、40の表形式データからなる大規模な実証研究で実証的に評価し、(i)正則化されたプレーンMLPは、最近の最先端の特殊なニューラルネットワークアーキテクチャを大幅に上回り、(ii)XGBoostなどの強力な伝統的ML手法をも上回ることを示した。 Top hype 9 目的：深層学習で表形式のデータを扱う方法：最新の正規化技術を複数同時に適用する著者所属：フライブルグ大学、ハノーファー大学

必要なのは正則化だけ。シンプルなニューラルネットで表形式のデータを扱うことができる (原文: Regularization is all you Need: Simple Neural Nets
can Excel on Tabular Data) Top hype 9 正規化手法正規化複数入り↓

DeepLab2：ディープラベリングのためのTensorFlowライブラリ (原文: DeepLab2: A TensorFlow Library for Deep Labeling) http://arxiv.org/abs/2106.09748v1
DeepLab2は、ディープラベリングのためのTensorFlowライブラリであり、コンピュータビジョンにおける一般的な高密度ピクセル予測問題のための、最先端かつ使いやすいTensorFlowコードベースを提供することを目的としている。DeepLab2には、最近開発されたDeepLabモデルの亜種がすべて含まれており、事前学習済みのチェックポイントのほか、モデルの学習コードや評価コードも含まれているため、コミュニティで最先端のシステムを再現し、さらに改善することができます。DeepLab2の有効性を示すために、Axial-WideRNetをネットワークバックボーンとして採用したPanoptic-DeepLabは、シングルスケールの推論とImageNet-1Kの事前学習済みチェックポイントのみで、 Cityscaspes検証セットにおいて68.0%のPQと83.5%のmIoUを達成しました。このライブラリを公開することで、今後の高密度ピクセルラベリングタスクの研究を促進し、この技術の新たな応用を想定することができると期待しています。コードは、https://github.com/google- research/deeplab2 にて公開されています。 Top hype 10 目的：深層学習によるラベリングのモデルを使用しやすいようにする方法：ライブラリの公開著者所属：ミュンヘン大学、ジョン・ホプキンス大学、KAIST、Google Research

DeepLab2：ディープラベリングのためのTensorFlowライブラリ (原文: DeepLab2: A TensorFlow Library for Deep Labeling) Top
hype 10

DeepL.com/Translatorによる翻訳を使用させていただきました

AI最新論文読み会2021年7月

AI最新論文読み会2021年7月

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Education

Featured

Transcript