Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI最新論文読み会2021年7月

 AI最新論文読み会2021年7月

AI最新論文読み会2021年7月

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Education

Transcript

  1. 自己紹介 • 理研 研究員 ※今回保発表は所属する組織と無関係です • 研究内容: 細胞の自動培養 • 前回の発表:

    2021年2月(当時は阪大博士課程。4月卒業) • 好きなこと:SF小説 落合幸治(おちあい こうじ)
  2. Agenda Arxiv sanity (http://www.arxiv-sanity.com/)で人気 だった論文を紹介。 2021/6/26にサーベイ 1. Pickup • 発表者が一番気になった論文

    2. Top recent • お気に入り数 • Last monthの上位10個 3. Top hype • Twitterでの言及数 • Last monthの上位10個
  3. Top recent 1. Not All Images are Worth 16x16 Words:

    Dynamic Vision Transformers with Adaptive Sequence Length 2. Decision Transformer: Reinforcement Learning via Sequence Modeling 3. SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers 4. When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations 5. Reinforcement Learning as One Big Sequence Modeling Problem 6. You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection 7. Towards Long-Form Video Understanding 8. NeRF in detail: Learning to sample for view synthesis 9. DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification 10. Rethinking InfoNCE: How Many Negative Samples Do You Need? Pickup!
  4. Top hype 1. Open source disease analysis system of cactus

    by artificial intelligence and image processing 2. The Modern Mathematics of Deep Learning 3. Compacter: Efficient Low-Rank Hypercomplex Adapter Layers 4. Applications of Deep Neural Networks 5. Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning 6. How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers 7. Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks 8. Nested Variational Inference 9. Regularization is all you Need: Simple Neural Nets can Excel on Tabular Data 10. DeepLab2: A TensorFlow Library for Deep Labeling Pickup!
  5. Decision Transformer:シーケンスモデリングによる強化学習 (原文: Decision Transformer: Reinforcement Learning via Sequence Modeling)

    http://arxiv.org/abs/2106.01345v2 強化学習(RL)をシーケンスモデリング問題として抽象化したフレームワークを紹介します。これにより、Transformerアーキテクチャのシン プルさとスケーラビリティ、およびGPT-xやBERTなどの言語モデリングにおける関連する進歩を利用することができます。特に、Decision Transformerは、RLの問題を条件付きシーケンスモデリングに変換するアーキテクチャです。価値関数を適合させたり、政策勾配を計算し たりするRLの先行的なアプローチとは異なり、Decision Transformerは、因果的にマスクされたTransformerを活用して、最適なアクション を単純に出力します。Decision Transformerのモデルは、望ましいリターン(報酬)、過去の状態、および行動に自己回帰モデルを条件付 けすることで、望ましいリターンを達成する未来の行動を生成することができます。Decision Transformerは、そのシンプルさにもかかわら ず、Atariタスク、OpenAI Gymタスク、Key-to-Doorタスクにおいて、最先端のモデルフリーオフラインRLベースラインと同等以上の性能を発 揮する。 Top recent 2 目的: Transformerをオフライン強化学習に応用 方法: Transformerを使いアクションの決定をマスクされたシークエンスの補完として解く 著者所属: カルフォルニア・バークレイ大学、 Facebook, Google Brain Submitted on 2 Jun 2021 (v1) Pickup!
  6. Decision Transformer:シーケンスモデリングによる強化学習 (原文: Decision Transformer: Reinforcement Learning via Sequence Modeling)

    Top recent 2 Submitted on 2 Jun 2021 (v1) Pickup! オンライン強化学習 オフライン強化学習 Data Model Model World 外界にアクションを出力しながら学習する 保存されたデータから学習する
  7. Decision Transformer:シーケンスモデリングによる強化学習 (原文: Decision Transformer: Reinforcement Learning via Sequence Modeling)

    Top recent 2 CQL: Conservative Q-Learning Pickup! 鍵を拾ってドアを開け るという報酬がスパー スな場合でも機能する
  8. すべての画像が16x16の言葉に値するわけではない。アダプティブ・シーケンス・レングスによるダイナミック・ ビジョン・トランスフォーマー (原文: Not All Images are Worth 16x16 Words:

    Dynamic Vision Transformers with Adaptive Sequence Length) http://arxiv.org/abs/2105.15075v1 ヴィジョン・トランスフォーマー(ViT)は、大規模な画像認識で大きな成功を収めている。ViTは、すべての2D画像を一定数のパッチに分割 し、それぞれをトークンとして扱います。一般的に、画像をより多くのトークンで表現すれば、予測精度は高くなりますが、計算コストは大 幅に増加します。予測精度と処理速度を適切にトレードオフするために,経験的にトークンの数を16×16に設定しています.本論文では、 画像にはそれぞれ特徴があり、理想的にはトークン数は個々の入力に応じて条件付けられるべきであると主張しています。実際,4x4の トークン数だけで正確に予測できる「簡単な」画像が相当数存在する一方で,より細かい表現を必要とする「難しい」画像はごく一部であ ることを確認している.この現象にヒントを得て、各入力画像に対して適切なトークンの数を自動的に設定するDynamic Transformerを提 案します。これは、トークンの数を増やしていく複数のTransformerをカスケード接続することで実現されており、これらのTransformerは、 テスト時に適応的に順次起動される(つまり、十分に自信のある予測が生成されると、推論が終了する)。さらに、Dynamic Transformerの 異なるコンポーネント間で、特徴の再利用と関係の再利用のメカニズムを効率的に設計し、冗長な計算を削減します。ImageNet、CIFAR- 10、CIFAR-100を対象とした広範な実証実験の結果、理論的な計算効率と実用的な推論速度の両方において、本手法が競合他社の ベースラインを大幅に上回ることが実証された。 Top recent 1 目的:ビジョントランスフォーマーのトークン数自動決定 方法:段階的に画像の分割数を上げながら適度なところで出力を出す 著者所属:清華大学
  9. Decision Transformer:シーケンスモデリングによる強化学習 (原文: Decision Transformer: Reinforcement Learning via Sequence Modeling)

    http://arxiv.org/abs/2106.01345v2 強化学習(RL)をシーケンスモデリング問題として抽象化したフレームワークを紹介します。これにより、Transformerアーキテクチャのシン プルさとスケーラビリティ、およびGPT-xやBERTなどの言語モデリングにおける関連する進歩を利用することができます。特に、Decision Transformerは、RLの問題を条件付きシーケンスモデリングに変換するアーキテクチャです。価値関数を適合させたり、政策勾配を計算し たりするRLの先行的なアプローチとは異なり、Decision Transformerは、因果的にマスクされたTransformerを活用して、最適なアクション を単純に出力します。Decision Transformerのモデルは、望ましいリターン(報酬)、過去の状態、および行動に自己回帰モデルを条件付 けすることで、望ましいリターンを達成する未来の行動を生成することができます。Decision Transformerは、そのシンプルさにもかかわら ず、Atariタスク、OpenAI Gymタスク、Key-to-Doorタスクにおいて、最先端のモデルフリーオフラインRLベースラインと同等以上の性能を発 揮する。 Top recent 2 目的: Transformerをオフライン強化学習に応用 方法: Transformerを使いアクションの決定をマスクされたシークエンスの補完として解く 著者所属: カルフォルニア・バークレイ大学、 Facebook, Google Brain Submitted on 2 Jun 2021 (v1) Pickup
  10. SegFormer:トランスフォーマーを用いたセマンティック・セグメンテーションのためのシンプルで効率的な設計 (原文: SegFormer: Simple and Efficient Design for Semantic Segmentation

    with Transformers) http://arxiv.org/abs/2105.15203v2 今回紹介するSegFormerは、Transformerと軽量なMLP(multilayer perception)デコーダを統合した、シンプルで効率的かつ強力なセマン ティックセグメンテーションフレームワークです。SegFormerには2つの魅力的な特徴がある。1) SegFormerは、マルチスケールの特徴を出 力する階層的に構造化された新しいTransformerエンコーダで構成されています。位置符号を必要としないため、テストの解像度がトレー ニングと異なる場合に性能低下につながる位置符号の補間を避けることができます。2)SegFormerは複雑なデコーダを避けることができ ます。提案されたMLPデコーダは、異なる層からの情報を集約することで、ローカルな注意とグローバルな注意の両方を組み合わせ、強 力な表現を実現します。このシンプルで軽量な設計が、Transformerでの効率的なセグメンテーションの鍵であることを示します。我々の アプローチをスケールアップして、SegFormer-B0からSegFormer-B5までの一連のモデルを取得し、以前の対応策よりも大幅に優れた性 能と効率を達成した。例えば、SegFormer-B4はADE20Kで64Mのパラメータを用いて50.3%のmIoUを達成しており、以前の最良の手法より も5倍小さく、2.2%優れています。最高のモデルであるSegFormer-B5は、Cityscapes検証セットで84.0%のmIoUを達成し、Cityscapes-Cでは 優れたゼロショットのロバスト性を示しています。コードはgithub.com/NVlabs/SegFormerで公開されます。 Top recent 3 目的: 画像のセマンティックセグメンテーションの改善 方法: 広範囲の情報を統合するTransformerとシンプルなMLPを組み合わせる 著者所属: 香港大学、南京大学、NVIDIA、カリフォルニア工科大学
  11. 事前学習や強力なデータ補強がなくてもビジョントランスフォーマーがResNetsを上回る場合 (原文: When Vision Transformers Outperform ResNets without Pretraining or

    Strong Data Augmentations) http://arxiv.org/abs/2106.01548v1 ヴィジョン・トランスフォーマー(ViT)やMLPは、手書きの特徴量や帰納的なバイアスを、汎用のニューラル・アーキテクチャに置き換える ためのさらなる取り組みです。既存の研究では、大規模な事前学習や強力なデータ増強の繰り返しなど、大量のデータによってモデルを 強化しているが、最適化に関する問題(例えば、初期化や学習率に対する感度)が報告されている。そこで本論文では、ViTとMLP-Mixer を損失幾何学の観点から調査し、モデルの学習時のデータ効率と推論時の一般化を改善することを目的とする。可視化とHessianにより、 収束したモデルの非常に鋭いローカルミニマムが明らかになる。最近提案されたシャープネスを考慮したオプティマイザを用いて平滑性 を促進することにより、ViTとMLP-Mixerの精度とロバスト性を、教師付き学習、敵対的学習、対照的学習、伝達学習などの様々なタスク で大幅に向上させることができた(例えば、Inceptionスタイルの簡単な前処理を施したViT-B/16とMixer-B/16のImageNetにおけるトップ1 精度は、それぞれ+5.3%と+11.0%である)。滑らかさの向上は、最初の数層のアクティブニューロンの数が少ないことに起因することを示 している。このようにして得られたViTは、大規模な前処理や強力なデータ補強を行わずに、ImageNet上でゼロから学習した場合、同程 度のサイズとスループットのResNetsよりも優れている。また、ViTは、より鋭敏なアテンションマップを持っています。 Top recent 4 目的: Vision Transformer学習のデータ効率と、推論の一般化を改善する 方法: 数学的解析とこれまでとは異なるオプティマイザの適用 著者所属: Google Research
  12. 事前学習や強力なデータ補強がなくてもビジョントランスフォーマーがResNetsを上回る場合 (原文: When Vision Transformers Outperform ResNets without Pretraining or

    Strong Data Augmentations) Top recent 4 Mixer “MLP-Mixer: An all-MLP Architecture for Vision” より MixerはMLPを使った 識別器
  13. 強化学習は大きなシーケンスモデリング問題である (原文: Reinforcement Learning as One Big Sequence Modeling Problem)

    http://arxiv.org/abs/2106.02039v1 強化学習(RL)は通常、シングルステップのポリシーやシングルステップのモデルを推定することを目的としており、マルコフ特性を利用し て問題を時間的に因数分解しています。しかし、RLは、高い報酬を得るための一連の行動を予測することを目的とした、シーケンスモデ リングの問題であると考えることもできます。このように考えると、自然言語処理などの他の領域でうまく機能している強力で大容量の シーケンス予測モデルが、RL問題に対しても単純で効果的な解決策を提供できるのではないかと考えたくなるでしょう。そこで、最新の Transformerアーキテクチャを用いて、状態、行動、報酬のシーケンスに対する分布をモデル化することで、RLを「1つの大きなシーケンス モデリング」問題として捉え直すことができるかを検討します。RLをシーケンスモデリング問題として扱うことで、様々な設計上の決定が 大幅に簡素化されます。オフラインモデルフリーRLの先行研究でよく見られるような、個別の行動ポリシー制約はもはや必要ありません し、モデルベースRLの先行研究でよく見られるような、アンサンブルや他のエピステミックな不確実性推定器ももはや必要ありません。こ れらの役割はすべて、同じTransformerシーケンスモデルによって満たされています。実験では、このアプローチが、長期的なダイナミク ス予測、模倣学習、目標条件付きRL、オフラインRLに柔軟に対応できることを実証しました。 Top recent 5 目的: 強化学習をシークエンスモデリングの問題として解く 方法: Transformerを用いて行動のシークエンスをモデル化 著者所属: カリフォルニア・バークレイ大学 Submitted on 3 Jun 2021
  14. 強化学習は大きなシーケンスモデリング問題である (原文: Reinforcement Learning as One Big Sequence Modeling Problem)

    Top recent 5 直近のState(a)とAction(a)に強くア テンションがかかっている場合 (マルコフ特性を学習) 複数のタイムステップの同じ次元 にアテンションがかかる場合 (主に過去の行動に依存してりアク ションスムージングを連想させる)
  15. You Only Look at One Sequence:視覚におけるトランスフォーマーを物体検出で再考する (原文: You Only Look

    at One Sequence: Rethinking Transformer in Vision through Object Detection) http://arxiv.org/abs/2106.00666v2 Transformerは、純粋なシーケンスの観点から、2Dの空間構造に関する最小限の知識で、2Dのオブジェクトレベルの認識を行うことがで きるのでしょうか?この疑問に答えるために、私たちはYou Only Look at One Sequence (YOLOS)を発表しました。これは、可能な限り最小 限の修正と帰納的バイアスを加えたVision Transformerに基づく一連のオブジェクト検出モデルです。中規模のImageNet-1kデータセット のみで事前学習したYOLOSは、COCOでも競争力のある物体検出性能を達成できることがわかりました。また、BERT-Baseから直接採用し たYOLOS-Baseは、42.0 box APを達成することができました。また、Transformerが物体検出を通じた視覚において、現在のプレトレーニン グスキームとモデルスケーリング戦略の影響と限界についても議論します。コードとモデルの重みは、https://github.com/hustvl/YOLOS で利用可能です。 Top recent 6 目的: オブジェクト検出 方法: Vision Transformerを使ったオブジェクト検出モデルの開発 著者所属: 華中科技大学、ホライゾン・ロボティクス
  16. You Only Look at One Sequence:視覚におけるトランスフォーマーを物体検出で再考する (原文: You Only Look

    at One Sequence: Rethinking Transformer in Vision through Object Detection) Top recent 6
  17. 長編動画の理解に向けて (原文: Towards Long-Form Video Understanding) http://arxiv.org/abs/2106.11310v1 私たちの世界には絶え間なく視覚刺激が流れていますが、現在の視覚システムは数秒以内のパターンしか正確に認識できません。こ れらのシステムは、現在の状況を理解することはできても、過去や未来の出来事の文脈を理解することはできません。本論文では、長 時間の動画の理解について研究します。長時間の動画をモデル化するためのフレームワークを導入し、大規模なデータセットを用いた

    評価プロトコルを開発した。その結果、既存の最先端の短期モデルでは、長時間映像の理解には限界があることがわかった。新しいオ ブジェクト中心のトランスフォーマー・ベースのビデオ認識アーキテクチャは、7つの多様なタスクで著しく優れた性能を発揮する。また、 AVAデータセットにおいても、最先端のモデルに匹敵する性能を発揮しています。 Top recent 7 目的: 長時間の動画の理解 方法:トランスフォーマー・ベースのビデオ認識アーキテクチャを開発 著者所属: テキサス大学
  18. NeRFを詳しく解説。ビュー合成のためのサンプリングを学ぶ (原文: NeRF in detail: Learning to sample for view

    synthesis) http://arxiv.org/abs/2106.05264v1 ニューラル・ラディアンス・フィールド(NeRF)法は、斬新なビュー合成の性能を示している。主な手法は、個々の光線に沿ってサンプリン グされたポイントでニューラルネットワークに問い合わせて、サンプリングされたポイントの密度と色を取得し、この情報をレンダリング方 程式を用いて統合することで、個々のレイをレンダリングするというものです。密なサンプリングは計算量が多いため、一般的な解決策 は、粗から詳細へのサンプリングを行うことです。 本研究では、粗視化から微視化へのアプローチの明らかな限界に取り組んでいます。 それは、ヒューリスティックな手法に基づいており、タスクのためにエンドツーエンドでトレーニングされていないことです。このモジュール は、細かいネットワークに対してサンプルとその重要性を提案し、その神経アーキテクチャに対して複数の選択肢を検討して比較するこ とを学習する、微分可能なモジュールを導入します。提案モジュールをゼロからトレーニングすることは、監視が不足しているために不安 定になる可能性があるので、効果的な事前トレーニング戦略も提唱されています。NeRF in detail(NeRF-ID)と名付けられたこのアプロー チは、Blenderの合成ベンチマークにおいて、NeRFと最先端の技術を上回る優れたビュー合成品質を実現し、実際のLLFF-NeRFシーンに おいても同等以上の性能を発揮します。さらに、予測されたサンプルの重要性を活用することで、レンダリング品質を大幅に犠牲にする ことなく、計算量を25%削減することに成功しました Top recent 8 目的: NeRFの改良 方法: 著者所属: DeepMind、オックスフォード大学
  19. NeRFを詳しく解説。ビュー合成のためのサンプリングを学ぶ (原文: NeRF in detail: Learning to sample for view

    synthesis) Top recent 8 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesisより https://www.matthewtancik.com/nerf 複数枚の画像から3D 空間の色配置を推定
  20. NeRFを詳しく解説。ビュー合成のためのサンプリングを学ぶ (原文: NeRF in detail: Learning to sample for view

    synthesis) Top recent 8 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesisより https://www.matthewtancik.com/nerf 仮想的な視点からの イメージを合成
  21. NeRFを詳しく解説。ビュー合成のためのサンプリングを学ぶ (原文: NeRF in detail: Learning to sample for view

    synthesis) Top recent 8 視点を荒くサン プリングし、詳 細なサンプリン グをどこから取 るか決める 既存法は粗い視 点を人が決めそ こから重みつき サンプル 提案法はサンプ リングの事前分 布を直接学習
  22. DynamicViT: Dynamic Token Sparsificationによる効率的なビジョントランスファー (原文: DynamicViT: Efficient Vision Transformers with

    Dynamic Token Sparsification) http://arxiv.org/abs/2106.02034v1 視覚変換装置では注意が疎になります。我々は、視覚変換装置における最終的な予測は、最も情報量の多いトークンのサブセットにの み基づいており、これは正確な画像認識には十分であると考えている。この観察結果に基づき、我々は、入力に基づいて冗長なトークン を段階的かつ動的に刈り込む動的トークンスパース化フレームワークを提案する。具体的には、現在の特徴を考慮して各トークンの重 要度スコアを推定する軽量の予測モジュールを考案します。このモジュールは、冗長なトークンを階層的に刈り込むために、異なる層に 追加されます。予測モジュールをエンド・ツー・エンドで最適化するために、他のトークンとの相互作用をブロックすることでトークンを微分 して刈り込むアテンションマスキング戦略を提案する。自己注意の性質を利用することで、構造化されていないスパースなトークンは ハードウェアに優しく、本フレームワークは実際の高速化を容易に実現しています。入力トークンの66%を階層的に刈り込むことで、我々 の手法は31%~37%のFLOPを大幅に削減し、スループットを40%以上向上させました。一方で、精度の低下は様々なビジョン変換器に対 して0.5%以内に抑えられました。DynamicViTモデルは、ダイナミックなトークンスパーシフィケーションフレームワークを用いることで、 ImageNet上で最先端のCNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑さと精度のトレードオフを達成することが できます。コードは https://github.com/raoyongming/DynamicViT から入手できます。 Top recent 9 目的: Vision Transformerの計算効率を上げる 方法: Vision Transformerの冗長なトークンを動的に刈り込む(0.5%の制度低下で31%~37%のFLOP向上) 著者所属:清華大学、カリフォルニア大学
  23. InfoNCE再考:ネガティブサンプルはいくつ必要か? (原文: Rethinking InfoNCE: How Many Negative Samples Do You

    Need?) http://arxiv.org/abs/2105.13003v1 InfoNCE損失は、コントラストモデルの学習に広く使われている損失関数です。これは、各正のペアとそれに関連するK個の負のペアを識 別することで、一対の変数間の相互情報を推定することを目的としている。サンプルのラベルがきれいな場合、より多くの負のサンプル を組み込むと、相互情報量推定の下限が厳しくなり、通常はより良いモデル性能が得られることが証明されている。しかし,現実のタスク ではラベルにノイズが含まれていることが多く,モデルの学習にノイズの多い負のサンプルを多く組み込むことは最適ではないかもしれ ない.本論文では、半定量的な理論的フレームワークを用いて、様々なシナリオにおいてInfoNCEに最適な負のサンプルの数を研究する。 具体的には,まず,負のサンプリング比率Kがトレーニングサンプルの情報量に与える影響を分析する確率モデルを提案する.次に,訓 練サンプルの情報性に基づいて,モデル学習に対する訓練サンプルの全体的な影響を測定するために,訓練効果関数を設計する.そ して,訓練効果関数を最大化するKの値を用いて,最適な負のサンプリング比を推定する.さらに、我々のフレームワークに基づいて、 InfoNCEに基づくモデル学習を改善するために、負のサンプリング比率を動的に調整することができる適応的負のサンプリング法を提案 する。実世界の様々なデータセットを用いた大規模な実験により、我々のフレームワークが様々なタスクにおける最適な負のサンプリン グ比を正確に予測できること、そして我々の提案する適応的負のサンプリング法が、一般的に用いられる固定の負のサンプリング比戦 略よりも優れた性能を達成できることが示された。 Top recent 10 目的: コントラスティブ・ラーニングで使用されるInfoNCE損失の最適な負のサンプル数を決める 方法:負のサンプリング比率を動的に調整することができる適応的負のサンプリング法を提案 著者所属: 香港大学、マイクロソフト・リサーチ・アジア
  24. 人工知能と画像処理によるサボテンのオープンソース病害解析システム (原文: Open source disease analysis system of cactus by

    artificial intelligence and image processing) http://arxiv.org/abs/2106.03669v1 観葉植物から食用、薬用まで、サボテンの用途は多岐にわたるため、サボテン栽培への関心が高まっています。サボテンの生育には 様々な病気が影響します。サボテンの病気を分析するための自動モデルを開発し、サボテンの被害を迅速に治療・予防できるようにす ること。Faster R-CNNとYOLOアルゴリズム技術を用いて、1)炭疽病、2)カンカー、3)手入れ不足、4)アブラムシ、5)さび病、6)通常群の6 つのグループに自動的に分配されたサボテンの病気を分析した。実験結果によると、YOLOv5アルゴリズムはFaster R-CNNアルゴリズム よりもサボテンの病気を検出・識別するのに有効であることがわかりました。YOLOv5Sモデルを用いたデータのトレーニングとテストの結 果、精度は89.7%、精度(リコール)は98.5%となり、サボテン栽培における多くのアプリケーションでさらに使用するのに十分な効果があ りました。また、YOLOv5アルゴリズムの画像1枚あたりのテスト時間はわずか26ミリ秒でした。したがって、YOLOv5アルゴリズムはモバイ ルアプリケーションに適していることがわかり、このモデルはさらにサボテンの病気を分析するプログラムに発展させることができます。 Top hype 1 目的: サボテンの病害解析 方法: Faster R-CNNとYOLOアルゴリズム技術を用いて、1)炭疽病、2)カンカー、3)手入れ不足、4)アブラムシ、 5)さび病、6)通常群の6つのグループに自動的に分配 著者所属:モンクット王工科大学(タイ)、ミシガン工科大学
  25. ディープラーニングの現代数学 (原文: The Modern Mathematics of Deep Learning) http://arxiv.org/abs/2105.04026v1 深層学習の数学的解析という新しい分野について説明します。この分野は、古典的な学習理論の枠組みの中では答えられなかった研

    究課題のリストに基づいて生まれた。これらの疑問は、オーバーパラメトリックなニューラルネットワークの優れた一般化能力、深層アー キテクチャにおける深さの役割、次元の呪いが明らかにないこと、問題が非凸であるにもかかわらず最適化が驚くほどうまくいくこと、ど のような特徴が学習されるかを理解すること、なぜ深層アーキテクチャが物理的な問題で例外的にうまくいくのか、アーキテクチャのどの 細かい側面が学習タスクの動作にどのように影響するのか、などである。本論文では、これらの問題に対する部分的な回答を得るため の最新のアプローチの概要を紹介します。厳選されたアプローチについては、主要なアイデアをより詳細に説明する。 Top hype 2 目的: なぜディープラーニングはうまく学習ができるのかを調査 方法: 文献調査と提案されているアイディアの紹介 著者所属: ウィーン大学、ミュンヘン大学
  26. Compacter:効率的な低ランクの超複雑なアダプタ層 (原文: Compacter: Efficient Low-Rank Hypercomplex Adapter Layers) http://arxiv.org/abs/2106.04647v1 大規模な学習済み言語モデルを下流のタスクに適応させるための微調整は,NLP

    ベンチマークで最先端の性能を達成するための標準 的な方法です.しかし,数百万から数十億のパラメータを持つモデルのすべての重みを微調整することは,サンプル効率が悪く,リソー スの少ない環境では不安定であり,タスクごとにモデルのコピーを保存する必要があるため無駄が多い.最近では、パラメータ効率の良 い微調整手法が開発されているが、これらのアプローチは比較的多くのパラメータを必要とするか、標準的な微調整の性能を下回って いる。本研究では、大規模な言語モデルを微調整するための手法であるCompacterを提案する。Compacterは、タスクのパフォーマンス と学習可能なパラメータの数の間で、先行研究よりも優れたトレードオフを実現する。Compacterは、アダプター、低ランク最適化、パラ メータ化された超複雑な乗算層などのアイデアを基にして、これを達成している。 具体的には、Compacterは事前学習されたモデルの 重みにタスク固有の重み行列を挿入します。この重み行列は、共有された「遅い」重みとCompacterレイヤーごとに定義された「速い」ラン クワン行列の間のクロネッカー積の合計として効率的に計算されます。Compacterは、事前に学習したモデルのパラメータの0.047%を学 習するだけで、GLUEでの標準的な微調整と同等の性能を発揮し、低リソース環境での微調整よりも優れています。我々のコードは https://github.com/rabeehk/compacter/ で公開されています。 Top hype 3 目的: ファインチューニングのパラメータ効率を上げる 方法: 事前学習済みのモデルにタスク固有の重み行列を挿入する 著者所属:スイス連邦工科大学ローザンヌ校、Idiap Research Institute、DeepMind
  27. Compacter:効率的な低ランクの超複雑なアダプタ層 (原文: Compacter: Efficient Low-Rank Hypercomplex Adapter Layers) Top hype

    3 ファイン・チューニ ングでは黄色の 部分だけ学習 パラメータ 数に対して 高性能
  28. 深層ニューラルネットワークの応用 (原文: Applications of Deep Neural Networks) http://arxiv.org/abs/2009.05673v2 深層学習は、ニューラルネットワークの新しい技術群です。高度な学習技術とニューラルネットワークの構成要素を組み合わせることで、 表データ、画像、テキスト、音声などを入力と出力の両方で扱うことができるニューラルネットワークを作ることができるようになりました。

    深層学習では、ニューラルネットワークが人間の脳の働きに似た方法で情報の階層を学習することができます。このコースでは、古典的 なニューラルネットワークの構造、畳み込みニューラルネットワーク(CNN)、長短記憶(LSTM)、ゲートリカレントニューラルネットワーク (GRU)、一般Adversarial Networks(GAN)、および強化学習を紹介します。また、これらのアーキテクチャのコンピュータビジョン、時系列、 セキュリティ、自然言語処理(NLP)、データ生成への応用についても取り上げます。また、ハイパフォーマンス・コンピューティング(HPC) の観点から、GPU(グラフィカル・プロセッシング・ユニット)とグリッドの両方で、深層学習をどのように活用できるかを説明します。主に深 層学習の問題への応用に焦点を当て、数学的基礎についても紹介しています。読者は、Pythonプログラミング言語を使用して、Google TensorFlowとKerasを使って深層学習を実装します。この本を読む前にPythonを知っている必要はありませんが、少なくとも1つのプログラ ミング言語に精通していることが前提です。 Top hype 4 目的: Hintonの書いた深層学習のHow to本。Python code example有り(555p) 方法:- 著者所属: Heaton Research, Inc
  29. 深層学習におけるモデル選択のためのスケーラブルな限界尤度推定法 (原文: Scalable Marginal Likelihood Estimation for Model Selection in

    Deep Learning) http://arxiv.org/abs/2104.04975v3 周辺尤度に基づくモデル選択は、有望であるにもかかわらず、推定が困難なため、深層学習ではほとんど使用されていない。その代わ り、ほとんどのアプローチは検証データに依存していますが、これは容易に入手できない可能性があります。本研究では、学習データの みに基づいてハイパーパラメータとネットワークアーキテクチャの両方を選択する、スケーラブルな周辺尤度推定法を提示します。いくつ かのハイパーパラメータは、トレーニング中にオンラインで推定することができ、手順を簡略化することができる。我々の周辺尤度推定法 は,ヘシアンに対するラプラス法とガウス・ニュートン近似に基づいており,標準的な回帰および画像分類のデータセットにおいて,特に キャリブレーションと分布外検出の点で,クロスバリデーション法と手動チューニングよりも優れた性能を示している.我々の研究は、限 界尤度が一般化を向上させ、検証データが利用できない場合(例えば、非定常設定の場合)に有用であることを示している。 Top hype 5 目的: 検証データにたよらず学習データだけでハイパーパラメータとアーキテクチャを選択する 方法: 周辺尤度を近似的に推定し、それに基づいて選択を行う 著者所属: スイス・チューリッヒ大学、マックスプランク研究所、ケンブリッジ大学、理化学研究所
  30. ViTを鍛えるには?ビジョントランスフォーマーのデータ、増強、正則化 (原文: How to train your ViT? Data, Augmentation, and

    Regularization in Vision Transformers) http://arxiv.org/abs/2106.10270v1 ヴィジョントランスフォーマー(ViT)は、画像分類、物体検出、セマンティック画像セグメンテーションなどの幅広いビジョンアプリケーション において、非常に競争力のある性能を達成することが示されている。畳み込みニューラルネットワークと比較して、ビジョントランスフォー マーの弱い帰納的バイアスは、一般的に、より小さなトレーニングデータセットでトレーニングを行う際に、モデルの正則化またはデータ 補強(``AugReg'')への依存度が高くなることが分かっている。我々は、トレーニングデータ量、AugReg、モデルサイズ、計算バジェットの間 の相互作用をより良く理解するために、体系的な実証研究を行った。公開されているImageNet-21kデータセットを用いて様々なサイズの ViTモデルを学習したところ、公開されていない大規模なJFT-300Mデータセットを用いて学習したモデルと同等もしくはそれ以上の性能を 示すことがわかった。 Top hype 6 目的: Vision Transformerの適切なトレーニングデータ量、データ・オーグメンテーション、モデルサイズを知る 方法: 体系的な検証実験(計算力で殴る) 著者所属: Google Research、独立系研究者(independent researcher)
  31. ViTを鍛えるには?ビジョントランスフォーマーのデータ、増強、正則化 (原文: How to train your ViT? Data, Augmentation, and

    Regularization in Vision Transformers) Top hype 6 データ量13M+オーグメンテー ションでデータ量300Mと同等 transformer+Augmentationで Error低下
  32. 共有ハイパーネットワークを用いたトランスフォーマーのパラメータ効率の良いマルチタスク微調整 (原文: Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks)

    http://arxiv.org/abs/2106.04489v1 パラメータを効率的に微調整するためには,事前に学習した言語モデルの各層間にアダプタモジュールを導入する方法があります。し かし、このようなモジュールはタスクごとに別々に学習されるため、タスク間で情報を共有することができません。本論文では、変換モデ ルにおけるタスク、アダプタの位置、レイヤIDを条件とした共有ハイパーネットワークを用いてアダプタパラメータを生成することで、全て のレイヤとタスクのアダプタパラメータを学習できることを示す。このパラメータ効率の良いマルチタスク学習フレームワークは、ハイパー ネットワークを介してタスク間で知識を共有する一方で、タスク固有のアダプタを介して個々のタスクにモデルを適応させることができる ため、双方の長所を活かすことができます。よく知られているGLUEベンチマークを用いた実験では、タスクごとに0.29%のパラメータを追 加するだけで、マルチタスク学習の性能が向上しました。さらに、さまざまなタスクにおいて、数ショットの領域の一般化においても、大幅 な性能向上が見られました。このコードは、https://github.com/rabeehk/hyperformer で公開されています。 Top hype 7 目的: トランスフォーマーのファインチューニングにおいてタスク間で情報を共有 方法: パラメータを生成するハイパーネットワークを使う 著者所属: 清華大学、カリフォルニア大学
  33. 入れ子式変量推論 (原文: Nested Variational Inference) http://arxiv.org/abs/2106.11302v1 本研究では、ネスティッド・インポータンス・サンプラーの提案を、ネスティッドの各レベルにおける順方向または逆方向のKLダイバージェ ンスを最小化することによって学習する手法群である、ネスティッド変量推論(NVI)を開発した。NVIは、一般的に使用されている多くの重 要性サンプリング戦略に適用可能であり、サンプラーを導くためのヒューリスティックとして機能する中間密度を学習するメカニズムを提 供する。我々の実験では、NVIを(a)学習されたアニーリング経路を用いたマルチモーダル分布からのサンプリング、(b)隠れマルコフモデ

    ルにおける将来の観測値の尤度を近似するヒューリスティクスの学習、(c)階層的な深層生成モデルにおける償却された推論の実行に 適用した。本研究では、入れ子になった目的を最適化することで、対数平均重みと有効サンプルサイズの点でサンプルの質が向上する ことを観察した。 Top hype 8 目的: 深層生成モデルの事前分布として複雑な分布を使えるようにする 方法: 入れ子になった確率分布を学習し、順にサンプリングしていく 著者所属: ノースイースタン大学
  34. 必要なのは正則化だけ。シンプルなニューラルネットで表形式のデータを扱うことができる (原文: Regularization is all you Need: Simple Neural Nets

    can Excel on Tabular Data) http://arxiv.org/abs/2106.11189v1 表形式のデータセットは、深層学習にとって最後の「未征服の城」であり、Gradient-Boosted Decision Treesのような伝統的なML手法は、 最近の特殊なニューラル・アーキテクチャに対しても依然として強力な性能を発揮している。本論文では、ニューラルネットワークの性能 を向上させる鍵は、最新の正則化技術の大規模なセットを共同かつ同時に適用することを再考することにあるという仮説を立てている。 そこで本論文では、データセットごとに13種類の正則化手法の最適な組み合わせを探索し、どの正則化手法を適用するかとその補助的 なハイパーパラメータを共同で最適化することで、プレーンな多層パーセプトロン(MLP)ネットワークの正則化を提案する。これらの正則 化カクテルがMLPに与える影響を、40の表形式データからなる大規模な実証研究で実証的に評価し、(i)正則化されたプレーンMLPは、 最近の最先端の特殊なニューラルネットワークアーキテクチャを大幅に上回り、(ii)XGBoostなどの強力な伝統的ML手法をも上回ることを 示した。 Top hype 9 目的: 深層学習で表形式のデータを扱う 方法: 最新の正規化技術を複数同時に適用する 著者所属: フライブルグ大学、ハノーファー大学
  35. DeepLab2:ディープラベリングのためのTensorFlowライブラリ (原文: DeepLab2: A TensorFlow Library for Deep Labeling) http://arxiv.org/abs/2106.09748v1

    DeepLab2は、ディープラベリングのためのTensorFlowライブラリであり、コンピュータビジョンにおける一般的な高密度ピクセル予測問題 のための、最先端かつ使いやすいTensorFlowコードベースを提供することを目的としている。DeepLab2には、最近開発されたDeepLabモ デルの亜種がすべて含まれており、事前学習済みのチェックポイントのほか、モデルの学習コードや評価コードも含まれているため、コ ミュニティで最先端のシステムを再現し、さらに改善することができます。DeepLab2の有効性を示すために、Axial-WideRNetをネットワー クバックボーンとして採用したPanoptic-DeepLabは、シングルスケールの推論とImageNet-1Kの事前学習済みチェックポイントのみで、 Cityscaspes検証セットにおいて68.0%のPQと83.5%のmIoUを達成しました。このライブラリを公開することで、今後の高密度ピクセルラベリ ングタスクの研究を促進し、この技術の新たな応用を想定することができると期待しています。コードは、https://github.com/google- research/deeplab2 にて公開されています。 Top hype 10 目的: 深層学習によるラベリングのモデルを使用しやすいようにする 方法: ライブラリの公開 著者所属: ミュンヘン大学、ジョン・ホプキンス大学、KAIST、Google Research