Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI最新論文読み会2021年2月

 AI最新論文読み会2021年2月

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Education

Transcript

  1. Agenda Arxiv sanity (http://www.arxiv-sanity.com/)で人気 だった論文を紹介。 2021/1/23にサーベイ 1. Pickup • 発表者が一番気になった論文

    2. Top recent • お気に入り数 • Last monthの上位10個 3. Top hype • Twitterでの言及数 • Last monthの上位10個
  2. Top recent 1. Transformers in Vision: A Survey 2. Switch

    Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 3. Deep Learning-Based Human Pose Estimation: A Survey 4. RepVGG: Making VGG-style ConvNets Great Again 5. A Survey on Neural Network Interpretability 6. Global Context Networks 7. AutoDropout: Learning Dropout Patterns to Regularize Deep Networks 8. TrackFormer: Multi-Object Tracking with Transformers 9. GAN-Control: Explicitly Controllable GANs 10. GAN Inversion: A Survey Pickup!
  3. Top hype 1. Focal Frequency Loss for Generative Models 2.

    GLU Variants Improve Transformer 3. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 4. The Problem with Metrics is a Fundamental Problem for AI 5. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 6. A Survey on Neural Network Interpretability 7. Soft-DTW: a Differentiable Loss Function for Time-Series 8. RepVGG: Making VGG-style ConvNets Great Again 9. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 10. A Modern Introduction to Online Learning gray: [dup]
  4. Top hype 1. Focal Frequency Loss for Generative Models 2.

    GLU Variants Improve Transformer 3. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 4. The Problem with Metrics is a Fundamental Problem for AI 5. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 6. A Survey on Neural Network Interpretability 7. Soft-DTW: a Differentiable Loss Function for Time-Series 8. RepVGG: Making VGG-style ConvNets Great Again 9. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 10. A Modern Introduction to Online Learning gray: [dup]
  5. グローバルコンテキストネットワーク (原文: Global Context Networks) http://arxiv.org/abs/2012.13375v1 非ローカルネットワーク(NLNet)は、クエリ固有のグローバルコンテキストを各クエリ位置に集約することで、画像内の長距離依存性を捉 えるための先駆的なアプローチを提示します。しかし、厳密な実証分析を行った結果、非ローカルネットワークによってモデル化されたグ ローバルコンテキストは、異なるクエリ位置に対してほぼ同じであることがわかりました。本論文では、この発見を利用して、クエリに依存 しない定式化に基づく簡略化されたネットワークを作成し、NLNetの精度を維持しつつ、計算量を大幅に削減した。さらに、非ローカルブ

    ロックの1層の変換関数を2層のボトルネックに置き換えることで、パラメータ数を大幅に削減しています。その結果、グローバルコンテキ スト(GC)ブロックと呼ばれるネットワーク要素は、軽量な方法で効果的にグローバルコンテキストをモデル化し、バックボーンネットワーク の複数の層に適用してグローバルコンテキストネットワーク(GCNet)を形成することができるようになりました。実験の結果、GCNetは 様々な認識タスクの主要なベンチマークにおいて、一般的にNLNetよりも優れていることが示されています。コードとネットワーク構成は https://github.com/xvjiarui/GCNet で入手可能です。 Top recent 6 目的:Attention機構をもつ画像認識ネットワークの軽量化 成果:複数のベンチマークで既存の方法 (NLNet) よりよい成績 方法:クエリに依存しないアテンションを使用する(クエリを変えてもアテンションはほぼ同じだった) 著者所属:マイクロソフト・リサーチ・アジア(香港科技大学からのインターン) Pickup!
  6. Non-local Neural Networks Gaussian Embedded Gaussian Dot Product Concatenation Non-local

    operation fはどれを選んで も大差ない 既存のネットワーク追加す るときは、元の入力xにyを 追加。Wは学習。
  7. グローバルコンテキストネットワーク (原文: Global Context Networks) = + =1 exp =1

    exp = + =1 exp , =1 exp , ( ∙ ) Non-local Neural Networks (Gaussian) Global Context Networks
  8. ビジョンの中のトランスフォーマー: サーベイ (原文: Transformers in Vision: A Survey) http://arxiv.org/abs/2101.01169v1 自然言語タスクにおけるトランスフォーマーモデルの驚くべき結果は、コンピュータビジョン問題への応用を研究するビジョンコミュニティ

    の興味をそそるものでした。これにより、モデル設計に帰納的バイアスを最小限に抑えながらも、多くのタスクで目覚ましい進歩を遂げて きました。この調査は、コンピュータビジョン分野におけるトランスフォーマーモデルの包括的な概要を提供することを目的としており、こ の分野での予備知識がほとんどないことを前提としています。まず、トランスモデルの成功の背景にある基本的な概念、すなわち自己監 視と自己注意について紹介します。トランスフォーマーアーキテクチャは、自己注意メカニズムを利用して入力領域の長距離依存性を符 号化することで、非常に表現力を高めている。問題の構造に関する最小限の事前知識を前提としているため、事前課題を用いた自己学 習が、大規模な(ラベル付けされていない)データセット上でのトランスモデルの事前学習へ適用されます。学習された表現は下流のタス クで微調整され、典型的には符号化された特徴の一般化と表現力により優れた性能を発揮する。我々は、一般的な認識タスク(例:画像 分類、物体検出、行動認識、セグメンテーション)、生成モデリング、マルチモーダルタスク(例:視覚的質問応答、視覚的推論)、ビデオ 処理(例:活動認識、ビデオ予測)、低レベルビジョン(例:画像の超解像、着色)、3D解析(例:点群分類、セグメンテーション)などを含む、 ビジョンにおけるトランスフォーマーの広範なアプリケーションをカバーしています。我々は、アーキテクチャ設計と実験的価値の両面か ら、一般的な技術のそれぞれの利点と限界を比較する。最後に、今後の研究の方向性と可能性についての分析を行う。 Top recent 1 目的:トランスフォーマーの画像への適用に関する文献調査 成果:- 方法:文献調査 著者所属:MBZ大学(アラブ首長国連邦)、モナシュ大学、etc
  9. ビジョンの中のトランスフォーマー: サーベイ (原文: Transformers in Vision: A Survey) Top recent

    1 過去数年間の査読付き論文およびarXiv論文のタイトルにBERT、Self-Attention、Transformerなどのキーワード が登場した回数の統計
  10. 目的:Mixture of Experts (MoE) と呼ばれる手法を単純化し計算コストを下げた 成果:同じ計算資源で最大で7倍の事前学習速度を得た 方法:MoEで使用するFFNの数を12にする 著者所属:Google Brain スイッチトランスフォーマー:

    シンプルで効率的なスパース性を備えた兆パラメータモデルへのスケーリング (原文: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity) http://arxiv.org/abs/2101.03961v1 ディープラーニングでは、モデルは通常、すべての入力に対して同じパラメータを再利用します。Mixture of Experts (MoE)はこれを無視し て、入力された例ごとに異なるパラメータを選択します。その結果、非常に多くのパラメータを持つ、まばらに動作するモデルができあが りますが、計算コストは一定です。しかし、MoEはいくつかの注目すべき成功を収めているにもかかわらず、広く普及するには複雑さ、通 信コスト、トレーニングの不安定さが妨げとなっています。我々は、MoEルーティングアルゴリズムを単純化し、通信と計算コストを削減し た直感的な改良モデルを設計します。提案したトレーニング技術は不安定性を解消するのに役立ち、大規模なスパースモデルが低精度 (bfloat16)フォーマットでトレーニングできることを初めて示します。我々は、T5-BaseとT5-Largeをベースにしたモデルを設計し、同じ計算 資源で最大7倍の事前学習速度を得ることができます。これらの改善は多言語環境にも適用され、101の全言語でmT5-Baseバージョンよ りも向上しています。最後に、"Colossal Clean Crawled Corpus "上で最大1兆個のパラメータモデルを事前学習し、T5-XXLモデルの4倍の 速度向上を達成することで、現在の言語モデルの規模を向上させています。 Top recent 2
  11. スイッチトランスフォーマー: シンプルで効率的なスパース性を備えた兆パラメータモデルへのスケーリング (原文: Switch Transformers: Scaling to Trillion Parameter Models

    with Simple and Efficient Sparsity) Top recent 2 FNNレイヤー を変更 MoEでは複数の FNNを使うがSwitch Transformersでは一 つだけ使う
  12. スイッチトランスフォーマー: シンプルで効率的なスパース性を備えた兆パラメータモデルへのスケーリング (原文: Switch Transformers: Scaling to Trillion Parameter Models

    with Simple and Efficient Sparsity) Top recent 2 Switch TransformerはMoEと同じ くらいの成績、MoEと同じスピー ドになるまで隠れ層を増やすとさ らによくなる Neg. Log Perp. : negative log perplexity of the masked language objective as our quality measure (higher better)
  13. ディープラーニングに基づく人間の姿勢推定: サーベイ (原文: Deep Learning-Based Human Pose Estimation: A Survey)

    http://arxiv.org/abs/2012.13392v3 ヒューマンポーズ推定は、画像や動画などの入力データから人体の部位を特定し、人体表現(骨格など)を構築することを目的としてい ます。この10年間で注目度が高まり,人間とコンピュータのインタラクション,モーション解析,拡張現実,仮想現実など幅広い分野で活 用されている.近年開発されたディープラーニングベースのソリューションは、人間のポーズ推定において高い性能を実現しているが、 学習データの不足や深さの曖昧さ、オクルージョンなどの課題が残されている。本調査論文の目的は、入力データと推論手順に基づい たこれらのソリューションの体系的な分析と比較を通じて、2Dと3Dの両方のポーズ推定のための最近のディープラーニングベースのソ リューションの包括的なレビューを提供することである。2014年以降の240以上の研究論文が本調査でカバーされています。さらに、2D および3Dの人間ポーズ推定のデータセットと評価指標も含まれています。また、一般的なデータセット上でのレビューされた手法の定量 的な性能比較をまとめ、議論する。最後に、関連する課題、アプリケーション、および今後の研究の方向性について締めくくります。また、 定期的に更新されるプロジェクトページも提供しています。https://github.com/zczcwh/DL-HPE Top recent 3 目的:姿勢推定についての文献調査 成果:- 方法:- 著者所属:ノースコロラド大学、デイトン大学、テキサス大学、セントラル・フロリダ大学
  14. RepVGG:VGGスタイルのConvNetsを再び偉大なものにする (原文: RepVGG: Making VGG-style ConvNets Great Again) http://arxiv.org/abs/2101.03697v1 本研究では、畳み込みニューラルネットワークのシンプルかつ強力なアーキテクチャを提案する。このアーキテクチャは、学習時間モデ

    ルが多枝トポロジーを持つ一方で、3x3の畳み込みとReLUのスタックだけで構成されるVGG的な推論時間体を持つ。このような学習時間 と推論時間のアーキテクチャのデカップリングは、構造的な再パラメータ化技術によって実現され、モデルはRepVGGと名付けられた。 ImageNet上では,RepVGGは80%以上のtop-1精度を達成しており,我々の知る限りでは,プレーンモデルとしては初めてのことである. NVIDIA 1080Ti GPU上では,RepVGGモデルは高い精度のままResNet-50よりも83%速く,ResNet-101よりも101%速く動作し,EfficientNetや RegNetのような最先端のモデルと比較して,精度と速度のトレードオフが良好であることを示しています. コードと訓練されたモデルは, https://github.com/megvii-model/RepVGG から入手できます. Top recent 4 目的:推論速度を上げる 成果:ResNet-50よりも83%速く,ResNet-101よりも101%速い 方法:学習時と推論時でモデル構造を変える。パラメータは整合性が取れるよう変換 著者所属:清華大学、MEGVII Technology、香港大学、アベリストウィス大学(UK)
  15. RepVGG:VGGスタイルのConvNetsを再び偉大なものにする (原文: RepVGG: Making VGG-style ConvNets Great Again) Top recent

    4 モデルサイズを 変えつつ推論ス ピードと精度のト レードオフを見る
  16. ニューラルネットワークの解釈可能性に関する調査 (原文: A Survey on Neural Network Interpretability) http://arxiv.org/abs/2012.14261v1 ディープニューラルネットワークの大成功とともに、そのブラックボックス的な性質に対する懸念も高まっています。解釈可能性の問題は、

    ディープラーニングシステムに対する人々の信頼に影響を与えます。また、アルゴリズムの差別など、多くの倫理的な問題にも関係して います。さらに、解釈可能性は、ディープネットワークが創薬やゲノミクスなどの他の研究分野で強力なツールになるために望まれる特 性である。本調査では、ニューラルネットワークの解釈可能性に関する研究を包括的にレビューする。まず、様々な文脈で使用されてき た解釈可能性の定義を明らかにします。次に、解釈可能性の重要性について詳しく説明し、3つの次元に沿って整理された新しいタクソ ノミーを提案する。この分類法は、2つの次元のうち2つの次元が単純なカテゴリカルなものではなく、順序的な小分類を可能にしている ため、関連する文献からの論文の分布を3次元的に見ることができる。最後に、既存の解釈可能性の評価方法をまとめ、新しい分類法 に触発された研究の方向性を提案する。 Top recent 5 目的:既存の解釈可能なニューラルネットワークに関する概念の整理 成果:3つの軸で既存の研究を整理 方法:文献調査 著者所属:南方科技大学、バーミンガム大学
  17. グローバルコンテキストネットワーク (原文: Global Context Networks) http://arxiv.org/abs/2012.13375v1 非ローカルネットワーク(NLNet)は、クエリ固有のグローバルコンテキストを各クエリ位置に集約することで、画像内の長距離依存性を捉 えるための先駆的なアプローチを提示します。しかし、厳密な実証分析を行った結果、非ローカルネットワークによってモデル化されたグ ローバルコンテキストは、異なるクエリ位置に対してほぼ同じであることがわかりました。本論文では、この発見を利用して、クエリに依存 しない定式化に基づく簡略化されたネットワークを作成し、NLNetの精度を維持しつつ、計算量を大幅に削減した。さらに、非ローカルブ

    ロックの1層の変換関数を2層のボトルネックに置き換えることで、パラメータ数を大幅に削減しています。その結果、グローバルコンテキ スト(GC)ブロックと呼ばれるネットワーク要素は、軽量な方法で効果的にグローバルコンテキストをモデル化し、バックボーンネットワーク の複数の層に適用してグローバルコンテキストネットワーク(GCNet)を形成することができるようになりました。実験の結果、GCNetは 様々な認識タスクの主要なベンチマークにおいて、一般的にNLNetよりも優れていることが示されています。コードとネットワーク構成は https://github.com/xvjiarui/GCNet で入手可能です。 Top recent 6 目的:Attention機構をもつ画像認識ネットワークの軽量化 成果:複数のベンチマークで既存の方法 (NLNet) よりよい成績 方法:クエリに依存しないアテンションを使用する(クエリを変えてもアテンションはほぼ同じだった) 著者所属:マイクロソフト・リサーチ・アジア(香港科技大学からのインターン) 重複 (Pickup)
  18. AutoDropout:ディープネットワークを正則化するためのドロップアウトパターンの学習 (原文: AutoDropout: Learning Dropout Patterns to Regularize Deep Networks)

    http://arxiv.org/abs/2101.01761v1 ニューラルネットワークはしばしば過剰パラメータ化されているため、積極的な正則化の恩恵を受けることができます。ドロップアウトや重 み減衰などの従来の正則化手法は、ネットワークの入力や隠れた状態の構造を利用していません。その結果、これらの従来の手法は、 隠れ状態の特定の連続する領域で値をランダムにドロップアウトしてゼロに設定するSpatialDropoutやDropBlockのような構造を活用す る手法に比べて効果的ではない。ドロップアウト領域の位置はランダムであるが、SpatialDropoutやDropBlockのパターンは人為的に設 計され固定化されている。ここでは、ドロップアウトパターンを学習することを提案する。我々の手法では、コントローラはConvNetや Transformerなどのターゲットネットワークの各チャネルとレイヤでドロップアウトパターンを生成するように学習する。次に、ターゲット・ ネットワークがドロップアウト・パターンで学習され、その結果として得られる検証性能が、コントローラが学習する信号として使用されま す。この方法は、CIFAR-10やImageNetでの画像認識、Penn TreebankやWikiText-2での言語モデリングの両方に有効であることを示して います。学習されたドロップアウトパターンは、Penn Treebank上の言語モデルからWMT 2014上のEngligh-French翻訳までのように、異な るタスクやデータセットにも転送される。私たちのコードが利用可能になります。 Top recent 7 目的:ドロップアウトパターンの最適化 成果:画像認識、言語モデルで検証し、既存の正規化手法を上回る精度 方法:学習によってドロップアウトパターンを決定する 著者所属:Google Research Brain Team、カーネギーメロン大学
  19. TrackFormer: トランスフォーマーによるマルチオブジェクトトラッキング (原文: TrackFormer: Multi-Object Tracking with Transformers) http://arxiv.org/abs/2101.02702v1 我々は、エンコーダー・デコーダー・トランスフォーマー・アーキテクチャに基づくエンドツーエンドのマルチオブジェクト・トラッキングおよび

    セグメンテーション・モデルであるTrackFormerを紹介する。我々のアプローチでは、自己回帰的な方法でビデオシーケンス中のオブジェ クトを追跡するトラッククエリの埋め込みを導入しています。新しいトラッククエリは、DETR オブジェクト検出器によって生成され、時間の 経過とともに対応するオブジェクトの位置を埋め込みます。トランスフォーマーのデコーダは、フレームごとにトラッククエリのエンベッディ ングを調整し、変化するオブジェクトの位置に追従します。TrackFormerは、位置、オクルージョン、物体の識別を同時に推論する自己お よびエンコーダとデコーダの注意メカニズムにより、新しいトラッキング・バイ・アテンション・パラダイムでフレーム間のシームレスなデー タ関連付けを実現します。TrackFormerは、複数物体追跡(MOT17)とセグメンテーション(MOTS20)のタスクで最先端の性能を発揮します。 私たちの統一された検出と追跡の方法が、将来的に多物体追跡や映像理解の研究を促進することを期待しています。コードは公開され ます。 Top recent 8 目的:複数物体追跡 成果:複数物体追跡(MOT17)とセグメンテーション(MOTS20)のタスクで最先端の性能 方法:静止画から物体検出を行うDETR (DEtection TRansformer)を応用 著者所属:ミュンヘン工科大学、Facebook
  20. GAN-Control: 明示的に制御可能なGAN (原文: GAN-Control: Explicitly Controllable GANs) http://arxiv.org/abs/2101.02477v1 生成された画像を明示的に制御してGANを学習するためのフレームワークを提示する。年齢、ポーズ、表情などの属性を正確に設定す ることで、生成画像を制御することができる。GANが生成した画像を編集するためのアプローチの多くは、標準的なGAN学習後に暗黙的

    に得られる潜在空間の離散特性を利用して部分的な制御を実現している。このような手法は、特定の属性の相対的な強度を変更するこ とはできますが、その値を明示的に設定することはできません。最近提案された手法は、人間の顔を明示的に制御するために設計され たもので、モーフィング可能な3D顔モデルを利用して、GANでのきめ細かい制御を可能にしています。これらの手法とは異なり、我々の 制御はモーフィング可能な3次元顔モデルのパラメータに拘束されず、人間の顔の領域を超えて拡張可能である。コントラスティブ・ラー ニングを用いて、明示的に離散化された潜在空間を持つGANを得る。この非分離を利用して、人間が解釈可能な入力を適切な潜在ベク トルにマッピングした制御エンコーダーを訓練することで、明示的な制御を可能にしている。人の顔の領域では、アイデンティティ、年齢、 ポーズ、表情、髪の色、照明の制御を実証しています。また、似顔絵や犬の画像生成の領域でも、我々のフレームワークの制御能力を 実証している。我々のアプローチが質的にも量的にも最先端の性能を達成していることを示す。 Top recent 9 目的:GANの潜在空間上で特定の属性の値(年齢など)を指定できるようにする 成果:モーフィング可能な3次元顔モデルのパラメータに拘束されずパラメータを指定可能なGAN 方法:StyleGAN + コントラスティブラーニング + 解釈パラメータを埋め込むネットワーク 著者所属:Amazon
  21. GAN-Control: 明示的に制御可能なGAN (原文: GAN-Control: Explicitly Controllable GANs) Top recent 9

    StyleGAN “A Style-Based Generator Architecture for Generative Adversarial Networks”
  22. GANの逆転: サーベイ (原文: GAN Inversion: A Survey) http://arxiv.org/abs/2101.05278v1 GAN反転は、与えられた画像を事前学習されたGANモデルの潜在空間に反転させ、生成器によって反転されたコードから忠実に画像を 再構成することを目的としています。実画像と偽画像の領域を橋渡しするための新しい技術として、GAN反転は、StyleGANやBigGANのよ

    うな事前に訓練されたGANモデルを実際の画像編集アプリケーションで使用できるようにするために重要な役割を果たしています。一方、 GANの反転はまた、GANの潜在空間の解釈や、どのようにしてリアルな画像を生成することができるかについての洞察を提供する。本論 文では、最近のアルゴリズムとアプリケーションに焦点を当てて、GANの反転の概要を説明する。我々は、GAN反転の重要な技術と、画 像復元や画像操作への応用を取り上げます。さらに、将来の方向性のためのいくつかのトレンドと課題についても詳しく説明します。 Top recent 10 目的:画像からGANの潜在空間を推定するタスクに関するサーベイ 成果:データセットや手法について整理 方法:文献調査 著者所属:清華大学、ノースイースタン大学、ユニバーシティ・カレッジ・ロンドン、香港中文大学、カリフォルニア・マーセッド大学
  23. 生成モデルの焦点周波数損失 (原文: Focal Frequency Loss for Generative Models) http://arxiv.org/abs/2012.12821v1 ディープニューラルネットワークを用いた写実的な画像生成において、生成モデルが目覚ましい成功を収めているにもかかわらず、実画

    像と生成画像の間には、特に周波数領域においてギャップが存在している可能性がある。本研究では、周波数領域のギャップを狭くす ることで、画像合成の品質をさらに向上させることができることを発見した。この目的のために、我々は、生成モデルの最適化を周波数 領域に持ち込む新しい目的関数である焦点周波数損失を提案する。提案する損失は、合成しやすい周波数をダウンウェイトすることで、 合成が困難な周波数成分に動的にフォーカスすることを可能にします。この目的関数は既存の空間損失を補完するものであり、ニュー ラルネットワークの固有の核心に起因する重要な周波数情報の損失に対して大きなインピーダンスを提供する。我々は、知覚品質と定 量的性能の両方で様々なベースラインを改善するために、焦点周波数損失の汎用性と有効性を実証している。 Top hype 1 目的:生成モデルの生成する画像の周波数領域でのギャップを減らす 成果:周波数領域でのロスfocal frequency loss (FFL)を提案 方法:周波数領域を考慮した目的関数の提案 著者所属:南洋理工大学、SenseTime社
  24. GLUバリアントはトランスを改善 (原文: GLU Variants Improve Transformer) http://arxiv.org/abs/2002.05202v1 Gated Linear Units

    (arXiv:1612.08083)は、2つの線形射影の成分積で構成され、そのうちの1つは最初にシグモイド関数を通過させる。 GLUのバリエーションは,シグモイドの代わりに異なる非線形(あるいは線形)関数を用いることで可能である.Transformer (arXiv:1706.03762)のシーケンスツーシーケンスモデルのフィードフォワードサブレイヤーでこれらのバリエーションをテストし、それらのい くつかが一般的に使用されているReLUやGELU活性化よりも品質の向上をもたらすことを発見した。 Top hype 2 目的:トランスフォーマで使われるGated Linear Unit (GLU)にシグモイド以外を使用した場合の調査 成果:データセットごとで最も精度のよい関数が異なる 方法:複数のデータセットで、複数の関数を調べる 著者所属:Google
  25. スイッチトランスフォーマー: シンプルで効率的なスパース性を備えた兆パラメータモデルへのスケーリング (原文: Switch Transformers: Scaling to Trillion Parameter Models

    with Simple and Efficient Sparsity) http://arxiv.org/abs/2101.03961v1 ディープラーニングでは、モデルは通常、すべての入力に対して同じパラメータを再利用します。Mixture of Experts (MoE)はこれを無視し て、入力された例ごとに異なるパラメータを選択します。その結果、非常に多くのパラメータを持つ、まばらに動作するモデルができあが りますが、計算コストは一定です。しかし、MoEはいくつかの注目すべき成功を収めているにもかかわらず、広く普及するには複雑さ、通 信コスト、トレーニングの不安定さが妨げとなっています。我々は、MoEルーティングアルゴリズムを単純化し、通信と計算コストを削減し た直感的な改良モデルを設計します。提案したトレーニング技術は不安定性を解消するのに役立ち、大規模なスパースモデルが初めて 低精度(bfloat16)フォーマットでトレーニングできることを示します。我々は、T5-BaseとT5-Largeをベースにしたモデルを設計し、同じ計算 資源で最大7倍の事前学習速度を得ることができます。これらの改善は多言語環境にも適用され、101の全言語でmT5-Baseバージョンよ りも向上しています。最後に、"Colossal Clean Crawled Corpus "上で最大1兆個のパラメータモデルを事前学習し、T5-XXLモデルの4倍の 速度向上を達成することで、現在の言語モデルの規模を向上させています。 Top hype 3 重複 (Top recent 2)
  26. メトリクスの問題はAIの根本的な問題 (原文: The Problem with Metrics is a Fundamental Problem

    for AI) http://arxiv.org/abs/2002.08512v1 所与のメトリックを最適化することは、現在のほとんどのAIアプローチの中心的な側面であるが、メトリックを過度に重視すると、操作、 ゲーム性、短期的な目標への近視眼的な焦点、およびその他の予期せぬ負の結果につながる。これは、AI開発に根本的な矛盾をもた らします。一連の実世界のケーススタディを通して、我々は、メトリクスが実際にどこで間違っているかの様々な側面と、我々のオンライ ン環境と現在のビジネス慣行がどのようにしてこれらの失敗を悪化させているかの側面を見ています。最後に、私たちは、AI内のメトリク スを過度に強調することによって引き起こされる害を緩和するためのフレームワークを提案します。(1)メトリクスのスレートを使用して、よ り完全でニュアンスのある状態を取得する、(2)メトリクスを定性的な説明と組み合わせる、(3)最も影響を受ける人々を含む様々な利害 関係者を関与させる。 Top hype 4 目的:測定基準を過度に強調することによる負の側面の整理 成果:測定基準を過度に強調することによって引き起こされる害を緩和するためのフレームワーク 方法:事例研究 著者所属:サンフランシスコ大学
  27. BERT: 言語理解のための深層双方向変換器の事前学習 (原文: BERT: Pre-training of Deep Bidirectional Transformers for

    Language Understanding) http://arxiv.org/abs/1810.04805v2 BERTはBidirectional Encoder Representations from Transformersの略で、新しい言語表現モデルを紹介する。最近の言語表現モデルとは 異なり、BERTは、すべての層で左と右の両方の文脈に共同で条件付けを行うことで、ラベル付けされていないテキストから深い双方向性 表現を事前に訓練するように設計されている。その結果、事前訓練された BERT モデルは、わずか 1 つの追加出力層で微調整すること ができ、タスク固有のアーキテクチャを実質的に変更することなく、質問回答や言語推論などの幅広いタスクのための最先端のモデルを 作成することができる。 BERT は、概念的にシンプルで経験的に強力である。GLUEスコアを80.5%(7.7%ポイントの絶対的改善)、MultiNLI 精度を86.7%(4.6%の絶対的改善)、SQuAD v1.1質問応答テストF1を93.2(1.5ポイントの絶対的改善)、SQuAD v2.0テストF1を83.1(5.1ポイン トの絶対的改善)に押し上げるなど、11の自然言語処理タスクで新たな最先端の結果を得ています。 Top hype 5 目的:幅広い言語タスクのための事前学習モデル 成果:事前学習されたtransformerモデル 方法:テキストの双方向予測 著者所属:Google AI Language
  28. ニューラルネットワークの解釈可能性に関する調査 (原文: A Survey on Neural Network Interpretability) http://arxiv.org/abs/2012.14261v1 ディープニューラルネットワークの大成功とともに、そのブラックボックス的な性質に対する懸念も高まっています。解釈可能性の問題は、

    ディープラーニングシステムに対する人々の信頼に影響を与えます。また、アルゴリズムの差別など、多くの倫理的な問題にも関係して います。さらに、解釈可能性は、ディープネットワークが創薬やゲノミクスなどの他の研究分野で強力なツールになるために望まれる特 性である。本調査では、ニューラルネットワークの解釈可能性に関する研究を包括的にレビューする。まず、様々な文脈で使用されてき た解釈可能性の定義を明らかにします。次に、解釈可能性の重要性について詳しく説明し、3つの次元に沿って整理された新しいタクソ ノミーを提案する。この分類法は、2つの次元のうち2つの次元が単純なカテゴリカルなものではなく、順序的な小分類を可能にしている ため、関連する文献からの論文の分布を3次元的に見ることができる。最後に、既存の解釈可能性の評価方法をまとめ、新しい分類法 に触発された研究の方向性を提案する。 Top hype 6 重複 (Top recent 5)
  29. Soft-DTW: 時系列の微分可能な損失関数 (原文: Soft-DTW: a Differentiable Loss Function for Time-Series)

    http://arxiv.org/abs/1703.01541v2 この論文では、有名な動的時間歪曲(DTW)の不一致を基に、時系列間の微分可能な学習損失を提案する。ユークリッド距離とは異なり、 DTWは可変サイズの時系列を比較することができ、時間次元間のシフトや拡張にロバストである。DTWを計算するには、通常、動的計画 法を用いて2つの時系列間の最小コストの整列問題を解く。我々の研究では、ソフトDTWと呼ばれるDTWの平滑化定式化を利用して、す べてのアライメントコストのソフト最小値を計算します。この論文では、ソフトDTWが微分可能な損失関数であり、その値と勾配の両方が2 次の時間/空間複雑度で計算できることを示します(DTWは2次の時間ですが、線形の空間複雑度を持っています)。この正則化は、DTW 形状の下での平均時系列やクラスター時系列に特に適しており、既存のベースラインを大幅に凌駕することを示した。次に、ソフトDTW の意味でのグランドトゥルースラベルとのフィットを最小化することで時系列を出力する機械のパラメータを調整することを提案する。 Top hype 7 目的:時系列用の損失関数 成果:時系列間の微分可能なlossであるSoft-DTWを提案 方法:データセットへのフィッティングで既存手法と比較 著者所属:パリ・サクレー大学、NTTコミュニケーションズ科学基礎研究所
  30. RepVGG:VGGスタイルのConvNetsを再び偉大なものにする (原文: RepVGG: Making VGG-style ConvNets Great Again) http://arxiv.org/abs/2101.03697v1 本研究では、畳み込みニューラルネットワークのシンプルかつ強力なアーキテクチャを提案する。このアーキテクチャは、学習時間モデ

    ルが多枝トポロジーを持つ一方で、3x3の畳み込みとReLUのスタックだけで構成されるVGG的な推論時間体を持つ。このような学習時間 と推論時間のアーキテクチャのデカップリングは、構造的な再パラメータ化技術によって実現され、モデルはRepVGGと名付けられた。 ImageNet上では,RepVGGは80%以上のtop-1精度を達成しており,我々の知る限りでは,プレーンモデルとしては初めてのことである. NVIDIA 1080Ti GPU上では,RepVGGモデルはResNet-50よりも83%速く,ResNet-101よりも101%速い精度で動作し,EfficientNetやRegNet のような最先端のモデルと比較して,精度と速度のトレードオフが良好であることを示しています. コードと訓練されたモデルは, https://github.com/megvii-model/RepVGG から入手できます. Top hype 8 重複 (Top recent 4)
  31. BART.自然言語生成・翻訳・理解のためのシーケンス間デノイジングプレトレーニング (原文: BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation,

    Translation, and Comprehension) http://arxiv.org/abs/1910.13461v1 本研究では、シーケンス間モデルを事前学習するためのノイズ除去オートエンコーダーであるBARTを提案する。BARTは、(1)任意のノイ ズ関数でテキストを破壊し、(2)元のテキストを再構築するモデルを学習することによって学習される。BARTは標準的なTranformerベース のニューラル機械翻訳アーキテクチャを使用しており、そのシンプルさにもかかわらず、BERT(双方向エンコーダによる)、GPT(左から右 へのデコーダによる)、その他多くの最近の事前学習スキームを一般化したものと見ることができます。我々はいくつかのノイズ化アプ ローチを評価し、元の文の順序をランダムにシャッフルすることと、テキストのスパンが単一のマスクトークンに置き換えられる新しいイン フィルスキームを使用することの両方によって、最高の性能を発見した。BARTは、テキスト生成のために微調整された場合に特に効果 的であるが、理解作業にも効果的である。BARTは、GLUEとSQuAD上の同等のトレーニングリソースとRoBERTaの性能を一致させ、抽象的 な対話、質問回答、要約タスクの範囲で、最大6ROUGEの利益を得て、最先端の新しい結果を達成しています。また、BARTは、対象言語 の事前訓練のみで、機械翻訳のための逆翻訳システムと比較して1.1ROUGEの向上を実現している。また、BARTフレームワーク内で他 のプレトレーニングスキームを再現したアブレーション実験を報告し、エンドタスクのパフォーマンスに最も影響を与える要因をよりよく測 定しています。 Top hype 9 目的:自然言語処理 成果:抽象的な対話、質問回答、要約タスクの範囲で、(当時)最先端の結果 方法:部分的なマスクを使用した単語の双方向予測 著者所属:Facebook AI
  32. オンライン学習の現代入門 (原文: A Modern Introduction to Online Learning) http://arxiv.org/abs/1912.13213v3 本モノグラフでは、オンライン凸最適化の現代的な見方を通して、オンライン学習の基本的な概念を紹介する。ここで、オンライン学習と

    は、ワーストケース仮定の下での後悔最小化の枠組みを指す。私は、ユークリッドと非ユークリッドの設定で、凸損失を持つオンライン学 習のための一次と二次のアルゴリズムを提示する。すべてのアルゴリズムは、オンラインミラー降下法、Follow-The-Regularized-Leader、 およびそれらの変種のインスタンスとして明確に提示される。特に注目されるのは、適応的でパラメータフリーのオンライン学習アルゴリ ズムを通じて、アルゴリズムのパラメータを調整し、非拘束領域での学習を行う問題である。非凸の損失は、凸のサロゲート損失とランダ ム化によって処理される。また、盗賊の設定についても簡単に議論し、敵対的で確率的な多腕盗賊の問題に触れる。これらのノートは、 凸解析の予備知識を必要とせず、必要な数学的ツールはすべて厳密に説明されています。さらに、すべての証明は、できるだけシンプ ルで短いものを厳選しています。 Top hype 10 目的:オンライン学習のチュートリアル 成果:チュートリアルドキュメント(128ページ) 方法:- 著者所属:ボストン大学