AI最新論文読み会2021年2月

医療ディープラーニング勉強会 AI最新論文読み会2021年2月大阪大学落合幸治

自己紹介 • 大阪大学博士課程 and 理研JRA • 修士課程卒業→制御エンジニア→理研 • 研究内容：細胞の自動培養、Deep Leaningによる細胞の識別
• 好きなこと：SF小説落合幸治（おちあいこうじ）

Agenda Arxiv sanity (http://www.arxiv-sanity.com/)で人気だった論文を紹介。 2021/1/23にサーベイ 1. Pickup • 発表者が一番気になった論文
2. Top recent • お気に入り数 • Last monthの上位10個 3. Top hype • Twitterでの言及数 • Last monthの上位10個

Top recent 1. Transformers in Vision: A Survey 2. Switch
Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 3. Deep Learning-Based Human Pose Estimation: A Survey 4. RepVGG: Making VGG-style ConvNets Great Again 5. A Survey on Neural Network Interpretability 6. Global Context Networks 7. AutoDropout: Learning Dropout Patterns to Regularize Deep Networks 8. TrackFormer: Multi-Object Tracking with Transformers 9. GAN-Control: Explicitly Controllable GANs 10. GAN Inversion: A Survey Pickup!

Top hype 1. Focal Frequency Loss for Generative Models 2.
GLU Variants Improve Transformer 3. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 4. The Problem with Metrics is a Fundamental Problem for AI 5. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 6. A Survey on Neural Network Interpretability 7. Soft-DTW: a Differentiable Loss Function for Time-Series 8. RepVGG: Making VGG-style ConvNets Great Again 9. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 10. A Modern Introduction to Online Learning gray: [dup]

Pickup!

グローバルコンテキストネットワーク (原文: Global Context Networks) http://arxiv.org/abs/2012.13375v1 非ローカルネットワーク(NLNet)は、クエリ固有のグローバルコンテキストを各クエリ位置に集約することで、画像内の長距離依存性を捉えるための先駆的なアプローチを提示します。しかし、厳密な実証分析を行った結果、非ローカルネットワークによってモデル化されたグローバルコンテキストは、異なるクエリ位置に対してほぼ同じであることがわかりました。本論文では、この発見を利用して、クエリに依存しない定式化に基づく簡略化されたネットワークを作成し、NLNetの精度を維持しつつ、計算量を大幅に削減した。さらに、非ローカルブ
ロックの1層の変換関数を2層のボトルネックに置き換えることで、パラメータ数を大幅に削減しています。その結果、グローバルコンテキスト（GC）ブロックと呼ばれるネットワーク要素は、軽量な方法で効果的にグローバルコンテキストをモデル化し、バックボーンネットワークの複数の層に適用してグローバルコンテキストネットワーク（GCNet）を形成することができるようになりました。実験の結果、GCNetは様々な認識タスクの主要なベンチマークにおいて、一般的にNLNetよりも優れていることが示されています。コードとネットワーク構成は https://github.com/xvjiarui/GCNet で入手可能です。 Top recent 6 目的：Attention機構をもつ画像認識ネットワークの軽量化成果：複数のベンチマークで既存の方法 (NLNet) よりよい成績方法：クエリに依存しないアテンションを使用する（クエリを変えてもアテンションはほぼ同じだった）著者所属：マイクロソフト・リサーチ・アジア（香港科技大学からのインターン） Pickup!

Non-local Neural Networks

Non-local Neural Networks Gaussian Embedded Gaussian Dot Product Concatenation Non-local
operation fはどれを選んでも大差ない既存のネットワーク追加するときは、元の入力xにyを追加。Wは学習。

Non-local Neural Networks

NLNetのクエリー位置を変えても重みはほぼ同じグローバルコンテキストネットワーク (原文: Global Context Networks)

グローバルコンテキストネットワーク (原文: Global Context Networks) = + =1 exp =1
exp = + =1 exp , =1 exp , ( ∙ ) Non-local Neural Networks (Gaussian) Global Context Networks

グローバルコンテキストネットワーク (原文: Global Context Networks) human action recognition image classification

グローバルコンテキストネットワーク (原文: Global Context Networks)

Top recent Last month, Top 10

ビジョンの中のトランスフォーマー: サーベイ (原文: Transformers in Vision: A Survey) http://arxiv.org/abs/2101.01169v1 自然言語タスクにおけるトランスフォーマーモデルの驚くべき結果は、コンピュータビジョン問題への応用を研究するビジョンコミュニティ
の興味をそそるものでした。これにより、モデル設計に帰納的バイアスを最小限に抑えながらも、多くのタスクで目覚ましい進歩を遂げてきました。この調査は、コンピュータビジョン分野におけるトランスフォーマーモデルの包括的な概要を提供することを目的としており、この分野での予備知識がほとんどないことを前提としています。まず、トランスモデルの成功の背景にある基本的な概念、すなわち自己監視と自己注意について紹介します。トランスフォーマーアーキテクチャは、自己注意メカニズムを利用して入力領域の長距離依存性を符号化することで、非常に表現力を高めている。問題の構造に関する最小限の事前知識を前提としているため、事前課題を用いた自己学習が、大規模な（ラベル付けされていない）データセット上でのトランスモデルの事前学習へ適用されます。学習された表現は下流のタスクで微調整され、典型的には符号化された特徴の一般化と表現力により優れた性能を発揮する。我々は、一般的な認識タスク（例：画像分類、物体検出、行動認識、セグメンテーション）、生成モデリング、マルチモーダルタスク（例：視覚的質問応答、視覚的推論）、ビデオ処理（例：活動認識、ビデオ予測）、低レベルビジョン（例：画像の超解像、着色）、3D解析（例：点群分類、セグメンテーション）などを含む、ビジョンにおけるトランスフォーマーの広範なアプリケーションをカバーしています。我々は、アーキテクチャ設計と実験的価値の両面から、一般的な技術のそれぞれの利点と限界を比較する。最後に、今後の研究の方向性と可能性についての分析を行う。 Top recent 1 目的：トランスフォーマーの画像への適用に関する文献調査成果：- 方法：文献調査著者所属：MBZ大学(アラブ首長国連邦)、モナシュ大学、etc

ビジョンの中のトランスフォーマー: サーベイ (原文: Transformers in Vision: A Survey) Top recent
1 過去数年間の査読付き論文およびarXiv論文のタイトルにBERT、Self-Attention、Transformerなどのキーワードが登場した回数の統計

目的：Mixture of Experts (MoE) と呼ばれる手法を単純化し計算コストを下げた成果：同じ計算資源で最大で7倍の事前学習速度を得た方法：MoEで使用するFFNの数を12にする著者所属：Google Brain スイッチトランスフォーマー:
シンプルで効率的なスパース性を備えた兆パラメータモデルへのスケーリング (原文: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity) http://arxiv.org/abs/2101.03961v1 ディープラーニングでは、モデルは通常、すべての入力に対して同じパラメータを再利用します。Mixture of Experts (MoE)はこれを無視して、入力された例ごとに異なるパラメータを選択します。その結果、非常に多くのパラメータを持つ、まばらに動作するモデルができあがりますが、計算コストは一定です。しかし、MoEはいくつかの注目すべき成功を収めているにもかかわらず、広く普及するには複雑さ、通信コスト、トレーニングの不安定さが妨げとなっています。我々は、MoEルーティングアルゴリズムを単純化し、通信と計算コストを削減した直感的な改良モデルを設計します。提案したトレーニング技術は不安定性を解消するのに役立ち、大規模なスパースモデルが低精度 (bfloat16)フォーマットでトレーニングできることを初めて示します。我々は、T5-BaseとT5-Largeをベースにしたモデルを設計し、同じ計算資源で最大7倍の事前学習速度を得ることができます。これらの改善は多言語環境にも適用され、101の全言語でmT5-Baseバージョンよりも向上しています。最後に、"Colossal Clean Crawled Corpus "上で最大1兆個のパラメータモデルを事前学習し、T5-XXLモデルの4倍の速度向上を達成することで、現在の言語モデルの規模を向上させています。 Top recent 2

スイッチトランスフォーマー: シンプルで効率的なスパース性を備えた兆パラメータモデルへのスケーリング (原文: Switch Transformers: Scaling to Trillion Parameter Models
with Simple and Efficient Sparsity) Top recent 2 FNNレイヤーを変更 MoEでは複数の FNNを使うがSwitch Transformersでは一つだけ使う

with Simple and Efficient Sparsity) Top recent 2 Switch TransformerはMoEと同じくらいの成績、MoEと同じスピードになるまで隠れ層を増やすとさらによくなる Neg. Log Perp. : negative log perplexity of the masked language objective as our quality measure (higher better)

with Simple and Efficient Sparsity) Top recent 2

ディープラーニングに基づく人間の姿勢推定: サーベイ (原文: Deep Learning-Based Human Pose Estimation: A Survey)
http://arxiv.org/abs/2012.13392v3 ヒューマンポーズ推定は、画像や動画などの入力データから人体の部位を特定し、人体表現（骨格など）を構築することを目的としています。この10年間で注目度が高まり，人間とコンピュータのインタラクション，モーション解析，拡張現実，仮想現実など幅広い分野で活用されている．近年開発されたディープラーニングベースのソリューションは、人間のポーズ推定において高い性能を実現しているが、学習データの不足や深さの曖昧さ、オクルージョンなどの課題が残されている。本調査論文の目的は、入力データと推論手順に基づいたこれらのソリューションの体系的な分析と比較を通じて、2Dと3Dの両方のポーズ推定のための最近のディープラーニングベースのソリューションの包括的なレビューを提供することである。2014年以降の240以上の研究論文が本調査でカバーされています。さらに、2D および3Dの人間ポーズ推定のデータセットと評価指標も含まれています。また、一般的なデータセット上でのレビューされた手法の定量的な性能比較をまとめ、議論する。最後に、関連する課題、アプリケーション、および今後の研究の方向性について締めくくります。また、定期的に更新されるプロジェクトページも提供しています。https://github.com/zczcwh/DL-HPE Top recent 3 目的：姿勢推定についての文献調査成果：- 方法：- 著者所属：ノースコロラド大学、デイトン大学、テキサス大学、セントラル・フロリダ大学

RepVGG：VGGスタイルのConvNetsを再び偉大なものにする (原文: RepVGG: Making VGG-style ConvNets Great Again) http://arxiv.org/abs/2101.03697v1 本研究では、畳み込みニューラルネットワークのシンプルかつ強力なアーキテクチャを提案する。このアーキテクチャは、学習時間モデ
ルが多枝トポロジーを持つ一方で、3x3の畳み込みとReLUのスタックだけで構成されるVGG的な推論時間体を持つ。このような学習時間と推論時間のアーキテクチャのデカップリングは、構造的な再パラメータ化技術によって実現され、モデルはRepVGGと名付けられた。 ImageNet上では，RepVGGは80%以上のtop-1精度を達成しており，我々の知る限りでは，プレーンモデルとしては初めてのことである． NVIDIA 1080Ti GPU上では，RepVGGモデルは高い精度のままResNet-50よりも83%速く，ResNet-101よりも101%速く動作し，EfficientNetや RegNetのような最先端のモデルと比較して，精度と速度のトレードオフが良好であることを示しています．コードと訓練されたモデルは， https://github.com/megvii-model/RepVGG から入手できます． Top recent 4 目的：推論速度を上げる成果：ResNet-50よりも83%速く，ResNet-101よりも101%速い方法：学習時と推論時でモデル構造を変える。パラメータは整合性が取れるよう変換著者所属：清華大学、MEGVII Technology、香港大学、アベリストウィス大学(UK)

RepVGG：VGGスタイルのConvNetsを再び偉大なものにする (原文: RepVGG: Making VGG-style ConvNets Great Again) Top recent
4 モデルサイズを変えつつ推論スピードと精度のトレードオフを見る

ニューラルネットワークの解釈可能性に関する調査 (原文: A Survey on Neural Network Interpretability) http://arxiv.org/abs/2012.14261v1 ディープニューラルネットワークの大成功とともに、そのブラックボックス的な性質に対する懸念も高まっています。解釈可能性の問題は、
ディープラーニングシステムに対する人々の信頼に影響を与えます。また、アルゴリズムの差別など、多くの倫理的な問題にも関係しています。さらに、解釈可能性は、ディープネットワークが創薬やゲノミクスなどの他の研究分野で強力なツールになるために望まれる特性である。本調査では、ニューラルネットワークの解釈可能性に関する研究を包括的にレビューする。まず、様々な文脈で使用されてきた解釈可能性の定義を明らかにします。次に、解釈可能性の重要性について詳しく説明し、3つの次元に沿って整理された新しいタクソノミーを提案する。この分類法は、2つの次元のうち2つの次元が単純なカテゴリカルなものではなく、順序的な小分類を可能にしているため、関連する文献からの論文の分布を3次元的に見ることができる。最後に、既存の解釈可能性の評価方法をまとめ、新しい分類法に触発された研究の方向性を提案する。 Top recent 5 目的：既存の解釈可能なニューラルネットワークに関する概念の整理成果：３つの軸で既存の研究を整理方法：文献調査著者所属：南方科技大学、バーミンガム大学

ニューラルネットワークの解釈可能性に関する調査 (原文: A Survey on Neural Network Interpretability) Top recent
5

グローバルコンテキストネットワーク (原文: Global Context Networks) http://arxiv.org/abs/2012.13375v1 非ローカルネットワーク(NLNet)は、クエリ固有のグローバルコンテキストを各クエリ位置に集約することで、画像内の長距離依存性を捉えるための先駆的なアプローチを提示します。しかし、厳密な実証分析を行った結果、非ローカルネットワークによってモデル化されたグローバルコンテキストは、異なるクエリ位置に対してほぼ同じであることがわかりました。本論文では、この発見を利用して、クエリに依存しない定式化に基づく簡略化されたネットワークを作成し、NLNetの精度を維持しつつ、計算量を大幅に削減した。さらに、非ローカルブ
ロックの1層の変換関数を2層のボトルネックに置き換えることで、パラメータ数を大幅に削減しています。その結果、グローバルコンテキスト（GC）ブロックと呼ばれるネットワーク要素は、軽量な方法で効果的にグローバルコンテキストをモデル化し、バックボーンネットワークの複数の層に適用してグローバルコンテキストネットワーク（GCNet）を形成することができるようになりました。実験の結果、GCNetは様々な認識タスクの主要なベンチマークにおいて、一般的にNLNetよりも優れていることが示されています。コードとネットワーク構成は https://github.com/xvjiarui/GCNet で入手可能です。 Top recent 6 目的：Attention機構をもつ画像認識ネットワークの軽量化成果：複数のベンチマークで既存の方法 (NLNet) よりよい成績方法：クエリに依存しないアテンションを使用する（クエリを変えてもアテンションはほぼ同じだった）著者所属：マイクロソフト・リサーチ・アジア（香港科技大学からのインターン）重複 (Pickup)

AutoDropout:ディープネットワークを正則化するためのドロップアウトパターンの学習 (原文: AutoDropout: Learning Dropout Patterns to Regularize Deep Networks)
http://arxiv.org/abs/2101.01761v1 ニューラルネットワークはしばしば過剰パラメータ化されているため、積極的な正則化の恩恵を受けることができます。ドロップアウトや重み減衰などの従来の正則化手法は、ネットワークの入力や隠れた状態の構造を利用していません。その結果、これらの従来の手法は、隠れ状態の特定の連続する領域で値をランダムにドロップアウトしてゼロに設定するSpatialDropoutやDropBlockのような構造を活用する手法に比べて効果的ではない。ドロップアウト領域の位置はランダムであるが、SpatialDropoutやDropBlockのパターンは人為的に設計され固定化されている。ここでは、ドロップアウトパターンを学習することを提案する。我々の手法では、コントローラはConvNetや Transformerなどのターゲットネットワークの各チャネルとレイヤでドロップアウトパターンを生成するように学習する。次に、ターゲット・ネットワークがドロップアウト・パターンで学習され、その結果として得られる検証性能が、コントローラが学習する信号として使用されます。この方法は、CIFAR-10やImageNetでの画像認識、Penn TreebankやWikiText-2での言語モデリングの両方に有効であることを示しています。学習されたドロップアウトパターンは、Penn Treebank上の言語モデルからWMT 2014上のEngligh-French翻訳までのように、異なるタスクやデータセットにも転送される。私たちのコードが利用可能になります。 Top recent 7 目的：ドロップアウトパターンの最適化成果：画像認識、言語モデルで検証し、既存の正規化手法を上回る精度方法：学習によってドロップアウトパターンを決定する著者所属：Google Research Brain Team、カーネギーメロン大学

AutoDropout:ディープネットワークを正則化するためのドロップアウトパターンの学習 (原文: AutoDropout: Learning Dropout Patterns to Regularize Deep Networks)
Top recent 7 パラメータをトークンとして出力するトランスフォーマーを強化学習で学習

TrackFormer: トランスフォーマーによるマルチオブジェクトトラッキング (原文: TrackFormer: Multi-Object Tracking with Transformers) http://arxiv.org/abs/2101.02702v1 我々は、エンコーダー・デコーダー・トランスフォーマー・アーキテクチャに基づくエンドツーエンドのマルチオブジェクト・トラッキングおよび
セグメンテーション・モデルであるTrackFormerを紹介する。我々のアプローチでは、自己回帰的な方法でビデオシーケンス中のオブジェクトを追跡するトラッククエリの埋め込みを導入しています。新しいトラッククエリは、DETR オブジェクト検出器によって生成され、時間の経過とともに対応するオブジェクトの位置を埋め込みます。トランスフォーマーのデコーダは、フレームごとにトラッククエリのエンベッディングを調整し、変化するオブジェクトの位置に追従します。TrackFormerは、位置、オクルージョン、物体の識別を同時に推論する自己およびエンコーダとデコーダの注意メカニズムにより、新しいトラッキング・バイ・アテンション・パラダイムでフレーム間のシームレスなデータ関連付けを実現します。TrackFormerは、複数物体追跡（MOT17）とセグメンテーション（MOTS20）のタスクで最先端の性能を発揮します。私たちの統一された検出と追跡の方法が、将来的に多物体追跡や映像理解の研究を促進することを期待しています。コードは公開されます。 Top recent 8 目的：複数物体追跡成果：複数物体追跡（MOT17）とセグメンテーション（MOTS20）のタスクで最先端の性能方法：静止画から物体検出を行うDETR (DEtection TRansformer)を応用著者所属：ミュンヘン工科大学、Facebook

TrackFormer: トランスフォーマーによるマルチオブジェクトトラッキング (原文: TrackFormer: Multi-Object Tracking with Transformers) Top recent
8 DETR (DEtection TRansformer)

TrackFormer: トランスフォーマーによるマルチオブジェクトトラッキング (原文: TrackFormer: Multi-Object Tracking with Transformers) Top recent
8

GAN-Control: 明示的に制御可能なGAN (原文: GAN-Control: Explicitly Controllable GANs) http://arxiv.org/abs/2101.02477v1 生成された画像を明示的に制御してGANを学習するためのフレームワークを提示する。年齢、ポーズ、表情などの属性を正確に設定することで、生成画像を制御することができる。GANが生成した画像を編集するためのアプローチの多くは、標準的なGAN学習後に暗黙的
に得られる潜在空間の離散特性を利用して部分的な制御を実現している。このような手法は、特定の属性の相対的な強度を変更することはできますが、その値を明示的に設定することはできません。最近提案された手法は、人間の顔を明示的に制御するために設計されたもので、モーフィング可能な3D顔モデルを利用して、GANでのきめ細かい制御を可能にしています。これらの手法とは異なり、我々の制御はモーフィング可能な3次元顔モデルのパラメータに拘束されず、人間の顔の領域を超えて拡張可能である。コントラスティブ・ラーニングを用いて、明示的に離散化された潜在空間を持つGANを得る。この非分離を利用して、人間が解釈可能な入力を適切な潜在ベクトルにマッピングした制御エンコーダーを訓練することで、明示的な制御を可能にしている。人の顔の領域では、アイデンティティ、年齢、ポーズ、表情、髪の色、照明の制御を実証しています。また、似顔絵や犬の画像生成の領域でも、我々のフレームワークの制御能力を実証している。我々のアプローチが質的にも量的にも最先端の性能を達成していることを示す。 Top recent 9 目的：GANの潜在空間上で特定の属性の値(年齢など)を指定できるようにする成果：モーフィング可能な3次元顔モデルのパラメータに拘束されずパラメータを指定可能なGAN 方法：StyleGAN + コントラスティブラーニング + 解釈パラメータを埋め込むネットワーク著者所属：Amazon

GAN-Control: 明示的に制御可能なGAN (原文: GAN-Control: Explicitly Controllable GANs) Top recent 9
StyleGAN “A Style-Based Generator Architecture for Generative Adversarial Networks”

zをcontrastive learning で調節

GANの逆転: サーベイ (原文: GAN Inversion: A Survey) http://arxiv.org/abs/2101.05278v1 GAN反転は、与えられた画像を事前学習されたGANモデルの潜在空間に反転させ、生成器によって反転されたコードから忠実に画像を再構成することを目的としています。実画像と偽画像の領域を橋渡しするための新しい技術として、GAN反転は、StyleGANやBigGANのよ
うな事前に訓練されたGANモデルを実際の画像編集アプリケーションで使用できるようにするために重要な役割を果たしています。一方、 GANの反転はまた、GANの潜在空間の解釈や、どのようにしてリアルな画像を生成することができるかについての洞察を提供する。本論文では、最近のアルゴリズムとアプリケーションに焦点を当てて、GANの反転の概要を説明する。我々は、GAN反転の重要な技術と、画像復元や画像操作への応用を取り上げます。さらに、将来の方向性のためのいくつかのトレンドと課題についても詳しく説明します。 Top recent 10 目的：画像からGANの潜在空間を推定するタスクに関するサーベイ成果：データセットや手法について整理方法：文献調査著者所属：清華大学、ノースイースタン大学、ユニバーシティ・カレッジ・ロンドン、香港中文大学、カリフォルニア・マーセッド大学

Top hype Last month, Top 10

生成モデルの焦点周波数損失 (原文: Focal Frequency Loss for Generative Models) http://arxiv.org/abs/2012.12821v1 ディープニューラルネットワークを用いた写実的な画像生成において、生成モデルが目覚ましい成功を収めているにもかかわらず、実画
像と生成画像の間には、特に周波数領域においてギャップが存在している可能性がある。本研究では、周波数領域のギャップを狭くすることで、画像合成の品質をさらに向上させることができることを発見した。この目的のために、我々は、生成モデルの最適化を周波数領域に持ち込む新しい目的関数である焦点周波数損失を提案する。提案する損失は、合成しやすい周波数をダウンウェイトすることで、合成が困難な周波数成分に動的にフォーカスすることを可能にします。この目的関数は既存の空間損失を補完するものであり、ニューラルネットワークの固有の核心に起因する重要な周波数情報の損失に対して大きなインピーダンスを提供する。我々は、知覚品質と定量的性能の両方で様々なベースラインを改善するために、焦点周波数損失の汎用性と有効性を実証している。 Top hype 1 目的：生成モデルの生成する画像の周波数領域でのギャップを減らす成果：周波数領域でのロスfocal frequency loss (FFL)を提案方法：周波数領域を考慮した目的関数の提案著者所属：南洋理工大学、SenseTime社

生成モデルの焦点周波数損失 (原文: Focal Frequency Loss for Generative Models) Top hype
1

GLUバリアントはトランスを改善 (原文: GLU Variants Improve Transformer) http://arxiv.org/abs/2002.05202v1 Gated Linear Units
(arXiv:1612.08083)は、2つの線形射影の成分積で構成され、そのうちの1つは最初にシグモイド関数を通過させる。 GLUのバリエーションは，シグモイドの代わりに異なる非線形（あるいは線形）関数を用いることで可能である．Transformer (arXiv:1706.03762)のシーケンスツーシーケンスモデルのフィードフォワードサブレイヤーでこれらのバリエーションをテストし、それらのいくつかが一般的に使用されているReLUやGELU活性化よりも品質の向上をもたらすことを発見した。 Top hype 2 目的：トランスフォーマで使われるGated Linear Unit (GLU)にシグモイド以外を使用した場合の調査成果：データセットごとで最も精度のよい関数が異なる方法：複数のデータセットで、複数の関数を調べる著者所属：Google

GLUバリアントはトランスを改善 (原文: GLU Variants Improve Transformer) Top hype 2

with Simple and Efficient Sparsity) http://arxiv.org/abs/2101.03961v1 ディープラーニングでは、モデルは通常、すべての入力に対して同じパラメータを再利用します。Mixture of Experts (MoE)はこれを無視して、入力された例ごとに異なるパラメータを選択します。その結果、非常に多くのパラメータを持つ、まばらに動作するモデルができあがりますが、計算コストは一定です。しかし、MoEはいくつかの注目すべき成功を収めているにもかかわらず、広く普及するには複雑さ、通信コスト、トレーニングの不安定さが妨げとなっています。我々は、MoEルーティングアルゴリズムを単純化し、通信と計算コストを削減した直感的な改良モデルを設計します。提案したトレーニング技術は不安定性を解消するのに役立ち、大規模なスパースモデルが初めて低精度(bfloat16)フォーマットでトレーニングできることを示します。我々は、T5-BaseとT5-Largeをベースにしたモデルを設計し、同じ計算資源で最大7倍の事前学習速度を得ることができます。これらの改善は多言語環境にも適用され、101の全言語でmT5-Baseバージョンよりも向上しています。最後に、"Colossal Clean Crawled Corpus "上で最大1兆個のパラメータモデルを事前学習し、T5-XXLモデルの4倍の速度向上を達成することで、現在の言語モデルの規模を向上させています。 Top hype 3 重複 (Top recent 2)

メトリクスの問題はAIの根本的な問題 (原文: The Problem with Metrics is a Fundamental Problem
for AI) http://arxiv.org/abs/2002.08512v1 所与のメトリックを最適化することは、現在のほとんどのAIアプローチの中心的な側面であるが、メトリックを過度に重視すると、操作、ゲーム性、短期的な目標への近視眼的な焦点、およびその他の予期せぬ負の結果につながる。これは、AI開発に根本的な矛盾をもたらします。一連の実世界のケーススタディを通して、我々は、メトリクスが実際にどこで間違っているかの様々な側面と、我々のオンライン環境と現在のビジネス慣行がどのようにしてこれらの失敗を悪化させているかの側面を見ています。最後に、私たちは、AI内のメトリクスを過度に強調することによって引き起こされる害を緩和するためのフレームワークを提案します。(1)メトリクスのスレートを使用して、より完全でニュアンスのある状態を取得する、(2)メトリクスを定性的な説明と組み合わせる、(3)最も影響を受ける人々を含む様々な利害関係者を関与させる。 Top hype 4 目的：測定基準を過度に強調することによる負の側面の整理成果：測定基準を過度に強調することによって引き起こされる害を緩和するためのフレームワーク方法：事例研究著者所属：サンフランシスコ大学

BERT: 言語理解のための深層双方向変換器の事前学習 (原文: BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding) http://arxiv.org/abs/1810.04805v2 BERTはBidirectional Encoder Representations from Transformersの略で、新しい言語表現モデルを紹介する。最近の言語表現モデルとは異なり、BERTは、すべての層で左と右の両方の文脈に共同で条件付けを行うことで、ラベル付けされていないテキストから深い双方向性表現を事前に訓練するように設計されている。その結果、事前訓練された BERT モデルは、わずか 1 つの追加出力層で微調整することができ、タスク固有のアーキテクチャを実質的に変更することなく、質問回答や言語推論などの幅広いタスクのための最先端のモデルを作成することができる。 BERT は、概念的にシンプルで経験的に強力である。GLUEスコアを80.5%(7.7%ポイントの絶対的改善)、MultiNLI 精度を86.7%(4.6%の絶対的改善)、SQuAD v1.1質問応答テストF1を93.2(1.5ポイントの絶対的改善)、SQuAD v2.0テストF1を83.1(5.1ポイントの絶対的改善)に押し上げるなど、11の自然言語処理タスクで新たな最先端の結果を得ています。 Top hype 5 目的：幅広い言語タスクのための事前学習モデル成果：事前学習されたtransformerモデル方法：テキストの双方向予測著者所属：Google AI Language

ニューラルネットワークの解釈可能性に関する調査 (原文: A Survey on Neural Network Interpretability) http://arxiv.org/abs/2012.14261v1 ディープニューラルネットワークの大成功とともに、そのブラックボックス的な性質に対する懸念も高まっています。解釈可能性の問題は、
ディープラーニングシステムに対する人々の信頼に影響を与えます。また、アルゴリズムの差別など、多くの倫理的な問題にも関係しています。さらに、解釈可能性は、ディープネットワークが創薬やゲノミクスなどの他の研究分野で強力なツールになるために望まれる特性である。本調査では、ニューラルネットワークの解釈可能性に関する研究を包括的にレビューする。まず、様々な文脈で使用されてきた解釈可能性の定義を明らかにします。次に、解釈可能性の重要性について詳しく説明し、3つの次元に沿って整理された新しいタクソノミーを提案する。この分類法は、2つの次元のうち2つの次元が単純なカテゴリカルなものではなく、順序的な小分類を可能にしているため、関連する文献からの論文の分布を3次元的に見ることができる。最後に、既存の解釈可能性の評価方法をまとめ、新しい分類法に触発された研究の方向性を提案する。 Top hype 6 重複 (Top recent 5)

Soft-DTW: 時系列の微分可能な損失関数 (原文: Soft-DTW: a Differentiable Loss Function for Time-Series)
http://arxiv.org/abs/1703.01541v2 この論文では、有名な動的時間歪曲(DTW)の不一致を基に、時系列間の微分可能な学習損失を提案する。ユークリッド距離とは異なり、 DTWは可変サイズの時系列を比較することができ、時間次元間のシフトや拡張にロバストである。DTWを計算するには、通常、動的計画法を用いて2つの時系列間の最小コストの整列問題を解く。我々の研究では、ソフトDTWと呼ばれるDTWの平滑化定式化を利用して、すべてのアライメントコストのソフト最小値を計算します。この論文では、ソフトDTWが微分可能な損失関数であり、その値と勾配の両方が2 次の時間/空間複雑度で計算できることを示します(DTWは2次の時間ですが、線形の空間複雑度を持っています)。この正則化は、DTW 形状の下での平均時系列やクラスター時系列に特に適しており、既存のベースラインを大幅に凌駕することを示した。次に、ソフトDTW の意味でのグランドトゥルースラベルとのフィットを最小化することで時系列を出力する機械のパラメータを調整することを提案する。 Top hype 7 目的：時系列用の損失関数成果：時系列間の微分可能なlossであるSoft-DTWを提案方法：データセットへのフィッティングで既存手法と比較著者所属：パリ・サクレー大学、NTTコミュニケーションズ科学基礎研究所

Top hype 7 Soft-DTW

Top hype 7

RepVGG：VGGスタイルのConvNetsを再び偉大なものにする (原文: RepVGG: Making VGG-style ConvNets Great Again) http://arxiv.org/abs/2101.03697v1 本研究では、畳み込みニューラルネットワークのシンプルかつ強力なアーキテクチャを提案する。このアーキテクチャは、学習時間モデ
ルが多枝トポロジーを持つ一方で、3x3の畳み込みとReLUのスタックだけで構成されるVGG的な推論時間体を持つ。このような学習時間と推論時間のアーキテクチャのデカップリングは、構造的な再パラメータ化技術によって実現され、モデルはRepVGGと名付けられた。 ImageNet上では，RepVGGは80%以上のtop-1精度を達成しており，我々の知る限りでは，プレーンモデルとしては初めてのことである． NVIDIA 1080Ti GPU上では，RepVGGモデルはResNet-50よりも83%速く，ResNet-101よりも101%速い精度で動作し，EfficientNetやRegNet のような最先端のモデルと比較して，精度と速度のトレードオフが良好であることを示しています．コードと訓練されたモデルは， https://github.com/megvii-model/RepVGG から入手できます． Top hype 8 重複 (Top recent 4)

BART.自然言語生成・翻訳・理解のためのシーケンス間デノイジングプレトレーニング (原文: BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation,
Translation, and Comprehension) http://arxiv.org/abs/1910.13461v1 本研究では、シーケンス間モデルを事前学習するためのノイズ除去オートエンコーダーであるBARTを提案する。BARTは、(1)任意のノイズ関数でテキストを破壊し、(2)元のテキストを再構築するモデルを学習することによって学習される。BARTは標準的なTranformerベースのニューラル機械翻訳アーキテクチャを使用しており、そのシンプルさにもかかわらず、BERT（双方向エンコーダによる）、GPT（左から右へのデコーダによる）、その他多くの最近の事前学習スキームを一般化したものと見ることができます。我々はいくつかのノイズ化アプローチを評価し、元の文の順序をランダムにシャッフルすることと、テキストのスパンが単一のマスクトークンに置き換えられる新しいインフィルスキームを使用することの両方によって、最高の性能を発見した。BARTは、テキスト生成のために微調整された場合に特に効果的であるが、理解作業にも効果的である。BARTは、GLUEとSQuAD上の同等のトレーニングリソースとRoBERTaの性能を一致させ、抽象的な対話、質問回答、要約タスクの範囲で、最大6ROUGEの利益を得て、最先端の新しい結果を達成しています。また、BARTは、対象言語の事前訓練のみで、機械翻訳のための逆翻訳システムと比較して1.1ROUGEの向上を実現している。また、BARTフレームワーク内で他のプレトレーニングスキームを再現したアブレーション実験を報告し、エンドタスクのパフォーマンスに最も影響を与える要因をよりよく測定しています。 Top hype 9 目的：自然言語処理成果：抽象的な対話、質問回答、要約タスクの範囲で、(当時)最先端の結果方法：部分的なマスクを使用した単語の双方向予測著者所属：Facebook AI

オンライン学習の現代入門 (原文: A Modern Introduction to Online Learning) http://arxiv.org/abs/1912.13213v3 本モノグラフでは、オンライン凸最適化の現代的な見方を通して、オンライン学習の基本的な概念を紹介する。ここで、オンライン学習と
は、ワーストケース仮定の下での後悔最小化の枠組みを指す。私は、ユークリッドと非ユークリッドの設定で、凸損失を持つオンライン学習のための一次と二次のアルゴリズムを提示する。すべてのアルゴリズムは、オンラインミラー降下法、Follow-The-Regularized-Leader、およびそれらの変種のインスタンスとして明確に提示される。特に注目されるのは、適応的でパラメータフリーのオンライン学習アルゴリズムを通じて、アルゴリズムのパラメータを調整し、非拘束領域での学習を行う問題である。非凸の損失は、凸のサロゲート損失とランダム化によって処理される。また、盗賊の設定についても簡単に議論し、敵対的で確率的な多腕盗賊の問題に触れる。これらのノートは、凸解析の予備知識を必要とせず、必要な数学的ツールはすべて厳密に説明されています。さらに、すべての証明は、できるだけシンプルで短いものを厳選しています。 Top hype 10 目的：オンライン学習のチュートリアル成果：チュートリアルドキュメント(128ページ) 方法：- 著者所属：ボストン大学

DeepL.com/Translatorによる翻訳を使用させていただきました

AI最新論文読み会2021年2月

AI最新論文読み会2021年2月

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Education

Featured

Transcript