AI最新論文読み会2021年10月

Slide 1

Slide 1 text

医療AI勉強会 AI最新論文読み会2021年10月 https://deeplearning-b.connpass.com/event/221384/ ㈱YEBIS.XYZ 橋本祥一

Slide 10

Slide 10 text

ConvMLP: 視覚のための階層的畳み込みMLP (原文: ConvMLP: Hierarchical Convolutional MLPs for Vision) http://arxiv.org/abs/2109.04454v2 MLPは、多層パーセプトロンを連続して配置したアーキテクチャであり、最近では、畳み込みや変換を用いた手法と同等の結果が得られることがわかっています。しかし、ほとんどのMLPは固定次元の入力を受け付ける空間型MLPを採用しているため、物体検出やセマンティックセグメンテーションなどの下流のタスクに適用することは困難です。さらに、シングルステージの設計は、他のコンピュータビジョンタスクでの性能をさらに制限し、完全連結層は重い計算を必要とします。これらの問題に対処するために、我々はConvMLP: a hierarchical Convolutional MLP for visual recognitionを提案する。これは、畳み込み層とMLPを段階的に共同設計することで軽量化を図るものである。特に、ConvMLP-Sは、ImageNet-1kにおいて、9Mのパラメータと2.4GのMACを用いて、76.8%の top-1精度を達成しました（MLP-Mixer-B/16の15%と19%）。さらに、オブジェクト検出とセマンティックセグメンテーションの実験では、ConvMLPで学習した視覚表現をシームレスに移行し、より少ないパラメータで競争力のある結果を得ることができました。我々のコードと学習済みモデルは、https://github.com/SHI-Labs/Convolutional-MLPs で公開されています。 Top recent #3 ● 目的：MLPが活躍できる場を改めて模索 ● 成果：MLP-Mixer等の先行研究より軽量で固定入力サイズの制約に縛られない、 MLPの部分的利用を提案 ● 方法：MLPとConvを組み合わせたブロックの積み重ねによるピラミッド階層構造 ● 固有名：ConvMLP ● 著者所属：オレゴン大学、イリノイ大学

Slide 28

Slide 28 text

ConvMLP: 視覚のための階層的畳み込みMLP (原文: ConvMLP: Hierarchical Convolutional MLPs for Vision) http://arxiv.org/abs/2109.04454v2 MLPは、多層パーセプトロンを連続して配置したアーキテクチャであり、最近では、畳み込みや変換を用いた手法と同等の結果が得られることがわかっています。しかし、ほとんどのMLPは固定次元の入力を受け付ける空間型MLPを採用しているため、物体検出やセマンティックセグメンテーションなどの下流のタスクに適用することは困難です。さらに、シングルステージの設計は、他のコンピュータビジョンタスクでの性能をさらに制限し、完全連結層は重い計算を必要とします。これらの問題に対処するために、我々はConvMLP: a hierarchical Convolutional MLP for visual recognitionを提案する。これは、畳み込み層とMLPを段階的に共同設計することで軽量化を図るものである。特に、ConvMLP-Sは、ImageNet-1kにおいて、9Mのパラメータと2.4GのMACを用いて、76.8%の top-1精度を達成しました（MLP-Mixer-B/16の15%と19%）。さらに、オブジェクト検出とセマンティックセグメンテーションの実験では、ConvMLPで学習した視覚表現をシームレスに移行し、より少ないパラメータで競争力のある結果を得ることができました。我々のコードと学習済みモデルは、https://github.com/SHI-Labs/Convolutional-MLPs で公開されています。 Top recent #3 ● 目的：MLPが活躍できる場を改めて模索 ● 成果：MLP-Mixer等の先行研究より軽量で固定入力サイズの制約に縛られない、 MLPの部分的利用を提案 ● 方法：MLPとConvを組み合わせたブロックの積み重ねによるピラミッド階層構造 ● 固有名：ConvMLP ● 著者所属：オレゴン大学、イリノイ大学 Pickup

Slide 39

Slide 39 text

プライマー：言語モデリングのための効率的なトランスフォーマーを求めて (原文: Primer: Searching for Efficient Transformers for Language Modeling) http://arxiv.org/abs/2109.08668v1 近年の自然言語処理では、大規模なトランスモデルが中心的な役割を果たしています。しかし、これらのモデルの学習・推論コストは急速に増大し、非常に高価なものとなっています。ここでは、より効率的な変種を探索することで、 Transformerのコストを削減することを目的としています。以前のアプローチと比較して、我々の検索は、 Transformer TensorFlowプログラムを定義するプリミティブに対して、より低いレベルで実行されます。その結果、自動回帰型言語モデリングのためのオリジナルの Transformerやその他の変形よりも学習コストが小さい Primerと名付けられたアーキテクチャを特定した。 Primerの改善は、ReLU活性化の二乗化と、自己注意における Q、K、Vの各投影の後に深さ方向の畳み込み層を追加するという、 2つの単純な修正に起因するものである。実験によると、PrimerがTransformerよりも優れている点は、計算規模が大きくなるにつれて増加し、最適なモデルサイズでは品質に関してべき乗則に従うことがわかった。また、 Primerを様々なコードベースに落とし込むことで、追加のチューニングなしにトレーニングを大幅に高速化できることを経験的に検証した。例えば、 500Mのパラメータサイズでは、 Primerは、C4自動回帰言語モデリングにおけるオリジナルの T5アーキテクチャを改善し、学習コストを 4倍に削減しました。さらに、学習コストが削減されたことで、目標とするワンショット性能を達成するために必要な計算量が大幅に減少しました。例えば、 GPT-3 XLと同様の1.9Bのパラメータ設定では、PrimerはTransformerと同じワンショット性能を得るために必要な学習計算量が 1/3になります。再現性を高めるために、モデルといくつかの比較結果を T5でオープンソース化しています。 Top recent #7 ● 目的：従来のトランスフォーマーより効率的な構造の探索 ● 成果：デコーダのみの自己回帰言語モデルにおける学習コスト削減、性能改善、推論コスト削減。 ● 方法：モデル探索と寄与要因分析。主に Squared ReLU と MDHA の追加が改善に寄与。 ● 固有名：Primer (PRIMitives searched transformER), Primer-EZ, MDHA (Multi-DConv-Head Attention) ● 著者所属：Google Research

Slide 61

Slide 61 text

プライマー：言語モデリングのための効率的なトランスフォーマーを求めて (原文: Primer: Searching for Efficient Transformers for Language Modeling) http://arxiv.org/abs/2109.08668v1 近年の自然言語処理では、大規模なトランスモデルが中心的な役割を果たしています。しかし、これらのモデルの学習・推論コストは急速に増大し、非常に高価なものとなっています。ここでは、より効率的な変種を探索することで、 Transformerのコストを削減することを目的としています。以前のアプローチと比較して、我々の検索は、 Transformer TensorFlowプログラムを定義するプリミティブに対して、より低いレベルで実行されます。その結果、自動回帰型言語モデリングのためのオリジナルの Transformerやその他の変形よりも学習コストが小さい Primerと名付けられたアーキテクチャを特定した。 Primerの改善は、ReLU活性化の二乗化と、自己注意における Q、K、Vの各投影の後に深さ方向の畳み込み層を追加するという、 2つの単純な修正に起因するものである。実験によると、PrimerがTransformerよりも優れている点は、計算規模が大きくなるにつれて増加し、最適なモデルサイズでは品質に関してべき乗則に従うことがわかった。また、 Primerを様々なコードベースに落とし込むことで、追加のチューニングなしにトレーニングを大幅に高速化できることを経験的に検証した。例えば、 500Mのパラメータサイズでは、 Primerは、C4自動回帰言語モデリングにおけるオリジナルの T5アーキテクチャを改善し、学習コストを 4倍に削減しました。さらに、学習コストが削減されたことで、目標とするワンショット性能を達成するために必要な計算量が大幅に減少しました。例えば、 GPT-3 XLと同様の1.9Bのパラメータ設定では、PrimerはTransformerと同じワンショット性能を得るために必要な学習計算量が 1/3になります。再現性を高めるために、モデルといくつかの比較結果を T5でオープンソース化しています。 Top hype #4 重複

Slide 62

Slide 62 text

機械学習の研究に込められた価値 (原文: The Values Encoded in Machine Learning Research) http://arxiv.org/abs/2106.15590v1 機械学習（ML）は現在、世の中に大きな影響を与えており、コミュニティや組織の活動に影響を与えることが多くなっています。そのため、この分野が価値中立的で普遍的に有益であるという漠然とした概念を疑い、この分野がどのような具体的な価値を推進しているのかを調査することが重要である。本論文では、主要な ML学会であるICMLとNeurIPSで発表された引用度の高いML論文100本を定量的・定性的に分析することで、この分野の価値を厳密に検証した。本論文では、論文の主な特徴に注釈を付け、その価値観を明らかにしています。すなわち、論文がどのようにプロジェクトの選択を正当化しているか、どのような側面を強調しているか、潜在的な負の影響を考慮しているか、所属機関や資金源などです。その結果、社会的なニーズは、プロジェクトの選択に言及されていたとしても、非常に緩やかなものであること、また、マイナスの影響を考慮することは非常に稀であることがわかりました。また、機械学習研究で重視されている 67の価値観を明らかにし、その中でも「性能」「一般化」「効率」「研究者の理解」「新規性」「過去の研究の蓄積」に基づいて論文が正当化され、評価されることが最も多いことを明らかにしました。私たちは、これらの価値がどのように運用されているかについて、広範なテキストの証拠と分析を示します。注目すべき点は、これらの価値観は、現在、中央集権を支持する前提や意味合いで定義・適用されていることです。最後に、これらの引用度の高い論文と、ハイテク企業やエリート大学との間には、ますます密接な関係があることがわかった。 Top hype #5 ● 目的：ML学会における論文評価の価値観や経済的後ろ盾の影響などを中立的に分析 ● 成果：重視されている価値観や巨大テック企業の影響度増加などを定量的・定性的にレポート ● 方法：二大学会で発表された被引用数の高い論文を分析 ● 固有名： ● 著者所属：UCD（アイルランド国立大学ダブリン校）、スタンフォード大学、ワシントン大学、カリフォルニア大学

Slide 67

Slide 67 text

一つの映像から多様な世代を生み出すことが可能に (原文: Diverse Generation from a Single Video Made Possible) http://arxiv.org/abs/2109.08591v1 ほとんどの先進的なビデオ生成・操作手法は、大量のビデオコレクションを使ってトレーニングを行います。そのため、学習するビデオダイナミクスの種類に制限があります。この限界を克服するために、最近、 1つのビデオで学習する GANが提案された。これらの手法は、多様なビデオダイナミクスに対してより柔軟に対応できるが、 1つの小さな入力ビデオに対して何日もかけて学習する必要があり、実用的ではない。本論文では、 1 つの自然な映像から映像を生成・操作するための、高速で実用的な手法を紹介します。この手法は、 Full-HDのビデオクリップにも数分で適用可能である。我々のアプローチは、最近の先進的なパッチ近傍ベースのアプローチにインスパイアされており、実行時間と視覚的品質の両方で単一画像GANを大幅に上回ることが示されました。ここでは、古典的な時空間パッチベースの手法を新しい生成的なビデオモデルとして鋳造することで、このアプローチを画像からビデオに一般化する。我々は、 1つのビデオに含まれる膨大な数の時空間パッチに効率的に対処するために、生成的な画像パッチ最近傍法を適応する。我々の手法は，単一ビデオの GANよりも，より現実的で高品質な結果を生成する（定量的・定性的評価により確認）．さらに、数日かかっていた実行時間が数秒に短縮されるなど、圧倒的に高速です。多様なビデオ生成以外にも、時空間ビデオリターゲティング、ビデオ構造アナロジー、条件付きビデオインペインティングなど、いくつかの挑戦的なビデオアプリケーションを実証しています。 Top hype #8 ● 目的：計算量の観点で実用的なビデオ生成手法 ● 成果：古典的な時空間パッチベースの手法をビデオ生成モデルに活用 ● 方法：GPNNの手法を画像から動画に一般化 ● 固有名：VGPNN (Video-Based Generative Patch Nearest Neighbors), WeightedPatchMatch ● 著者所属：ワイツマン科学研究所（イスラエル）

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text