AI最新論文読み会2021年10月

医療AI勉強会 AI最新論文読み会2021年10月 https://deeplearning-b.connpass.com/event/221384/ ㈱YEBIS.XYZ 橋本祥一

スピーカーの自己紹介橋本祥一（はしもとよしかず）株式会社YEBIS.XYZ 代表取締役主な仕事：起業家や研究者（未来を作る人）を技術面で手伝うスタンス：　❌ ディープラーニングの研究者　⭕ディープラーニングの研究成果を使わせてもらう人 Twitter:
@kamicup

Agenda • Arxiv Sanity (http://www.arxiv-sanity.com/) で過去１ヶ月の期間に人気だった論文を紹介（2021年9月25日時点の集計） ◦ 一番気になった論文の紹介 ◦
Top recent（お気に入り数）上位10本の Abstract ◦ Top hype（Twitter での言及数）上位10本の Abstract

DeepL翻訳を使用させていただいています。

Top recent 1. ∞-former: Infinite Memory Transformer 2. Finetuned Language
Models Are Zero-Shot Learners 3. ConvMLP: Hierarchical Convolutional MLPs for Vision 4. Panoptic SegFormer 5. An End-to-End Transformer Model for 3D Object Detection 6. Datasets: A Community Library for Natural Language Processing 7. Primer: Searching for Efficient Transformers for Language Modeling 8. Scaled ReLU Matters for Training Vision Transformers 9. An Empirical Study of Graph Contrastive Learning 10. Physics-based Deep Learning

Top hype 1. Eyes Tell All: Irregular Pupil Shapes Reveal
GAN-generated Faces 2. Datasets: A Community Library for Natural Language Processing 3. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning 4. Primer: Searching for Efficient Transformers for Language Modeling 5. The Values Encoded in Machine Learning Research 6. Finetuned Language Models Are Zero-Shot Learners 7. Multiplying Matrices Without Multiplying 8. Diverse Generation from a Single Video Made Possible 9. Relating Graph Neural Networks to Structural Causal Models 10. ConvMLP: Hierarchical Convolutional MLPs for Vision

Top recent 1. ∞-former: Infinite Memory Transformer 2. Finetuned Language
Models Are Zero-Shot Learners 3. ConvMLP: Hierarchical Convolutional MLPs for Vision ← ピックアップ 4. Panoptic SegFormer 5. An End-to-End Transformer Model for 3D Object Detection 6. Datasets: A Community Library for Natural Language Processing 7. Primer: Searching for Efficient Transformers for Language Modeling 8. Scaled ReLU Matters for Training Vision Transformers 9. An Empirical Study of Graph Contrastive Learning 10. Physics-based Deep Learning

Pickup!

ConvMLP: 視覚のための階層的畳み込みMLP (原文: ConvMLP: Hierarchical Convolutional MLPs for Vision) http://arxiv.org/abs/2109.04454v2
MLPは、多層パーセプトロンを連続して配置したアーキテクチャであり、最近では、畳み込みや変換を用いた手法と同等の結果が得られることがわかっています。しかし、ほとんどのMLPは固定次元の入力を受け付ける空間型MLPを採用しているため、物体検出やセマンティックセグメンテーションなどの下流のタスクに適用することは困難です。さらに、シングルステージの設計は、他のコンピュータビジョンタスクでの性能をさらに制限し、完全連結層は重い計算を必要とします。これらの問題に対処するために、我々はConvMLP: a hierarchical Convolutional MLP for visual recognitionを提案する。これは、畳み込み層とMLPを段階的に共同設計することで軽量化を図るものである。特に、ConvMLP-Sは、ImageNet-1kにおいて、9Mのパラメータと2.4GのMACを用いて、76.8%の top-1精度を達成しました（MLP-Mixer-B/16の15%と19%）。さらに、オブジェクト検出とセマンティックセグメンテーションの実験では、ConvMLPで学習した視覚表現をシームレスに移行し、より少ないパラメータで競争力のある結果を得ることができました。我々のコードと学習済みモデルは、https://github.com/SHI-Labs/Convolutional-MLPs で公開されています。 Top recent #3 • 目的：MLPが活躍できる場を改めて模索 • 成果：MLP-Mixer等の先行研究より軽量で固定入力サイズの制約に縛られない、 MLPの部分的利用を提案 • 方法：MLPとConvを組み合わせたブロックの積み重ねによるピラミッド階層構造 • 固有名：ConvMLP • 著者所属：オレゴン大学、イリノイ大学

ViP (Vision Permutator) ResMLP MLP-Mixer gMLP S^2-MLP

CycleMLP AS-MLP Hire-MLP

Top recent 1位 ~ 10位

∞-former：無限メモリー・トランスフォーマー（原文：∞-former: Infinite Memory Transformer） http://arxiv.org/abs/2109.00301v2 トランスフォーマーは長い文脈を扱う場合、文脈の長さに応じて計算量が増加するため、長期記憶を効果的にモデル化することができません。この問題を解決するためにいくつかのバリエーションが提案されてきたが、いずれも記憶容量に限界があり、古い情報を削除せざるを得ない。本論文では、 ∞-formerを提案する。これは、バニラ変換器を拡張し、
無制限の長期記憶を持つようにしたものである。本論文では、 ∞-formerを長期記憶を持つように拡張した。これにより、任意の長さの文脈をモデル化し、一定の計算量を維持しながら「粘着性のある記憶」を維持することが可能となる。合成ソートタスクの実験では、 ∞-former が長いシーケンスからの情報を保持する能力を実証しています。また、言語モデリングの実験では、ゼロからモデルを学習したり、事前に学習した言語モデルを微調整したりすることで、拘束力のない長期記憶の利点を示しています。 Top recent #1 • 目的：Transformer の扱う文脈の長さに依存する計算量の削減、既存の改善案に残る長さ制限の解決 • 成果：ソートタスクの精度と言語モデルの評価指標において、本手法の導入が有効であることを提示 • 方法：Continuous Attention を用いた無限長期記憶の追加 • 固有名：∞-former • 著者所属：Instituto de Telecomunicações （ポルトガルのリスボン大学系列の研究所） , DeepMind, 等

（以前の論文）Continuous Attention の提案と双方向LSTMへの適用による概念実証実験

任意の連続した信号を扱うために、連続的な注意メカニズムが提案されている。単語に対する注意の確率質量関数を、信号に対する確率密度に置き換えている。

情報理論では、確率分布や確率モデルがどの程度サンプルを予測しているかを測定する尺度を「パープレキシティ」と呼んでいる。確率モデルの比較に用いられることもあります。perplexityが低いと、その確率分布がサンプルを予測するのに適していることを示します。

ファインチューンされた言語モデルはゼロショット学習者 (原文: Finetuned Language Models Are Zero-Shot Learners) http://arxiv.org/abs/2109.01652v1 本稿では，言語モデルのゼロショット学習能力を向上
させるための簡単な方法を検討した．本論文では、言語モデルのゼロショット学習能力を向上させるための簡単な方法を検討し、命令チューニング（命令によって記述されたタスクの集合に対して言語モデルを微調整すること）によって、未知のタスクに対するゼロショット学習の性能が大幅に向上することを示す。 137Bのパラメータを持つ事前学習済みの言語モデルを用いて、自然言語の命令テンプレートを用いて言語化された 60以上のNLPタスクに対して命令チューニングを行った。 FLANと名づけたこの命令調整モデルを、見たことのないタスクタイプで評価した。 FLAN は、未修正のモデルの性能を大幅に向上させ、評価した 25のタスクのうち19のタスクでゼロショット175B GPT-3を上回りました。FLANは、ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA、StoryClozeなどのタスクでも、少数ショットの GPT-3を大差で上回りました。アブレーションの研究では、タスクの数とモデルの規模が命令チューニングの成功の重要な要素であることが明らかになった。 Top recent #2 • 目的：言語モデルのゼロショット学習能力向上 • 成果：未訓練の自然言語タスクにおいて高いゼロショット学習能力を実現するファインチューニングの手法 • 方法：Instruction tuning • 固有名：FLAN (Finetuned LAnguage Net) • 著者所属：Google Research

Tensorflow Datasets に含まれる 62のテキストデータセットと、別途用意した10パターンの命令テンプレートを元に、自然言語による命令チューニングセットを生成。

モデルサイズが小さい区間では性能が悪化した

MLPは、多層パーセプトロンを連続して配置したアーキテクチャであり、最近では、畳み込みや変換を用いた手法と同等の結果が得られることがわかっています。しかし、ほとんどのMLPは固定次元の入力を受け付ける空間型MLPを採用しているため、物体検出やセマンティックセグメンテーションなどの下流のタスクに適用することは困難です。さらに、シングルステージの設計は、他のコンピュータビジョンタスクでの性能をさらに制限し、完全連結層は重い計算を必要とします。これらの問題に対処するために、我々はConvMLP: a hierarchical Convolutional MLP for visual recognitionを提案する。これは、畳み込み層とMLPを段階的に共同設計することで軽量化を図るものである。特に、ConvMLP-Sは、ImageNet-1kにおいて、9Mのパラメータと2.4GのMACを用いて、76.8%の top-1精度を達成しました（MLP-Mixer-B/16の15%と19%）。さらに、オブジェクト検出とセマンティックセグメンテーションの実験では、ConvMLPで学習した視覚表現をシームレスに移行し、より少ないパラメータで競争力のある結果を得ることができました。我々のコードと学習済みモデルは、https://github.com/SHI-Labs/Convolutional-MLPs で公開されています。 Top recent #3 • 目的：MLPが活躍できる場を改めて模索 • 成果：MLP-Mixer等の先行研究より軽量で固定入力サイズの制約に縛られない、 MLPの部分的利用を提案 • 方法：MLPとConvを組み合わせたブロックの積み重ねによるピラミッド階層構造 • 固有名：ConvMLP • 著者所属：オレゴン大学、イリノイ大学 Pickup

総括的な SegFormer (原文: Panoptic SegFormer) http://arxiv.org/abs/2109.03814v2 トランスフォーマーを用いたエンドツーエンドのパノプティックセグメンテーションのための一般的なフレームワークである
Panoptic SegFormerを紹介します。提案手法は Deformable DETRを拡張し、モノとコトの両方に対して統一されたマスク予測ワークフローを提供することで、パンオプティックセグメンテーションのパイプラインを簡潔かつ効果的にする。 ResNet-50をバックボーンとした本手法は、 COCOテスト-開発版において50.0%のPQを達成し、これまでの最先端の手法を大幅に上回ることができました。さらに強力な PVTv2-B5バックボーンを用いることで、 Panoptic-SegFormerは、シングルスケールの入力で、COCO valとtest-devの分割において、54.1%PQと54.4%PQという新記録を達成しました。 Top recent #4 • 目的：パノプティックセグメンテーションのためのトランスフォーマーの設計模索 • 成果：既存手法を大幅に上回る精度 • 方法：Deformable DETR をベースに、Location Decoder と Mask Decoder のフローでマスクを予測 • 固有名：Panoptic SegFormer • 著者所属：南京大学、香港大学、 NVIDIA、カリフォルニア工科大学

3D物体検出のためのEnd-to-Endのトランスフォーマーモデル (原文: An End-to-End Transformer Model for 3D Object Detection)
http://arxiv.org/abs/2109.08141v1 我々は、3D点群のためのエンド・ツー・エンドのTransformerベースのオブジェクト検出モデルである3DETRを提案する。3Dに特化した多数の誘導バイアスを採用した既存の検出手法と比較して、3DETRはTransformerブロックに最小限の変更しか必要としない。具体的には、ノンパラメトリックなクエリとフーリエ位置埋め込みを備えた標準的なTransformerは、手作業で調整されたハイパーパラメータを備えた3D固有の演算子のライブラリを採用した特殊なアーキテクチャと競合することが分かった。しかし、3DETRは概念的にシンプルで実装が容易であり、3D領域の知識を取り入れることでさらなる改良が可能である。広範な実験により、3DETRは、難易度の高いScanNetV2データセットにおいて、定評があり高度に最適化されたVoteNetベースラインを9.5%上回ることが示された。さらに、 3DETRは検出以外の3Dタスクにも適用可能であり、将来の研究のためのビルディングブロックとして役立つことを示しています。 Top recent #5 • 目的：点群を扱うトランスフォーマーの基本構造としての提案 • 成果：3D物体検出のベンチマークで既存手法を大幅に上回る精度 • 方法：DETRに、点群のための変更を加える • 固有名：3DETR • 著者所属：Facebook AI Research

ハギングフェイスデータセット。自然言語処理のためのコミュニティライブラリ (原文: 🤗Datasets: A Community Library for Natural Language Processing)
http://arxiv.org/abs/2109.02846v1 研究者が新しいタスク、大規模なモデル、新しいベンチマークを提案するにつれ、一般に利用可能な NLPデータセットの規模、種類、量は急速に増加しています。 Datasets は、このエコシステムをサポートするために設計された、現代 NLP 用のコミュニティライブラリです。Datasets は、エンドユーザーインターフェイス、バージョン管理、およびドキュメントを標準化することを目的としています。また、インターネット規模のコーパスと同様に、小さなデータセットでも動作する軽量のフロントエンドを提供します。このライブラリの設計には、データセットの追加と使用方法の文書化のための、分散型のコミュニティ主導のアプローチが組み込まれています。1年の開発期間を経て，このライブラリには 650以上のユニークなデータセットが含まれており， 250人以上の貢献者がいます．このライブラリは， https://github.com/huggingface/datasets． Top recent #6 • 目的：研究者のためのNLPデータセットをライブラリとして整備 • 成果：PyPi に登録（pip install datasets） • 方法： • 固有名：🤗Datasets • 著者所属：

プライマー：言語モデリングのための効率的なトランスフォーマーを求めて (原文: Primer: Searching for Efficient Transformers for Language Modeling)
http://arxiv.org/abs/2109.08668v1 近年の自然言語処理では、大規模なトランスモデルが中心的な役割を果たしています。しかし、これらのモデルの学習・推論コストは急速に増大し、非常に高価なものとなっています。ここでは、より効率的な変種を探索することで、 Transformerのコストを削減することを目的としています。以前のアプローチと比較して、我々の検索は、 Transformer TensorFlowプログラムを定義するプリミティブに対して、より低いレベルで実行されます。その結果、自動回帰型言語モデリングのためのオリジナルの Transformerやその他の変形よりも学習コストが小さい Primerと名付けられたアーキテクチャを特定した。 Primerの改善は、ReLU活性化の二乗化と、自己注意における Q、K、Vの各投影の後に深さ方向の畳み込み層を追加するという、 2つの単純な修正に起因するものである。実験によると、PrimerがTransformerよりも優れている点は、計算規模が大きくなるにつれて増加し、最適なモデルサイズでは品質に関してべき乗則に従うことがわかった。また、 Primerを様々なコードベースに落とし込むことで、追加のチューニングなしにトレーニングを大幅に高速化できることを経験的に検証した。例えば、 500Mのパラメータサイズでは、 Primerは、C4自動回帰言語モデリングにおけるオリジナルの T5アーキテクチャを改善し、学習コストを 4倍に削減しました。さらに、学習コストが削減されたことで、目標とするワンショット性能を達成するために必要な計算量が大幅に減少しました。例えば、 GPT-3 XLと同様の1.9Bのパラメータ設定では、PrimerはTransformerと同じワンショット性能を得るために必要な学習計算量が 1/3になります。再現性を高めるために、モデルといくつかの比較結果を T5でオープンソース化しています。 Top recent #7 • 目的：従来のトランスフォーマーより効率的な構造の探索 • 成果：デコーダのみの自己回帰言語モデルにおける学習コスト削減、性能改善、推論コスト削減。 • 方法：モデル探索と寄与要因分析。主に Squared ReLU と MDHA の追加が改善に寄与。 • 固有名：Primer (PRIMitives searched transformER), Primer-EZ, MDHA (Multi-DConv-Head Attention) • 著者所属：Google Research

ビジョントランスフォーマーの学習にはReLUのスケーリングが重要 (原文: Scaled ReLU Matters for Training Vision Transformers) http://arxiv.org/abs/2109.03810v1
ヴィジョン・トランスフォーマー（ViTs）は、畳み込みニューラルネットワーク（CNNs）に代わる設計パラダイムとして注目されている。しかし、ViTsの学習はCNNに比べて非常に難しく、学習率、オプティマイザ、ウォームアップエポックなどの学習パラメータに影響されます。 ViTの学習が困難な理由は、ViTモデルの構造にあると考えられ、初期の畳み込みが変換器の性能を高めると提案しています。本論文では，この問題をさらに調査し，上記の結論を拡張した．つまり，初期の畳み込みだけでは安定した学習には役立たないが，convolutional stem におけるスケールドReLU演算が重要です。本研究では、conv-stemにおけるスケーリングされたReLU が、学習の安定性を向上させるだけでなく、パッチトークンの多様性を増加させ、少ないパラメータとフロップを追加するだけで、大きなマージンでピーク性能を向上させることを、理論的および経験的に検証する。さらに、大規模な実験を行い、これまでのViTが十分に訓練されているとは言い難いことを示し、ViTがCNNの代わりとなる大きな可能性を持っていることを示しています。 Top recent #8 • 目的：ViT の学習の困難さを改善する • 成果： • 方法：理論と実験 • 固有名： • 著者所属：Alibaba Group

・・・

グラフ対照学習の実証的な研究 (原文: An Empirical Study of Graph Contrastive Learning) http://arxiv.org/abs/2109.01116v1
Graph Contrastive Learning (GCL)は、人間がアノテーションを行わずにグラフ表現を学習する新しいパラダイムを確立します。近年、目覚ましい発展を遂げていますが、GCLの成功はまだ謎に包まれています。本研究では、まず、一般的なGCLパラダイムにおいて、増強関数、対比モード、対比目的、ネガティブマイニング技術など、いくつかの重要な設計上の検討事項を明らかにする。次に、様々なGCLコンポーネントの相互作用を理解するために、様々なドメインのデータセット上で、一連のベンチマークタスクに関する広範な制御実験を行う。その結果、効果的なGCLを実現するための一般的な手法が示唆された。例えば、疎なグラフビューを生成する単純なトポロジーの拡張は、有望な性能向上をもたらす。さらに、将来の研究を促進し、GCLアルゴリズムの実装を容易にするために、モジュール化されたCLコンポーネント、標準化された評価、および実験管理を特徴とする、使いやすいライブラリPyGCLを開発しました。本研究は、効果的なGCLアルゴリズムの経験的な証拠を提供し、将来の研究のためのいくつかの洞察を提供することを目的としています。 Top recent #9 • 目的：最近のGCL領域の研究における重要な要素を追証した実験報告（産物である PyGCLの言及も含め） • 成果： • 方法： • 固有名：PyGCL • 著者所属：中国科学院自動化研究所、中国科学院大学、北京郵電大学

物理ベースのディープラーニング (原文: Physics-based Deep Learning) http://arxiv.org/abs/2109.05237v1 このデジタルブックには、物理シミュレーションの文脈における深層学習に関連するすべてのことが、実践的かつ包括的に紹介されています。可能な限り、すべてのトピックに Jupyterノートブックの形でハンズオンのコード例が付いているので、すぐに始め
られます。データからの標準的な教師付き学習だけでなく、物理的な損失制約、微分可能なシミュレーションを用いたより緊密に結合した学習アルゴリズム、さらに強化学習や不確実性モデリングについても見ていきます。これらの手法は、コンピュータ・シミュレーションで実現できることを根本的に変える大きな可能性を秘めています。 Top recent #10 • 目的：220ページ、25チャプターに渡る「教科書」 • 成果： • 方法：このPDFとウェブサイトの形態で公開 • 固有名：PBDL • 著者所属：ドイツの研究者グループ（物理シミュレーション）

220ページ、25チャプターに渡る「教科書」

Top hype 1位 ~ 10位

瞳は全てを語る: 不規則な瞳孔の形がGANで生成された顔を明らかにする (原文: Eyes Tell All: Irregular Pupil Shapes Reveal
GAN-generated Faces) http://arxiv.org/abs/2109.00162v1 Generative Adversary Network（GAN）によって生成された高臨場感のある人間の顔は、ソーシャルメディアの偽アカウントのプロフィール画像として使用されており、視覚的に本物の顔と見分けることが難しい。本研究では、 GANによって生成された顔が、不規則な瞳孔の形状によって露呈することを示しています。この現象は、 GANモデルに生理学的な制約がないことが原因です。我々は、このようなアーチファクトが高品質の GAN生成顔に広く存在することを実証し、さらに、 GAN生成顔を露光するために、2つの目から瞳を抽出し、その形状を分析する自動手法を説明する。定性的、定量的な評価によると、我々の手法はシンプルであり、GANで生成された顔を区別するのに有効であることがわかった。 Top hype #1 • 目的：説明可能な判別アルゴリズム • 成果：提案指標によりStyleGan2の生成画像と自然画像をよく判別できることを示した • 方法：Dlibで切り出した瞳の画像から EyeCoolでマスク生成し、楕円との BIoUをとる • 固有名： • 著者所属：ニューヨーク州立大学、医療機器メーカー

データセット。自然言語処理のためのコミュニティライブラリ (原文: Datasets: A Community Library for Natural Language Processing)
http://arxiv.org/abs/2109.02846v1 研究者が新しいタスク、大規模なモデル、新しいベンチマークを提案するにつれ、一般に利用可能な NLPデータセットの規模、種類、量は急速に増加しています。 Datasets は、このエコシステムをサポートするために設計された、現代 NLP 用のコミュニティライブラリです。Datasets は、エンドユーザーインターフェイス、バージョン管理、およびドキュメントを標準化することを目的としています。また、インターネット規模のコーパスと同様に、小さなデータセットでも動作する軽量のフロントエンドを提供します。このライブラリの設計には、データセットの追加と使用方法の文書化のための、分散型のコミュニティ主導のアプローチが組み込まれています。1年の開発期間を経て，このライブラリには 650以上のユニークなデータセットが含まれており， 250人以上の貢献者がいます．このライブラリは， https://github.com/huggingface/datasets． Top hype #2 重複

アイザック・ジム：ロボット学習のための高性能な GPUベースの物理シミュレーション (原文: Isaac Gym: High Performance GPU-Based Physics Simulation
For Robot Learning) http://arxiv.org/abs/2108.10470v2 Isaac Gymは、様々なロボットタスクのポリシーを GPU上で直接学習するための、高性能な学習プラットフォームを提供します。物理シミュレーションとニューラルネットワークによるポリシー学習の両方が GPU上に存在し、物理バッファから PyTorchのテンソルに直接データを渡すことで、 CPUのボトルネックを一切介さずに通信を行います。これにより、 CPUベースのシミュレータとニューラルネットワーク用の GPUを使用する従来のRLトレーニングと比較して、1つのGPUで複雑なロボットタスクのトレーニング時間を2-3桁向上させることができます。結果とビデオは https://sites.google.com/view/isaacgym-nvidia に、isaac gymは https://developer.nvidia.com/isaac-gym にダウンロードできます。 Top hype #3 • 目的：ロボットタスクの学習時間短縮 • 成果：強化学習のための物理シミュレーション環境を研究者のために先行提供 • 方法：直接PyTorchテンソルを扱える物理シミュレータの抽象化 API • 固有名：Isaac Gym • 著者所属：NVIDIA

プライマー：言語モデリングのための効率的なトランスフォーマーを求めて (原文: Primer: Searching for Efficient Transformers for Language Modeling)
http://arxiv.org/abs/2109.08668v1 近年の自然言語処理では、大規模なトランスモデルが中心的な役割を果たしています。しかし、これらのモデルの学習・推論コストは急速に増大し、非常に高価なものとなっています。ここでは、より効率的な変種を探索することで、 Transformerのコストを削減することを目的としています。以前のアプローチと比較して、我々の検索は、 Transformer TensorFlowプログラムを定義するプリミティブに対して、より低いレベルで実行されます。その結果、自動回帰型言語モデリングのためのオリジナルの Transformerやその他の変形よりも学習コストが小さい Primerと名付けられたアーキテクチャを特定した。 Primerの改善は、ReLU活性化の二乗化と、自己注意における Q、K、Vの各投影の後に深さ方向の畳み込み層を追加するという、 2つの単純な修正に起因するものである。実験によると、PrimerがTransformerよりも優れている点は、計算規模が大きくなるにつれて増加し、最適なモデルサイズでは品質に関してべき乗則に従うことがわかった。また、 Primerを様々なコードベースに落とし込むことで、追加のチューニングなしにトレーニングを大幅に高速化できることを経験的に検証した。例えば、 500Mのパラメータサイズでは、 Primerは、C4自動回帰言語モデリングにおけるオリジナルの T5アーキテクチャを改善し、学習コストを 4倍に削減しました。さらに、学習コストが削減されたことで、目標とするワンショット性能を達成するために必要な計算量が大幅に減少しました。例えば、 GPT-3 XLと同様の1.9Bのパラメータ設定では、PrimerはTransformerと同じワンショット性能を得るために必要な学習計算量が 1/3になります。再現性を高めるために、モデルといくつかの比較結果を T5でオープンソース化しています。 Top hype #4 重複

機械学習の研究に込められた価値 (原文: The Values Encoded in Machine Learning Research) http://arxiv.org/abs/2106.15590v1
機械学習（ML）は現在、世の中に大きな影響を与えており、コミュニティや組織の活動に影響を与えることが多くなっています。そのため、この分野が価値中立的で普遍的に有益であるという漠然とした概念を疑い、この分野がどのような具体的な価値を推進しているのかを調査することが重要である。本論文では、主要な ML学会であるICMLとNeurIPSで発表された引用度の高いML論文100本を定量的・定性的に分析することで、この分野の価値を厳密に検証した。本論文では、論文の主な特徴に注釈を付け、その価値観を明らかにしています。すなわち、論文がどのようにプロジェクトの選択を正当化しているか、どのような側面を強調しているか、潜在的な負の影響を考慮しているか、所属機関や資金源などです。その結果、社会的なニーズは、プロジェクトの選択に言及されていたとしても、非常に緩やかなものであること、また、マイナスの影響を考慮することは非常に稀であることがわかりました。また、機械学習研究で重視されている 67の価値観を明らかにし、その中でも「性能」「一般化」「効率」「研究者の理解」「新規性」「過去の研究の蓄積」に基づいて論文が正当化され、評価されることが最も多いことを明らかにしました。私たちは、これらの価値がどのように運用されているかについて、広範なテキストの証拠と分析を示します。注目すべき点は、これらの価値観は、現在、中央集権を支持する前提や意味合いで定義・適用されていることです。最後に、これらの引用度の高い論文と、ハイテク企業やエリート大学との間には、ますます密接な関係があることがわかった。 Top hype #5 • 目的：ML学会における論文評価の価値観や経済的後ろ盾の影響などを中立的に分析 • 成果：重視されている価値観や巨大テック企業の影響度増加などを定量的・定性的にレポート • 方法：二大学会で発表された被引用数の高い論文を分析 • 固有名： • 著者所属：UCD（アイルランド国立大学ダブリン校）、スタンフォード大学、ワシントン大学、カリフォルニア大学

洗練された言語モデルはゼロショット・ラーナー (原文: Finetuned Language Models Are Zero-Shot Learners) http://arxiv.org/abs/2109.01652v1 本稿では，言語モデルのゼロショット学習能力を向上させるための簡単な方法を検討した．本論文では、言語モデルのゼロショット学習
能力を向上させるための簡単な方法を検討し、命令チューニング（命令によって記述されたタスクの集合に対して言語モデルを微調整すること）によって、未知のタスクに対するゼロショット学習の性能が大幅に向上することを示す。 137Bのパラメータを持つ事前学習済みの言語モデルを用いて、自然言語の命令テンプレートを用いて言語化された60以上のNLPタスクに対して命令チューニングを行った。FLANと名づけたこの命令調整モデルを、見たことのないタスクタイプで評価した。FLANは、未修正のモデルの性能を大幅に向上させ、評価した25のタスクのうち19のタスクでゼロショット175B GPT-3を上回りました。FLANは、ANLI、RTE、BoolQ、AI2-ARC、 OpenbookQA、StoryClozeなどのタスクでも、少数ショットのGPT-3を大差で上回りました。アブレーションの研究では、タスクの数とモデルの規模が命令チューニングの成功の重要な要素であることが明らかになった。 → 言語モデルの事前学習方法 FLAN を提案。複数の後続タスクにおける性能改善を示した。 Top hype #6 重複

掛け算のない行列の掛け算 (原文: Multiplying Matrices Without Multiplying) http://arxiv.org/abs/2106.10860v1 行列の乗算は、機械学習において最も基本的で計算量の多い操作の一つです。そのため、行列の乗算を効率的に近似するた
めの研究が盛んに行われています。本研究では、既存の手法を大幅に上回る、このタスクのための学習ベースのアルゴリズムを紹介します。様々な分野の数百の行列を用いた実験によると、正確な行列積よりも 100倍、現在の近似法よりも10倍高速に実行できることが分かりました。また、 1つの行列が事前に分かっている場合には、本手法は乗算加算がゼロで済むという興味深い特性を持っています。これらの結果は、ハッシュ化、平均化、バイトシャッフル（本手法の中核となる演算）の混合が、機械学習のためのより有望な構成要素となりうることを示唆しています。 Top hype #7 • 目的：性能に対する計算量の削減 • 成果：既存の近似手法に比べ 10倍、正確な積に比べ100倍の対性能効率を持つ手法の提案 • 方法：学習可能なハッシュ関数、精度を犠牲に高速な SIMD命令（バイトシャッフル、平均化）を使う • 固有名：MADDNESS • 著者所属：MITコンピュータ科学・人工知能研究所

一つの映像から多様な世代を生み出すことが可能に (原文: Diverse Generation from a Single Video Made Possible)
http://arxiv.org/abs/2109.08591v1 ほとんどの先進的なビデオ生成・操作手法は、大量のビデオコレクションを使ってトレーニングを行います。そのため、学習するビデオダイナミクスの種類に制限があります。この限界を克服するために、最近、 1つのビデオで学習する GANが提案された。これらの手法は、多様なビデオダイナミクスに対してより柔軟に対応できるが、 1つの小さな入力ビデオに対して何日もかけて学習する必要があり、実用的ではない。本論文では、 1 つの自然な映像から映像を生成・操作するための、高速で実用的な手法を紹介します。この手法は、 Full-HDのビデオクリップにも数分で適用可能である。我々のアプローチは、最近の先進的なパッチ近傍ベースのアプローチにインスパイアされており、実行時間と視覚的品質の両方で単一画像GANを大幅に上回ることが示されました。ここでは、古典的な時空間パッチベースの手法を新しい生成的なビデオモデルとして鋳造することで、このアプローチを画像からビデオに一般化する。我々は、 1つのビデオに含まれる膨大な数の時空間パッチに効率的に対処するために、生成的な画像パッチ最近傍法を適応する。我々の手法は，単一ビデオの GANよりも，より現実的で高品質な結果を生成する（定量的・定性的評価により確認）．さらに、数日かかっていた実行時間が数秒に短縮されるなど、圧倒的に高速です。多様なビデオ生成以外にも、時空間ビデオリターゲティング、ビデオ構造アナロジー、条件付きビデオインペインティングなど、いくつかの挑戦的なビデオアプリケーションを実証しています。 Top hype #8 • 目的：計算量の観点で実用的なビデオ生成手法 • 成果：古典的な時空間パッチベースの手法をビデオ生成モデルに活用 • 方法：GPNNの手法を画像から動画に一般化 • 固有名：VGPNN (Video-Based Generative Patch Nearest Neighbors), WeightedPatchMatch • 著者所属：ワイツマン科学研究所（イスラエル）

グラフニューラルネットワークと構造的因果モデルの関連付け (原文: Relating Graph Neural Networks to StructuralCausal Models) http://arxiv.org/abs/2109.04173v2
因果関係は、対象となる変数とその機構的な関係に関する情報を含む構造的な因果モデル（ SCM）の観点から記述することができます。対象となるプロセスの多くでは、基礎となる SCMは部分的にしか観測できないため、因果推論では公開されている情報を活用しようとします。グラフニューラルネットワーク (GNN)は、構造化された入力に対する普遍的な近似器として、因果学習の有力な候補となり、SCMとの緊密な統合を示唆している。この目的のために、我々は第一原理からの理論的分析を行い、 GNNとSCMの間の新しい関係を確立するとともに、一般的な神経 -因果モデルについての拡張的な見解を提供する。そして、 GNNに基づく因果推論のための新しいモデルクラスを確立し、因果効果の同定に必要かつ十分なものとします。さらに、シミュレーションや標準的なベンチマークを用いた実証実験により、理論的な証明を行う。 Top hype #9 • 目的：GNNに基づく因果推論 • 成果：実現可能性，表現力，識別可能性について理論的に示し、実験結果を提示 • 方法：理論的な導出とベンチマークに基づく実験 • 固有名：NCM-Type 2, iVGAE • 著者所属：ダルムシュタット工科大学、 DeepMind

MLPは、多層パーセプトロンを連続して配置したアーキテクチャであり、最近では、畳み込みや変換を用いた手法と同等の結果が得られることがわかっています。しかし、ほとんどのMLPは固定次元の入力を受け付ける空間型MLPを採用しているため、物体検出やセマンティックセグメンテーションなどの下流のタスクに適用することは困難です。さらに、シングルステージの設計は、他のコンピュータビジョンタスクでの性能をさらに制限し、完全連結層は重い計算を必要とします。これらの問題に対処するために、我々はConvMLP: a hierarchical Convolutional MLP for visual recognitionを提案する。これは、畳み込み層とMLPを段階的に共同設計することで軽量化を図るものである。特に、ConvMLP-Sは、ImageNet-1kにおいて、9Mのパラメータと2.4GのMACを用いて、76.8%の top-1精度を達成しました（MLP-Mixer-B/16の15%と19%）。さらに、オブジェクト検出とセマンティックセグメンテーションの実験では、ConvMLPで学習した視覚表現をシームレスに移行し、より少ないパラメータで競争力のある結果を得ることができました。我々のコードと学習済みモデルは、https://github.com/SHI-Labs/Convolutional-MLPs で公開されています。 Top hype #10 重複

おわり

AI最新論文読み会2021年10月

AI最新論文読み会2021年10月

More Decks by kamicup

Other Decks in Research

Featured

Transcript