Slide 1

Slide 1 text

医療AI勉強会 AI最新論文読み会2021年10月 https://deeplearning-b.connpass.com/event/221384/ ㈱YEBIS.XYZ 橋本祥一

Slide 2

Slide 2 text

スピーカーの自己紹介 橋本祥一(はしもとよしかず) 株式会社YEBIS.XYZ 代表取締役 主な仕事:起業家や研究者(未来を作る人)を技術面で手伝う スタンス:  ❌ ディープラーニングの研究者  ⭕ディープラーニングの研究成果を使わせてもらう人 Twitter: @kamicup

Slide 3

Slide 3 text

Agenda ● Arxiv Sanity (http://www.arxiv-sanity.com/) で過去1ヶ月の期間に人気だった論 文を紹介(2021年9月25日時点の集計) ○ 一番気になった論文の紹介 ○ Top recent(お気に入り数)上位10本の Abstract ○ Top hype(Twitter での言及数)上位10本の Abstract

Slide 4

Slide 4 text

DeepL翻訳を使用させてい ただいています。

Slide 5

Slide 5 text

Top recent 1. ∞-former: Infinite Memory Transformer 2. Finetuned Language Models Are Zero-Shot Learners 3. ConvMLP: Hierarchical Convolutional MLPs for Vision 4. Panoptic SegFormer 5. An End-to-End Transformer Model for 3D Object Detection 6. Datasets: A Community Library for Natural Language Processing 7. Primer: Searching for Efficient Transformers for Language Modeling 8. Scaled ReLU Matters for Training Vision Transformers 9. An Empirical Study of Graph Contrastive Learning 10. Physics-based Deep Learning

Slide 6

Slide 6 text

Top recent 1. ∞-former: Infinite Memory Transformer 2. Finetuned Language Models Are Zero-Shot Learners 3. ConvMLP: Hierarchical Convolutional MLPs for Vision 4. Panoptic SegFormer 5. An End-to-End Transformer Model for 3D Object Detection 6. Datasets: A Community Library for Natural Language Processing 7. Primer: Searching for Efficient Transformers for Language Modeling 8. Scaled ReLU Matters for Training Vision Transformers 9. An Empirical Study of Graph Contrastive Learning 10. Physics-based Deep Learning

Slide 7

Slide 7 text

Top hype 1. Eyes Tell All: Irregular Pupil Shapes Reveal GAN-generated Faces 2. Datasets: A Community Library for Natural Language Processing 3. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning 4. Primer: Searching for Efficient Transformers for Language Modeling 5. The Values Encoded in Machine Learning Research 6. Finetuned Language Models Are Zero-Shot Learners 7. Multiplying Matrices Without Multiplying 8. Diverse Generation from a Single Video Made Possible 9. Relating Graph Neural Networks to Structural Causal Models 10. ConvMLP: Hierarchical Convolutional MLPs for Vision

Slide 8

Slide 8 text

Top recent 1. ∞-former: Infinite Memory Transformer 2. Finetuned Language Models Are Zero-Shot Learners 3. ConvMLP: Hierarchical Convolutional MLPs for Vision ← ピックアップ 4. Panoptic SegFormer 5. An End-to-End Transformer Model for 3D Object Detection 6. Datasets: A Community Library for Natural Language Processing 7. Primer: Searching for Efficient Transformers for Language Modeling 8. Scaled ReLU Matters for Training Vision Transformers 9. An Empirical Study of Graph Contrastive Learning 10. Physics-based Deep Learning

Slide 9

Slide 9 text

Pickup!

Slide 10

Slide 10 text

ConvMLP: 視覚のための階層的畳み込みMLP (原文: ConvMLP: Hierarchical Convolutional MLPs for Vision) http://arxiv.org/abs/2109.04454v2 MLPは、多層パーセプトロンを連続して配置したアーキテクチャであり、最近では、畳み込みや変換を用いた手法と同等の結果が得ら れることがわかっています。しかし、ほとんどのMLPは固定次元の入力を受け付ける空間型MLPを採用しているため、物体検出やセマ ンティックセグメンテーションなどの下流のタスクに適用することは困難です。さらに、シングルステージの設計は、他のコンピュータビ ジョンタスクでの性能をさらに制限し、完全連結層は重い計算を必要とします。これらの問題に対処するために、我々はConvMLP: a hierarchical Convolutional MLP for visual recognitionを提案する。これは、畳み込み層とMLPを段階的に共同設計すること で軽量化を図るものである。特に、ConvMLP-Sは、ImageNet-1kにおいて、9Mのパラメータと2.4GのMACを用いて、76.8%の top-1精度を達成しました(MLP-Mixer-B/16の15%と19%)。さらに、オブジェクト検出とセマンティックセグメンテーションの実験で は、ConvMLPで学習した視覚表現をシームレスに移行し、より少ないパラメータで競争力のある結果を得ることができました。我々の コードと学習済みモデルは、https://github.com/SHI-Labs/Convolutional-MLPs で公開されています。 Top recent #3 ● 目的:MLPが活躍できる場を改めて模索 ● 成果:MLP-Mixer等の先行研究より軽量で固定入力サイズの制約に縛られない、 MLPの部分的利用を提案 ● 方法:MLPとConvを組み合わせたブロックの積み重ねによるピラミッド階層構造 ● 固有名:ConvMLP ● 著者所属:オレゴン大学、イリノイ大学

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

No content

Slide 14

Slide 14 text

ViP (Vision Permutator) ResMLP MLP-Mixer gMLP S^2-MLP

Slide 15

Slide 15 text

CycleMLP AS-MLP Hire-MLP

Slide 16

Slide 16 text

No content

Slide 17

Slide 17 text

Top recent 1位 ~ 10位

Slide 18

Slide 18 text

∞-former:無限メモリー・トランスフォーマー (原文:∞-former: Infinite Memory Transformer) http://arxiv.org/abs/2109.00301v2 トランスフォーマーは長い文脈を扱う場合、文脈の長さに応じて計算量が増加するため、長期記憶を効果的にモデル化すること ができません。この問題を解決するためにいくつかのバリエーションが提案されてきたが、いずれも記憶容量に限界があり、古 い情報を削除せざるを得ない。本論文では、 ∞-formerを提案する。これは、バニラ変換器を拡張し、 無制限の長期記憶を持 つようにしたものである。本論文では、 ∞-formerを長期記憶を持つように拡張した。これにより、任意の長さの文脈をモデル化 し、一定の計算量を維持しながら「粘着性のある記憶」を維持することが可能となる。合成ソートタスクの実験では、 ∞-former が長いシーケンスからの情報を保持する能力を実証しています。また、言語モデリングの実験では、ゼロからモデルを学習した り、事前に学習した言語モデルを微調整したりすることで、拘束力のない長期記憶の利点を示しています。 Top recent #1 ● 目的:Transformer の扱う文脈の長さに依存する計算量の削減、既存の改善案に残る長さ制限の解決 ● 成果:ソートタスクの精度と言語モデルの評価指標において、本手法の導入が有効であることを提示 ● 方法:Continuous Attention を用いた無限長期記憶の追加 ● 固有名:∞-former ● 著者所属:Instituto de Telecomunicações (ポルトガルのリスボン大学系列の研究所) , DeepMind, 等

Slide 19

Slide 19 text

No content

Slide 20

Slide 20 text

(以前の論文)Continuous Attention の提案と双方向LSTMへの適用による概念実証実験

Slide 21

Slide 21 text

任意の連続した信号を扱うために、連続的な注意メカニズムが提案されている。単語に 対する注意の確率質量関数を、信号に対する確率密度に置き換えている。

Slide 22

Slide 22 text

情報理論では、確率分布や確率モデルがどの程度サンプ ルを予測しているかを測定する尺度を「パープレキシティ」と 呼んでいる。確率モデルの比較に用いられることもありま す。perplexityが低いと、その確率分布がサンプルを予測す るのに適していることを示します。

Slide 23

Slide 23 text

ファインチューンされた言語モデルはゼロショット学習者 (原文: Finetuned Language Models Are Zero-Shot Learners) http://arxiv.org/abs/2109.01652v1 本稿では,言語モデルのゼロショット学習能力を向上 させるための簡単な方法を検討した.本論文では、言語モデルのゼロ ショット学習能力を向上させるための簡単な方法を検討し、 命令チューニング(命令によって記述されたタスクの集合に対して言 語モデルを微調整すること)によって、未知のタスクに対するゼロショット学習の性能が大幅に向上することを示す。 137Bの パラメータを持つ事前学習済みの言語モデルを用いて、自然言語の命令テンプレートを用いて言語化された 60以上のNLPタス クに対して命令チューニングを行った。 FLANと名づけたこの命令調整モデルを、見たことのないタスクタイプで評価した。 FLAN は、未修正のモデルの性能を大幅に向上させ、評価した 25のタスクのうち19のタスクでゼロショット175B GPT-3を上回りまし た。FLANは、ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA、StoryClozeなどのタスクでも、少数ショットの GPT-3を大差 で上回りました。アブレーションの研究では、タスクの数とモデルの規模が命令チューニングの成功の重要な要素であることが 明らかになった。 Top recent #2 ● 目的:言語モデルのゼロショット学習能力向上 ● 成果:未訓練の自然言語タスクにおいて高いゼロショット学習能力を実現するファインチューニングの手法 ● 方法:Instruction tuning ● 固有名:FLAN (Finetuned LAnguage Net) ● 著者所属:Google Research

Slide 24

Slide 24 text

No content

Slide 25

Slide 25 text

Tensorflow Datasets に含まれる 62のテキストデータセットと、別途 用意した10パターンの命令テンプ レートを元に、自然言語による命 令チューニングセットを生成。

Slide 26

Slide 26 text

No content

Slide 27

Slide 27 text

モデルサイズが小さい区間では 性能が悪化した

Slide 28

Slide 28 text

ConvMLP: 視覚のための階層的畳み込みMLP (原文: ConvMLP: Hierarchical Convolutional MLPs for Vision) http://arxiv.org/abs/2109.04454v2 MLPは、多層パーセプトロンを連続して配置したアーキテクチャであり、最近では、畳み込みや変換を用いた手法と同等の結果が得ら れることがわかっています。しかし、ほとんどのMLPは固定次元の入力を受け付ける空間型MLPを採用しているため、物体検出やセマ ンティックセグメンテーションなどの下流のタスクに適用することは困難です。さらに、シングルステージの設計は、他のコンピュータビ ジョンタスクでの性能をさらに制限し、完全連結層は重い計算を必要とします。これらの問題に対処するために、我々はConvMLP: a hierarchical Convolutional MLP for visual recognitionを提案する。これは、畳み込み層とMLPを段階的に共同設計すること で軽量化を図るものである。特に、ConvMLP-Sは、ImageNet-1kにおいて、9Mのパラメータと2.4GのMACを用いて、76.8%の top-1精度を達成しました(MLP-Mixer-B/16の15%と19%)。さらに、オブジェクト検出とセマンティックセグメンテーションの実験で は、ConvMLPで学習した視覚表現をシームレスに移行し、より少ないパラメータで競争力のある結果を得ることができました。我々の コードと学習済みモデルは、https://github.com/SHI-Labs/Convolutional-MLPs で公開されています。 Top recent #3 ● 目的:MLPが活躍できる場を改めて模索 ● 成果:MLP-Mixer等の先行研究より軽量で固定入力サイズの制約に縛られない、 MLPの部分的利用を提案 ● 方法:MLPとConvを組み合わせたブロックの積み重ねによるピラミッド階層構造 ● 固有名:ConvMLP ● 著者所属:オレゴン大学、イリノイ大学 Pickup

Slide 29

Slide 29 text

総括的な SegFormer (原文: Panoptic SegFormer) http://arxiv.org/abs/2109.03814v2 トランスフォーマーを用いたエンドツーエンドの パノプティックセグメンテーションのための 一般的なフレームワークであ る Panoptic SegFormerを紹介します。提案手法は Deformable DETRを拡張し、モノとコトの両方に対して統一されたマ スク予測ワークフローを提供することで、パンオプティックセグメンテーションのパイプラインを簡潔かつ効果的にする。 ResNet-50をバックボーンとした本手法は、 COCOテスト-開発版において50.0%のPQを達成し、これまでの最先端の手法を 大幅に上回ることができました。さらに強力な PVTv2-B5バックボーンを用いることで、 Panoptic-SegFormerは、シングルス ケールの入力で、COCO valとtest-devの分割において、54.1%PQと54.4%PQという新記録を達成しました。 Top recent #4 ● 目的:パノプティックセグメンテーションのためのトランスフォーマーの設計模索 ● 成果:既存手法を大幅に上回る精度 ● 方法:Deformable DETR をベースに、Location Decoder と Mask Decoder のフローでマスクを予測 ● 固有名:Panoptic SegFormer ● 著者所属:南京大学、香港大学、 NVIDIA、カリフォルニア工科大学

Slide 30

Slide 30 text

No content

Slide 31

Slide 31 text

No content

Slide 32

Slide 32 text

No content

Slide 33

Slide 33 text

3D物体検出のためのEnd-to-Endのトランスフォーマーモデル (原文: An End-to-End Transformer Model for 3D Object Detection) http://arxiv.org/abs/2109.08141v1 我々は、3D点群のためのエンド・ツー・エンドのTransformerベースのオブジェクト検出モデルである3DETRを提案する。3Dに特化 した多数の誘導バイアスを採用した既存の検出手法と比較して、3DETRはTransformerブロックに最小限の変更しか必要としない。 具体的には、ノンパラメトリックなクエリとフーリエ位置埋め込みを備えた標準的なTransformerは、手作業で調整されたハイパーパラ メータを備えた3D固有の演算子のライブラリを採用した特殊なアーキテクチャと競合することが分かった。しかし、3DETRは概念的にシ ンプルで実装が容易であり、3D領域の知識を取り入れることでさらなる改良が可能である。広範な実験により、3DETRは、難易度の高 いScanNetV2データセットにおいて、定評があり高度に最適化されたVoteNetベースラインを9.5%上回ることが示された。さらに、 3DETRは検出以外の3Dタスクにも適用可能であり、将来の研究のためのビルディングブロックとして役立つことを示しています。 Top recent #5 ● 目的:点群を扱うトランスフォーマーの基本構造としての提案 ● 成果:3D物体検出のベンチマークで既存手法を大幅に上回る精度 ● 方法:DETRに、点群のための変更を加える ● 固有名:3DETR ● 著者所属:Facebook AI Research

Slide 34

Slide 34 text

No content

Slide 35

Slide 35 text

No content

Slide 36

Slide 36 text

ハギングフェイスデータセット。自然言語処理のためのコミュニティライブラリ (原文: 🤗Datasets: A Community Library for Natural Language Processing) http://arxiv.org/abs/2109.02846v1 研究者が新しいタスク、大規模なモデル、新しいベンチマークを提案するにつれ、一般に利用可能な NLPデータセットの規模、 種類、量は急速に増加しています。 Datasets は、このエコシステムをサポートするために設計された、 現代 NLP 用のコミュ ニティ ライブラリです。Datasets は、エンドユーザー インターフェイス、バージョン管理、およびドキュメントを標準化することを 目的としています。また、インターネット規模のコーパスと同様に、小さなデータセットでも動作する軽量のフロントエンドを提供し ます。このライブラリの設計には、データセットの追加と使用方法の文書化のための、分散型のコミュニティ主導のアプローチが 組み込まれています。1年の開発期間を経て,このライブラリには 650以上のユニークなデータセットが含まれており, 250人以 上の貢献者がいます.このライブラリは, https://github.com/huggingface/datasets. Top recent #6 ● 目的:研究者のためのNLPデータセットをライブラリとして整備 ● 成果:PyPi に登録(pip install datasets) ● 方法: ● 固有名:🤗Datasets ● 著者所属:

Slide 37

Slide 37 text

No content

Slide 38

Slide 38 text

No content

Slide 39

Slide 39 text

プライマー:言語モデリングのための効率的なトランスフォーマーを求めて (原文: Primer: Searching for Efficient Transformers for Language Modeling) http://arxiv.org/abs/2109.08668v1 近年の自然言語処理では、大規模なトランスモデルが中心的な役割を果たしています。しかし、これらのモデルの学習・推論コストは急速に増大 し、非常に高価なものとなっています。ここでは、より効率的な変種を探索することで、 Transformerのコストを削減することを目的としています。 以前のアプローチと比較して、我々の検索は、 Transformer TensorFlowプログラムを定義するプリミティブに対して、より低いレベルで実行さ れます。その結果、自動回帰型言語モデリングのためのオリジナルの Transformerやその他の変形よりも学習コストが小さい Primerと名付け られたアーキテクチャを特定した。 Primerの改善は、ReLU活性化の二乗化と、自己注意における Q、K、Vの各投影の後に深さ方向の畳み込 み層を追加するという、 2つの単純な修正に起因するものである。 実験によると、PrimerがTransformerよりも優れている点は、計算規模が 大きくなるにつれて増加し、最適なモデルサイズでは品質に関してべき乗則に従うことがわかった。また、 Primerを様々なコードベースに落とし 込むことで、追加のチューニングなしにトレーニングを大幅に高速化できることを経験的に検証した。例えば、 500Mのパラメータサイズでは、 Primerは、C4自動回帰言語モデリングにおけるオリジナルの T5アーキテクチャを改善し、学習コストを 4倍に削減しました。さらに、学習コストが 削減されたことで、目標とするワンショット性能を達成するために必要な計算量が大幅に減少しました。例えば、 GPT-3 XLと同様の1.9Bのパラ メータ設定では、PrimerはTransformerと同じワンショット性能を得るために必要な学習計算量が 1/3になります。再現性を高めるために、モデ ルといくつかの比較結果を T5でオープンソース化しています。 Top recent #7 ● 目的:従来のトランスフォーマーより効率的な構造の探索 ● 成果:デコーダのみの自己回帰言語モデルにおける学習コスト削減、性能改善、推論コスト削減。 ● 方法:モデル探索と寄与要因分析。主に Squared ReLU と MDHA の追加が改善に寄与。 ● 固有名:Primer (PRIMitives searched transformER), Primer-EZ, MDHA (Multi-DConv-Head Attention) ● 著者所属:Google Research

Slide 40

Slide 40 text

No content

Slide 41

Slide 41 text

No content

Slide 42

Slide 42 text

No content

Slide 43

Slide 43 text

ビジョントランスフォーマーの学習にはReLUのスケーリングが重要 (原文: Scaled ReLU Matters for Training Vision Transformers) http://arxiv.org/abs/2109.03810v1 ヴィジョン・トランスフォーマー(ViTs)は、畳み込みニューラルネットワーク(CNNs)に代わる設計パラダイムとして注目されている。しか し、ViTsの学習はCNNに比べて非常に難しく、学習率、オプティマイザ、ウォームアップエポックなどの学習パラメータに影響されます。 ViTの学習が困難な理由は、ViTモデルの構造にあると考えられ、初期の畳み込みが変換器の性能を高めると提案しています。本論文 では,この問題をさらに調査し,上記の結論を拡張した.つまり,初期の畳み込みだけでは安定した学習には役立たないが ,convolutional stem におけるスケールドReLU演算が重要です。本研究では、conv-stemにおけるスケーリングされたReLU が、学習の安定性を向上させるだけでなく、パッチトークンの多様性を増加させ、少ないパラメータとフロップを追加するだけで、大きな マージンでピーク性能を向上させることを、理論的および経験的に検証する。さらに、大規模な実験を行い、これまでのViTが十分に訓 練されているとは言い難いことを示し、ViTがCNNの代わりとなる大きな可能性を持っていることを示しています。 Top recent #8 ● 目的:ViT の学習の困難さを改善する ● 成果: ● 方法:理論と実験 ● 固有名: ● 著者所属:Alibaba Group

Slide 44

Slide 44 text

No content

Slide 45

Slide 45 text

No content

Slide 46

Slide 46 text

・・・

Slide 47

Slide 47 text

No content

Slide 48

Slide 48 text

グラフ対照学習の実証的な研究 (原文: An Empirical Study of Graph Contrastive Learning) http://arxiv.org/abs/2109.01116v1 Graph Contrastive Learning (GCL)は、人間がアノテーションを行わずにグラフ表現を学習する新しいパラダイムを確立します。近 年、目覚ましい発展を遂げていますが、GCLの成功はまだ謎に包まれています。本研究では、まず、一般的なGCLパラダイムにおい て、増強関数、対比モード、対比目的、ネガティブマイニング技術など、いくつかの重要な設計上の検討事項を明らかにする。次に、 様々なGCLコンポーネントの相互作用を理解するために、様々なドメインのデータセット上で、一連のベンチマークタスクに関する広範な 制御実験を行う。その結果、効果的なGCLを実現するための一般的な手法が示唆された。例えば、疎なグラフビューを生成する単純な トポロジーの拡張は、有望な性能向上をもたらす。さらに、将来の研究を促進し、GCLアルゴリズムの実装を容易にするために、モ ジュール化されたCLコンポーネント、標準化された評価、および実験管理を特徴とする、使いやすいライブラリPyGCLを開発しました。 本研究は、効果的なGCLアルゴリズムの経験的な証拠を提供し、将来の研究のためのいくつかの洞察を提供することを目的としていま す。 Top recent #9 ● 目的:最近のGCL領域の研究における重要な要素を追証した実験報告(産物である PyGCLの言及も含め) ● 成果: ● 方法: ● 固有名:PyGCL ● 著者所属:中国科学院自動化研究所、中国科学院大学、北京郵電大学

Slide 49

Slide 49 text

No content

Slide 50

Slide 50 text

物理ベースのディープラーニング (原文: Physics-based Deep Learning) http://arxiv.org/abs/2109.05237v1 このデジタルブックには、物理シミュレーションの文脈 における深層学習に関連するすべてのことが、実践的かつ包括的に紹介 されています。可能な限り、すべてのトピックに Jupyterノートブックの形でハンズオンのコード例が付いているので、すぐに始め られます。データからの標準的な教師付き学習だけでなく、物理的な損失制約、微分可能なシミュレーションを用いたより緊密に 結合した学習アルゴリズム、さらに強化学習や不確実性モデリングについても見ていきます。これらの手法は、コンピュータ・シ ミュレーションで実現できることを根本的に変える大きな可能性を秘めています。 Top recent #10 ● 目的:220ページ、25チャプターに渡る「教科書」 ● 成果: ● 方法:このPDFとウェブサイトの形態で公開 ● 固有名:PBDL ● 著者所属:ドイツの研究者グループ(物理シミュレーション)

Slide 51

Slide 51 text

No content

Slide 52

Slide 52 text

220ページ、25チャプターに渡る「教科書」

Slide 53

Slide 53 text

Top hype 1位 ~ 10位

Slide 54

Slide 54 text

瞳は全てを語る: 不規則な瞳孔の形がGANで生成された顔を明らかにする (原文: Eyes Tell All: Irregular Pupil Shapes Reveal GAN-generated Faces) http://arxiv.org/abs/2109.00162v1 Generative Adversary Network(GAN)によって生成された高臨場感のある人間の顔は、ソーシャルメディアの偽アカウン トのプロフィール画像として使用されており、視覚的に本物の顔と見分けることが難しい。本研究では、 GANによって生成された 顔が、不規則な瞳孔の形状によって露呈することを示しています。この現象は、 GANモデルに生理学的な制約がないことが原 因です。我々は、このようなアーチファクトが高品質の GAN生成顔に広く存在することを実証し、さらに、 GAN生成顔を露光す るために、2つの目から瞳を抽出し、その形状を分析する自動手法 を説明する。定性的、定量的な評価によると、我々の手法は シンプルであり、GANで生成された顔を区別するのに有効 であることがわかった。 Top hype #1 ● 目的:説明可能な判別アルゴリズム ● 成果:提案指標によりStyleGan2の生成画像と自然画像をよく判別できることを示した ● 方法:Dlibで切り出した瞳の画像から EyeCoolでマスク生成し、楕円との BIoUをとる ● 固有名: ● 著者所属:ニューヨーク州立大学、医療機器メーカー

Slide 55

Slide 55 text

No content

Slide 56

Slide 56 text

データセット。自然言語処理のためのコミュニティライブラリ (原文: Datasets: A Community Library for Natural Language Processing) http://arxiv.org/abs/2109.02846v1 研究者が新しいタスク、大規模なモデル、新しいベンチマークを提案するにつれ、一般に利用可能な NLPデータセットの規模、 種類、量は急速に増加しています。 Datasets は、このエコシステムをサポートするために設計された、現代 NLP 用のコミュニ ティ ライブラリです。Datasets は、エンドユーザー インターフェイス、バージョン管理、およびドキュメントを標準化することを目 的としています。また、インターネット規模のコーパスと同様に、小さなデータセットでも動作する軽量のフロントエンドを提供しま す。このライブラリの設計には、データセットの追加と使用方法の文書化のための、分散型のコミュニティ主導のアプローチが組 み込まれています。1年の開発期間を経て,このライブラリには 650以上のユニークなデータセットが含まれており, 250人以上 の貢献者がいます.このライブラリは, https://github.com/huggingface/datasets. Top hype #2 重複

Slide 57

Slide 57 text

アイザック・ジム:ロボット学習のための高性能な GPUベースの物理シミュレーション (原文: Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning) http://arxiv.org/abs/2108.10470v2 Isaac Gymは、様々なロボットタスクのポリシーを GPU上で直接学習するための、高性能な学習プラットフォームを提供しま す。物理シミュレーションとニューラルネットワークによるポリシー学習の両方が GPU上に存在し、物理バッファから PyTorchの テンソルに直接データを渡すことで、 CPUのボトルネックを一切介さずに通信を行います。これにより、 CPUベースのシミュレー タとニューラルネットワーク用の GPUを使用する従来のRLトレーニングと比較して、1つのGPUで複雑なロボットタスクのトレー ニング時間を2-3桁向上させることができます。結果とビデオは https://sites.google.com/view/isaacgym-nvidia に、isaac gymは https://developer.nvidia.com/isaac-gym にダウンロードできます。 Top hype #3 ● 目的:ロボットタスクの学習時間短縮 ● 成果:強化学習のための物理シミュレーション環境を研究者のために先行提供 ● 方法:直接PyTorchテンソルを扱える物理シミュレータの抽象化 API ● 固有名:Isaac Gym ● 著者所属:NVIDIA

Slide 58

Slide 58 text

No content

Slide 59

Slide 59 text

No content

Slide 60

Slide 60 text

No content

Slide 61

Slide 61 text

プライマー:言語モデリングのための効率的なトランスフォーマーを求めて (原文: Primer: Searching for Efficient Transformers for Language Modeling) http://arxiv.org/abs/2109.08668v1 近年の自然言語処理では、大規模なトランスモデルが中心的な役割を果たしています。しかし、これらのモデルの学習・推論コストは急速に増大 し、非常に高価なものとなっています。ここでは、より効率的な変種を探索することで、 Transformerのコストを削減することを目的としています。 以前のアプローチと比較して、我々の検索は、 Transformer TensorFlowプログラムを定義するプリミティブに対して、より低いレベルで実行さ れます。その結果、自動回帰型言語モデリングのためのオリジナルの Transformerやその他の変形よりも学習コストが小さい Primerと名付け られたアーキテクチャを特定した。 Primerの改善は、ReLU活性化の二乗化と、自己注意における Q、K、Vの各投影の後に深さ方向の畳み込 み層を追加するという、 2つの単純な修正に起因するものである。 実験によると、PrimerがTransformerよりも優れている点は、計算規模が 大きくなるにつれて増加し、最適なモデルサイズでは品質に関してべき乗則に従うことがわかった。また、 Primerを様々なコードベースに落とし 込むことで、追加のチューニングなしにトレーニングを大幅に高速化できることを経験的に検証した。例えば、 500Mのパラメータサイズでは、 Primerは、C4自動回帰言語モデリングにおけるオリジナルの T5アーキテクチャを改善し、学習コストを 4倍に削減しました。さらに、学習コストが 削減されたことで、目標とするワンショット性能を達成するために必要な計算量が大幅に減少しました。例えば、 GPT-3 XLと同様の1.9Bのパラ メータ設定では、PrimerはTransformerと同じワンショット性能を得るために必要な学習計算量が 1/3になります。再現性を高めるために、モデ ルといくつかの比較結果を T5でオープンソース化しています。 Top hype #4 重複

Slide 62

Slide 62 text

機械学習の研究に込められた価値 (原文: The Values Encoded in Machine Learning Research) http://arxiv.org/abs/2106.15590v1 機械学習(ML)は現在、世の中に大きな影響を与えており、コミュニティや組織の活動に影響を与えることが多くなっています。そのため、この分野が価値中立的で普 遍的に有益であるという漠然とした概念を疑い、この分野がどのような具体的な価値を推進しているのかを調査することが重要である。本論文では、主要な ML学会で あるICMLとNeurIPSで発表された引用度の高いML論文100本を定量的・定性的に分析 することで、この分野の価値を厳密に検証した。本論文では、論文の主な 特徴に注釈を付け、その価値観を明らかにしています。すなわち、論文がどのようにプロジェクトの選択を正当化しているか、どのような側面を強調しているか、潜在的 な負の影響を考慮しているか、所属機関や資金源などです。その結果、社会的なニーズは、プロジェクトの選択に言及されていたとしても、非常に緩やかなものである こと、また、マイナスの影響を考慮することは非常に稀であることがわかりました。また、機械学習研究で重視されている 67の価値観を明らかにし、その中でも「性能」 「一般化」「効率」「研究者の理解」「新規性」「過去の研究の蓄積」に基づいて論文が正当化され、評価されることが最も多いことを明らかにしました。私たちは、これら の価値がどのように運用されているかについて、広範なテキストの証拠と分析を示します。注目すべき点は、これらの価値観は、現在、中央集権を支持する前提や意 味合いで定義・適用されていることです。最後に、これらの引用度の高い論文と、ハイテク企業やエリート大学との間には、ますます密接な関係があることがわかった。 Top hype #5 ● 目的:ML学会における論文評価の価値観や経済的後ろ盾の影響などを中立的に分析 ● 成果:重視されている価値観や巨大テック企業の影響度増加などを定量的・定性的にレポート ● 方法:二大学会で発表された被引用数の高い論文を分析 ● 固有名: ● 著者所属:UCD(アイルランド国立大学ダブリン校)、スタンフォード大学、ワシントン大学、カリフォルニア大学

Slide 63

Slide 63 text

No content

Slide 64

Slide 64 text

洗練された言語モデルはゼロショット・ラーナー (原文: Finetuned Language Models Are Zero-Shot Learners) http://arxiv.org/abs/2109.01652v1 本稿では,言語モデルのゼロショット学習能力を向上させるための簡単な方法を検討した.本論文では、言語モデルのゼロショット学習 能力を向上させるための簡単な方法を検討し、命令チューニング(命令によって記述されたタスクの集合に対して言語モデルを微調整 すること)によって、未知のタスクに対するゼロショット学習の性能が大幅に向上することを示す。 137Bのパラメータを持つ事前学習 済みの言語モデルを用いて、自然言語の命令テンプレートを用いて言語化された60以上のNLPタスクに対して命令チューニングを行っ た。FLANと名づけたこの命令調整モデルを、見たことのないタスクタイプで評価した。FLANは、未修正のモデルの性能を大幅に向上 させ、評価した25のタスクのうち19のタスクでゼロショット175B GPT-3を上回りました。FLANは、ANLI、RTE、BoolQ、AI2-ARC、 OpenbookQA、StoryClozeなどのタスクでも、少数ショットのGPT-3を大差で上回りました。アブレーションの研究では、タスクの数と モデルの規模が命令チューニングの成功の重要な要素であることが明らかになった。 → 言語モデルの事前学習方法 FLAN を提案。複数の後続タスクにおける性能改善を示した。 Top hype #6 重複

Slide 65

Slide 65 text

掛け算のない行列の掛け算 (原文: Multiplying Matrices Without Multiplying) http://arxiv.org/abs/2106.10860v1 行列の乗算は、機械学習において最も基本的で計算量の多い操作の一つです。そのため、 行列の乗算を効率的に近似 するた めの研究が盛んに行われています。本研究では、既存の手法を大幅に上回る、このタスクのための 学習ベースのアルゴリズム を紹介します。様々な分野の数百の行列を用いた実験によると、正確な行列積よりも 100倍、現在の近似法よりも10倍高速に 実行できることが分かりました。また、 1つの行列が事前に分かっている場合には、本手法は乗算加算がゼロで済むという興味 深い特性を持っています。これらの結果は、ハッシュ化、平均化、バイトシャッフル(本手法の中核となる演算)の混合が、機械学 習のためのより有望な構成要素となりうることを示唆しています。 Top hype #7 ● 目的:性能に対する計算量の削減 ● 成果:既存の近似手法に比べ 10倍、正確な積に比べ100倍の対性能効率を持つ手法の提案 ● 方法:学習可能なハッシュ関数、精度を犠牲に高速な SIMD命令(バイトシャッフル、平均化)を使う ● 固有名:MADDNESS ● 著者所属:MITコンピュータ科学・人工知能研究所

Slide 66

Slide 66 text

No content

Slide 67

Slide 67 text

一つの映像から多様な世代を生み出すことが可能に (原文: Diverse Generation from a Single Video Made Possible) http://arxiv.org/abs/2109.08591v1 ほとんどの先進的なビデオ生成・操作手法は、大量のビデオコレクションを使ってトレーニングを行います。そのため、学習するビデオダイナミク スの種類に制限があります。この限界を克服するために、最近、 1つのビデオで学習する GANが提案された。これらの手法は、多様なビデオダイ ナミクスに対してより柔軟に対応できるが、 1つの小さな入力ビデオに対して何日もかけて学習する必要があり、実用的ではない。本論文では、 1 つの自然な映像から映像を生成・操作するための、高速で実用的な手法を紹介します。この手法は、 Full-HDのビデオクリップにも数分で適用 可能である。我々のアプローチは、最近の先進的なパッチ近傍ベースのアプローチにインスパイアされており、実行時間と視覚的品質の両方で 単一画像GANを大幅に上回ることが示されました。ここでは、古典的な時空間パッチベースの手法を新しい生成的なビデオモデルとして鋳造す ることで、このアプローチを画像からビデオに一般化する。我々は、 1つのビデオに含まれる膨大な数の時空間パッチに効率的に対処するため に、生成的な画像パッチ最近傍法を適応する。我々の手法は,単一ビデオの GANよりも,より現実的で高品質な結果を生成する(定量的・定性 的評価により確認).さらに、数日かかっていた実行時間が数秒に短縮されるなど、圧倒的に高速です。多様なビデオ生成以外にも、時空間ビデ オリターゲティング、ビデオ構造アナロジー、条件付きビデオインペインティングなど、いくつかの挑戦的なビデオアプリケーションを実証していま す。 Top hype #8 ● 目的:計算量の観点で実用的なビデオ生成手法 ● 成果:古典的な時空間パッチベースの手法をビデオ生成モデルに活用 ● 方法:GPNNの手法を画像から動画に一般化 ● 固有名:VGPNN (Video-Based Generative Patch Nearest Neighbors), WeightedPatchMatch ● 著者所属:ワイツマン科学研究所(イスラエル)

Slide 68

Slide 68 text

No content

Slide 69

Slide 69 text

No content

Slide 70

Slide 70 text

グラフニューラルネットワークと構造的因果モデルの関連付け (原文: Relating Graph Neural Networks to StructuralCausal Models) http://arxiv.org/abs/2109.04173v2 因果関係は、対象となる変数とその機構的な関係に関する情報を含む構造的な因果モデル( SCM)の観点から記述することが できます。対象となるプロセスの多くでは、基礎となる SCMは部分的にしか観測できないため、因果推論では公開されている情 報を活用しようとします。グラフニューラルネットワーク (GNN)は、構造化された入力に対する普遍的な近似器として、因果学習 の有力な候補となり、SCMとの緊密な統合を示唆している。この目的のために、我々は第一原理からの理論的分析を行い、 GNNとSCMの間の新しい関係を確立するとともに、一般的な神経 -因果モデルについての拡張的な見解を提供する。そして、 GNNに基づく因果推論のための新しいモデルクラスを確立し、因果効果の同定に必要かつ十分なものとします。さらに、シミュ レーションや標準的なベンチマークを用いた実証実験により、理論的な証明を行う。 Top hype #9 ● 目的:GNNに基づく因果推論 ● 成果:実現可能性,表現力,識別可能性について理論的に示し、実験結果を提示 ● 方法:理論的な導出とベンチマークに基づく実験 ● 固有名:NCM-Type 2, iVGAE ● 著者所属:ダルムシュタット工科大学、 DeepMind

Slide 71

Slide 71 text

No content

Slide 72

Slide 72 text

ConvMLP: 視覚のための階層的畳み込みMLP (原文: ConvMLP: Hierarchical Convolutional MLPs for Vision) http://arxiv.org/abs/2109.04454v2 MLPは、多層パーセプトロンを連続して配置したアーキテクチャであり、最近では、畳み込みや変換を用いた手法と同等の結果が得ら れることがわかっています。しかし、ほとんどのMLPは固定次元の入力を受け付ける空間型MLPを採用しているため、物体検出やセマ ンティックセグメンテーションなどの下流のタスクに適用することは困難です。さらに、シングルステージの設計は、他のコンピュータビ ジョンタスクでの性能をさらに制限し、完全連結層は重い計算を必要とします。これらの問題に対処するために、我々はConvMLP: a hierarchical Convolutional MLP for visual recognitionを提案する。これは、畳み込み層とMLPを段階的に共同設計することで 軽量化を図るものである。特に、ConvMLP-Sは、ImageNet-1kにおいて、9Mのパラメータと2.4GのMACを用いて、76.8%の top-1精度を達成しました(MLP-Mixer-B/16の15%と19%)。さらに、オブジェクト検出とセマンティックセグメンテーションの実験で は、ConvMLPで学習した視覚表現をシームレスに移行し、より少ないパラメータで競争力のある結果を得ることができました。我々の コードと学習済みモデルは、https://github.com/SHI-Labs/Convolutional-MLPs で公開されています。 Top hype #10 重複

Slide 73

Slide 73 text

おわり