AI最新論文読み会2022年4月

Slide 1

Slide 1 text

AI最新論文読み会2022年4月 YAMAHA MOTOR CO.,LTD ＊Komaike Kunimune Yamamoto Atsushi Saitou Takashi （文献調査を上記で分担、今回の発表者＊）産業用ロボット| ヤマハ発動機 (yamaha-motor.co.jp) 2022国際ロボット展(iREX2022) - イベント | ヤマハ発動機株式会社 (yamaha-motor.com)

Slide 2

Slide 2 text

１.テンソルプログラムV：ゼロショットハイパーパラメータ転送による大規模ニューロネットワークのチューニング（原文： Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer）２．知的な意思決定者の共通モデルの探求（原文：The Quest for a Common Model of the Intelligent Decision Maker）３．キューブリックスケーラブルなデータセット生成ツール【pickup】（原文：Kubric: A scalable dataset generator）４．ディープネット：トランスフォーマーを1,000層まで拡張する（原文：DeepNet: Scaling Transformers to 1,000 Layers）５．スパース全MLPによる効率的な言語モデリング（原文： Efficient Language Modeling with Sparse all-MLP ）６．人工知能の数学（原文： The Mathematics of Articial Intelligence ）７．ブロック・リカレント・トランスフォーマー（原文： BLOCK-RECURRENT TRANSFORMERS ）８． GAN （原文： Generative Adversarial Network ）９．モデルスープ：複数の微調整されたモデルの重みを平均化することで、推論時間を増やすことなく精度を向上させることができる（原文： Model soups: averaging weights of multiple ne-tuned models improves accuracy without increasing inference time ）１０．表形式ディープラーニングにおける数値特徴のエンベッディングについて（原文： On Embeddings for Numerical Features in Tabular Deep Learning ） PaperWithCodeの10本を紹介 https://megalodon.jp/2022-0326-1516-40/https://paperswithcode.com:443/top-social?num_days=30

Slide 3

Slide 3 text

１.テンソルプログラムV：ゼロショットハイパーパラメータ転送による大規模ニューロネットワークのチューニング（原文： Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer） https://arxiv.org/abs/2203.03466v1 深層学習におけるハイパーパラメータ（HP）のチューニングは、数十億のパラメータを持つニューラルネットワーク（NN）では法外に高価な処理である。我々は、最近発見された最大更新パラメトリゼーション（μP）において、モデルサイズが変化しても、多くの最適なHPは安定したままであることを示す。これは、μPでターゲットモデルをパラメトリック化し、より小さなモデルで間接的にHPを調整し、ゼロショットでフルサイズモデルに転送する、つまり、フルサイズモデルを直接調整することなくHPを調整する新しいパラダイムを導き出すものである。Transformerと ResNetでμTransferを検証しています。例えば、1）13Mパラメータのモデルから事前学習用HPを転送することで、 BERT-large（350Mパラメータ）の公開値を上回り、BERT-largeの事前学習と同等の総チューニングコストで済む。 2）40Mパラメータからの転送により、67億GPT-3の公開値を上回り、総予習コストのわずか7%のチューニングコストで済む。この手法のPytorch実装はgithub.com/Microsoft/mupにあり、`pip install mup`でインストール可能です。目的：µTransferという新しいハイパーパラメータチューニング方法を提案成果：標準的なハイパーパラメータ調整で調整された大規模モデルの性能を凌駕する（超える）方法：µPでパラメーター化し、より小さなモデルでハイパーパラメータを間接的にチューニングし、フルモデルに移行することで、非常に大規模なネットワークを間接的に調整する固有名： Tensor Programs V 著者所属： Microsoft Corporation、OpenAI

Slide 10

Slide 10 text

目的：心理学、神経科学、倫理学の自然科学、人工知能の工学科学、最適制御理論など複数の業界で共通のものを指している言葉を整理すること(共通モデル化が目的)。成果：言葉の整理を実施方法：言葉の定義固有名：ー著者所属： University of Alberta ２．知的な意思決定者の共通モデルの探求（原文：The Quest for a Common Model of the Intelligent Decision Maker） https://arxiv.org/abs/2202.13252v1 Multi-disciplinary Conference on Reinforcement Learning and Decision Makingの前提は、複数の分野が時間をかけて目標指向の意思決定を行うことに関心を共有していることである。この論文のアイデアは、心理学、人工知能、経済学、制御理論、神経科学にまたがって実質的で広く保持されている意思決定者の視点（私は「知的エージェントの共通モデル」と呼ぶ）を提案することによって、この前提をより鮮明に、より深くしようというものである。この共通モデルには、いかなる生物、世界、あるいは応用領域にも固有のものは含まれていない。共通モデルには、意思決定者とその世界との相互作用（入力と出力、および目標が必要）と、意思決定者の内部構成要素（知覚、意思決定、内部評価、および世界モデルのための）が含まれる。これらの側面と構成要素を特定し、分野によって異なる名称が与えられているが、本質的には同じ考えを指していることを指摘し、分野を超えて使用できる中立的な用語を考案することの難しさと利点について論じる。今こそ、知的エージェントの実質的な共通モデルに、複数の多様な分野が収斂していることを認識し、それを基礎に据えるべき時である。

Slide 13

Slide 13 text

３．キューブリックスケーラブルなデータセット生成ツール（原文：Kubric: A scalable dataset generator） https://arxiv.org/abs/2203.03570v1 機械学習の原動力はデータであり、学習データの量と質は、しばしば、アーキテクチャや学習の詳細よりもシステムの性能にとって重要である。しかし、実データを大規模に収集、処理、アノテーションすることは困難であり、コストもかかる上、プライバシー、公平性、法的な問題も頻繁に発生する。合成データは、これらの欠点に対処できる可能性を秘めた強力なツールである。1) 安価である 2) 豊富なグランドトゥルース注釈をサポートする 3) データを完全に制御できる 4) バイアス、プライバシー、ライセンスに関する問題を回避または軽減できる。残念ながら、効果的なデータ生成のためのソフトウェアツールは、アーキテクチャ設計やトレーニングのためのツールに比べて成熟しておらず、生成の取り組みが断片的である。KubricはPyBulletやBlenderと連携し、豊富なアノテーションを含むフォトリアリスティックなシーンを生成するオープンソースのPythonフレームワークで、数千台のマシンに分散し、 TBsのデータを生成する大規模ジョブにもシームレスに拡張することができます。我々は、3D NeRFモデルの研究からオプティカルフロー推定に至るまで、13種類の生成データセットを提示することで、Kubricの有効性を実証しています。Kubric、使用した資産、すべての生成コード、およびレンダリングされたデータセットを再利用および修正できるように公開する。目的：Kubric（ビジョンタスクのためのフォトリアリスティックな合成データセットを生成するpythonフレームワーク）の紹介成果：汎用的なデータセット作成パイプラインの実現方法：PyBulletとBlenderを使ったシンプルなオブジェクト指向のAPIインターフェースを提供し、セットアップ、データ転送、同期維持の複雑さを解消して実現固有名： Kubric 著者所属： Google Research/University of Toronto/McGill University/Mila/MIT/DeepMind /UBC/University of Cambridge/ServiceNow/Haiper/Simon Fraser University

Slide 36

Slide 36 text

７．ブロック・リカレント・トランスフォーマー（原文： BLOCK-RECURRENT TRANSFORMERS ） https://arxiv.org/abs/2203.07852v1 この変換器は、シーケンスに沿ってリカレント的に変換層を適用し、シーケンス長に対して線形的な複雑性を持つ。このリカレントセルは、単一のトークンではなく、トークンのブロックに対して動作し、ブロック内の並列計算を利用して、アクセラレータのハードウェアを効率的に使用する。セル自体は驚くほどシンプルである。自己注意と交差注意を用いて、大きな状態ベクトルとトークンの集合に対してリカレント関数を効率的に計算します。私たちのデザインはLSTMセルから一部インスピレーションを受けており、LSTMスタイルのゲートを使用していますが、典型的な LSTMセルを数桁スケールアップしています。再帰の実装は、計算時間とパラメータ数の両方において従来の変換層と同じコストでありながら、非常に長いシーケンスに対する言語モデリングタスクのパープレックスを劇的に改善することができます。このモデルは長距離のTransformer XLのベースラインよりも大きなマージンを持ち、かつ2倍の速度で動作する。PG19（書籍）、arXivの論文、GitHubのソースコードでその有効性を実証しています。目的： Transformer では長文の自然言語処理が難しい成果：通常のTransformerと処理時間・計算コストは変わらず、長文翻訳の精度を向上方法：通常のTransformerでは難しいセルフアテンション時のウィンドウサイズの変更を容易にした固有名： Block-Recurrent Transformer 著者所属： Google Research、 The Swiss AI Lab IDSIA, SUPSI & USI

Slide 49

Slide 49 text

９．モデルスープ：複数の微調整されたモデルの重みを平均化することで、推論時間を増やすことなく精度を向上させることができる（原文： Model soups: averaging weights of multiple ne-tuned models improves accuracy without increasing inference time ） https://arxiv.org/abs/2203.05482v1 従来、モデルの精度を最大化するためには、（1）様々なハイパーパラメータで複数のモデルを訓練し、（2）保留された検証集合で最も良い性能を示す個々のモデルを選び、残りを破棄する、というレシピがある。本論文では、大規模な事前学習済みモデルの微調整という文脈で、この手順の第2段階を再検討する。微調整されたモデルは、しばしば単一の低誤差ベイスンに位置するように見える。我々は、異なるハイパーパラメータ構成で微調整された複数のモデルの重みを平均化することで、精度と頑健性が向上することを示す。従来のアンサンブルとは異なり、推論コストやメモリコストをかけることなく、多くのモデルを平均化することができる。CLIP、ALIGN、JFTで事前学習した ViT-Gなどの大規模な事前学習済みモデルを微調整する場合、我々のスープレシピはImageNetのハイパーパラメータスイープで最良のモデルよりも大幅に改善することができるのです。その結果、ViT-GはImageNetにおいて 90.94%のトップ1精度を達成し、新たな技術水準を示しました。さらに、このモデルスープのアプローチは、複数の画像分類や自然言語処理タスクに拡張され、分布外性能を向上させ、新しい下流タスクのゼロショット性能を向上させることを示す。最後に、重み平均とロジットエンセンブルの性能の類似性を、損失の平坦性と予測値の信頼性に解析的に関連付け、この関係を経験的に検証する。目的：学習済みモデルをファインチューニングし各々のタスクに転移する際の精度・ロバスト性低下の問題解決成果：アンサンブル学習と異なり推論時の計算コストが増加せず精度とロバスト性を高める手法(Model Soup)の提案方法：異なるハイパーパラメータ下でファインチューニングしたモデルの最終層のパラメータを平均化する固有名： Model soups 著者所属： University of Washington/Columbia University/Google Research/Meta AI Research/Tel Aviv University

Slide 54

Slide 54 text

目的：表形式データでも精度の高いDeeplearning手法を提案成果：勾配ブースティング決定木（GBDT）に匹敵する性能を発揮方法：異なる3つの埋め込みモジュールを検討、これらを組み合わせることで大幅に性能改善固有名：ー著者所属：ー１０．表形式ディープラーニングにおける数値特徴のエンベッディングについて（原文： On Embeddings for Numerical Features in Tabular Deep Learning ） https://arxiv.org/abs/2203.05556v 最近、Transformerのようなディープアーキテクチャーが表形式のデータ問題で強い性能を示すようになった。従来のモデル、例えばMLPとは異なり、これらのアーキテクチャは数値特徴のスカラー値を高次元埋め込みにマッピングしてからメインバックボーンに混ぜ込んでいる。本研究では、数値特徴の埋め込みは表形式DLにおいて未開拓の自由度であり、より強力なDLモデルの構築と、従来GBDTに適したいくつかのベンチマークにおいてGBDTと競合することが可能であると論じる。まず、埋め込みモジュールを構築するための概念的に異なる2つのアプローチについて説明する。最初のものはスカラー値の区分的線形エンコーディングに基づくものであり、2番目のものは周期的活性化を利用するものである。次に、これらの2つのアプローチが、線形層やReLU活性化などの従来のブロックに基づく埋め込みと比較して、大幅な性能向上をもたらすことを経験的に示す。また、重要な点として、数値特徴の埋め込みが Transformerだけでなく、多くのバックボーンに有効であることを示す。具体的には、適切な埋め込みを行った後、単純なMLPのようなモデルは、注意ベースのアーキテクチャと同等の性能を発揮することができます。全体として、我々は、表形式DLのさらなる改善のための良い可能性を持つ重要な設計側面として、数値特徴のための埋め込みを強調します。

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text