Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI最新論文読み会2022年4月

 AI最新論文読み会2022年4月

AI最新論文読み会2022年4月

874ff503a00697a857e198a0ebb8f55f?s=128

ai.labo.ocu

April 05, 2022
Tweet

More Decks by ai.labo.ocu

Other Decks in Research

Transcript

  1. AI最新論文読み会2022年4月 YAMAHA MOTOR CO.,LTD *Komaike Kunimune Yamamoto Atsushi Saitou Takashi

    (文献調査を上記で分担、今回の発表者*) 産業用ロボット| ヤマハ発動機 (yamaha-motor.co.jp) 2022国際ロボット展(iREX2022) - イベント | ヤマハ発動機株式会社 (yamaha-motor.com)
  2. 1.テンソルプログラムV:ゼロショットハイパーパラメータ転送による大規模ニューロネットワークのチューニング (原文: Tensor Programs V: Tuning Large Neural Networks via

    Zero-Shot Hyperparameter Transfer) 2.知的な意思決定者の共通モデルの探求 (原文:The Quest for a Common Model of the Intelligent Decision Maker) 3.キューブリック スケーラブルなデータセット生成ツール 【pickup】 (原文:Kubric: A scalable dataset generator) 4.ディープネット: トランスフォーマーを1,000層まで拡張する (原文:DeepNet: Scaling Transformers to 1,000 Layers) 5.スパース全MLPによる効率的な言語モデリング (原文: Efficient Language Modeling with Sparse all-MLP ) 6.人工知能の数学 (原文: The Mathematics of Articial Intelligence ) 7.ブロック・リカレント・トランスフォーマー (原文: BLOCK-RECURRENT TRANSFORMERS ) 8. GAN (原文: Generative Adversarial Network ) 9.モデルスープ:複数の微調整されたモデルの重みを平均化することで、推論時間を増やすことなく精度を向上させることができる (原文: Model soups: averaging weights of multiple ne-tuned models improves accuracy without increasing inference time ) 10.表形式ディープラーニングにおける数値特徴のエンベッディングについて (原文: On Embeddings for Numerical Features in Tabular Deep Learning ) PaperWithCodeの10本を紹介 https://megalodon.jp/2022-0326-1516-40/https://paperswithcode.com:443/top-social?num_days=30
  3. 1.テンソルプログラムV:ゼロショットハイパーパラメータ転送による大規模ニューロネットワークのチューニング (原文: Tensor Programs V: Tuning Large Neural Networks via

    Zero-Shot Hyperparameter Transfer) https://arxiv.org/abs/2203.03466v1 深層学習におけるハイパーパラメータ(HP)のチューニングは、数十億のパラメータを持つニューラルネットワーク (NN)では法外に高価な処理である。我々は、最近発見された最大更新パラメトリゼーション(μP)において、モ デルサイズが変化しても、多くの最適なHPは安定したままであることを示す。これは、μPでターゲットモデルをパ ラメトリック化し、より小さなモデルで間接的にHPを調整し、ゼロショットでフルサイズモデルに転送する、つまり、 フルサイズモデルを直接調整することなくHPを調整する新しいパラダイムを導き出すものである。Transformerと ResNetでμTransferを検証しています。例えば、1)13Mパラメータのモデルから事前学習用HPを転送することで、 BERT-large(350Mパラメータ)の公開値を上回り、BERT-largeの事前学習と同等の総チューニングコストで済む。 2)40Mパラメータからの転送により、67億GPT-3の公開値を上回り、総予習コストのわずか7%のチューニングコ ストで済む。この手法のPytorch実装はgithub.com/Microsoft/mupにあり、`pip install mup`でインストール可能 です。 目的:µTransferという新しいハイパーパラメータチューニング方法を提案 成果:標準的なハイパーパラメータ調整で調整された大規模モデルの性能を凌駕する(超える) 方法:µPでパラメーター化し、より小さなモデルでハイパーパラメータを間接的にチューニングし、フルモデルに 移行することで、非常に大規模なネットワークを間接的に調整する 固有名: Tensor Programs V 著者所属: Microsoft Corporation、OpenAI
  4. 背景: 深層学習において、モデルの性能向上のためにハイパーパラメータの最適な組み合わせを探索するプロセスは 重要である。一般的に、様々なパラメータの組み合わせを試行するため、時間と計算コストがかかる。 小さなNNを訓練する場合、多くのハイパーパラメータを試し、最適なものを選択できるが、GPT-3のような 大規模なNNでは実現可能とは言えない。 課題: 大規模なNNでのハイパーパラメータ調整の効率化 着目: そこで、本論文では小さなNNでハイパーパラメータを調整し、大きなNNでそのハイパーパラメータを 使用できる方法はないかに検討。

    →小さなNNと大きなNNで最適なハイパーパラメータは、どのように変わるのか把握する。 そのため、まず、モデルサイズとしてネットワークの幅を変えて確認した。 幅n 深さ
  5. 2層のMLPの場合 ネットワークの幅(width)を変えて確認 横軸:ハイパーパラメータ(学習率) 縦軸:損失 結論:モデルサイズ(幅)が変わると最適なパラメータも変わってしまう →Max Update Parametrization(µP)がこの問題を解決する Transformerの場合

  6. (例)2層MLPの式(n:幅) μPに切り替える ・最終層W3の初期値を変更 ・最初と最後の層の学習率を変更 ・ SPとは対照的に、 µPでの最適な学習率は安定。 ・最適な学習率が安定しており、 性能は幅とともに単調に向上 標準的なパラメータ調整(SP)

    Maximal Update Parametrization (µP) Maximal Update Parametrization(µP)
  7. どのハイパーパラメータをµTransferできるのか? 1.学習率など、小さいモデルから大きいモデルへと転送できるもの(可能) 2.正則化を主に制御(ドロップアウト、重み減衰)し、提案手法とは相性が悪いもの(不可) 3.学習規模を定義するもの、例えば前述の幅や、深さやバッチサイズなど、我々が他の ハイパーパラメータを移行する際にまたがるもの(可能) µPは、様々なサイズのNNが特定の条件下で同じ最適なハイパーパラメータを共有するという事実を利用して、 数十億のパラメーターモデル全体を直接調整する代わりに、小規模な調整プロセスを外挿して、はるかに大 きなモデルにマッピングする。仮説が正しければ、様々な幅のµPモデルの訓練損失-ハイパーパラメーター曲 線は、同様の最小値を共有する。 µTransfer

    アルゴリズム:µTransfer を介した大規模なターゲットモデルの調整方法 1.最大更新パラメーター化(µP)でターゲットモデルをパラメーター化する 2.ターゲットモデルの小さいバージョン(幅および/または深さ)を調整する 3.調整されたハイパーパラメータをターゲットモデルにコピーします μPとμTransferに関する役割に応じてハイパーパラメータを3種類に分類
  8. 学習率、クロスエントロピー温度、初期化スケール、 学習率スケジュールに対してプロットされている ハイパーパラメータをµTransferできるもの 学習率に対して、幅、深さ、バッチサイズ、 およびシーケンス長全体をプロット 学習規模を定義するもの 小さなモデルから大きなモデルに転送できるもの 参照:µTransfer: A technique

    for hyperparameter tuning of enormous neural networks - Microsoft Research
  9. GPT-3でµTransferを使用して、 ・4,000万パラメーターモデル(小さなモデル)→67億パラメーターモデル(大きなモデル) にハイパーパラメーターを転送した(1/168サイズ) ・ハイパーパラメータ調整方法は小さなモデルでランダムサーチして決定 GPT-3に対するµTransferの有効性を評価 結果: ・μTransferredGPT-3(提案手法)が、全てのタスクで同じサイズの元のバージョンよりも優れている ・μTransferredGPT-3(提案手法)の性能は、元のGPT-3の論文の130億モデルの性能に匹敵する LAMBADAデータセット: 遠い単語や文章の依存関係を捉える必要のあるデータセットで、

    文章の最後の単語が何かということを予測する。 参照:µTransfer: A technique for hyperparameter tuning of enormous neural networks - Microsoft Research Perplexity: ・人の話した言葉に対する相違指標(小さいほど良い) ・一般的に流暢さを表す。
  10. 目的: 心理学、神経科学、倫理学の自然科学、人工知能の工学科学、最適制御理論など複数の業界で共通のもの を指している言葉を整理すること(共通モデル化が目的)。 成果: 言葉の整理を実施 方法: 言葉の定義 固有名: ー 著者所属:

    University of Alberta 2.知的な意思決定者の共通モデルの探求 (原文:The Quest for a Common Model of the Intelligent Decision Maker) https://arxiv.org/abs/2202.13252v1 Multi-disciplinary Conference on Reinforcement Learning and Decision Makingの前提は、複数の分野が時間を かけて目標指向の意思決定を行うことに関心を共有していることである。この論文のアイデアは、心理学、人工知能、 経済学、制御理論、神経科学にまたがって実質的で広く保持されている意思決定者の視点(私は「知的エージェント の共通モデル」と呼ぶ)を提案することによって、この前提をより鮮明に、より深くしようというものである。この 共通モデルには、いかなる生物、世界、あるいは応用領域にも固有のものは含まれていない。共通モデルには、意思 決定者とその世界との相互作用(入力と出力、および目標が必要)と、意思決定者の内部構成要素(知覚、意思決定、 内部評価、および世界モデルのための)が含まれる。これらの側面と構成要素を特定し、分野によって異なる名称が 与えられているが、本質的には同じ考えを指していることを指摘し、分野を超えて使用できる中立的な用語を考案す ることの難しさと利点について論じる。今こそ、知的エージェントの実質的な共通モデルに、複数の多様な分野が収 斂していることを認識し、それを基礎に据えるべき時である。
  11. 分野が違うと言葉の定義が違う例: 制御理論では 意思決定者は、コントロールであり状態を受信し、制御信号をプラントに送信する 心理学では 意思決定者は、生物であり、刺激を受け取ってその環境に応答を送信する ↓ 意思決定者はエージェントと呼ぶ。 「エージェント」という用語は、自律性と目的性を意味するため、「意思決定者」よりも好ましい 意思決定エージェントは、エージェント以外のすべてのものと相互作用する これは、「環境」または「世界」と呼ばれる

    エージェントが行動を起こし、観察する。
  12. エージェントの内部構造 エージェントの内部構造の提案された共通モデルには、知覚、反応ポリシー、価値関数、遷移モデルの4つの主成分がある ①知覚コンポーネント 観察と行動を処理して主観的な状態を生成 これは、行動(リアクティブポリシー)の選択、将来の報酬(値関数)、および将来の主観的状態を予測するため(遷移モデル)。 状態は、エージェントの観察と行動に関連しており、世界の実際の内部作業に対応していない可能性があるという点で主観的です。 多くの場合、主観的状態の構築は固定された前処理ステップであり、その場合、エージェントは観察として主観的状態を直接受け取ると想定。 ②リアクティブポリシーコンポーネント 主観的な状態を行動にマッピングします。 全体的な行動の生成をこれらの2つの部分(認識とポリシー)に分離することは、多くの分野で一般的

    ③価値関数コンポーネント 主観的な状態(または状態と行動のペア)をその望ましさのスカラー評価にマッピングする ④遷移モデル 状態を取り込み、様々な行動が実行された場合に次の状態が発生することを予測する 遷移モデルは、様々な行動の効果をシミュレートするために使用され、値関数の助けを借りて、可能な結果を評価し、 予測された良い結果を伴うアクションを優先し、予測された悪い結果を伴う行動を嫌うようにリアクティブポリシーを更新
  13. 3.キューブリック スケーラブルなデータセット生成ツール (原文:Kubric: A scalable dataset generator) https://arxiv.org/abs/2203.03570v1 機械学習の原動力はデータであり、学習データの量と質は、しばしば、アーキテクチャや学習の詳細よりもシステム の性能にとって重要である。しかし、実データを大規模に収集、処理、アノテーションすることは困難であり、コス

    トもかかる上、プライバシー、公平性、法的な問題も頻繁に発生する。合成データは、これらの欠点に対処できる可 能性を秘めた強力なツールである。1) 安価である 2) 豊富なグランドトゥルース注釈をサポートする 3) データを完 全に制御できる 4) バイアス、プライバシー、ライセンスに関する問題を回避または軽減できる。残念ながら、効果 的なデータ生成のためのソフトウェアツールは、アーキテクチャ設計やトレーニングのためのツールに比べて成熟し ておらず、生成の取り組みが断片的である。KubricはPyBulletやBlenderと連携し、豊富なアノテーションを含む フォトリアリスティックなシーンを生成するオープンソースのPythonフレームワークで、数千台のマシンに分散し、 TBsのデータを生成する大規模ジョブにもシームレスに拡張することができます。我々は、3D NeRFモデルの研究か らオプティカルフロー推定に至るまで、13種類の生成データセットを提示することで、Kubricの有効性を実証してい ます。Kubric、使用した資産、すべての生成コード、およびレンダリングされたデータセットを再利用および修正で きるように公開する。 目的:Kubric(ビジョンタスクのためのフォトリアリスティックな合成データセットを生成するpythonフレームワーク)の紹介 成果:汎用的なデータセット作成パイプラインの実現 方法:PyBulletとBlenderを使ったシンプルなオブジェクト指向のAPIインターフェースを提供し、セットアップ、 データ転送、同期維持の複雑さを解消して実現 固有名: Kubric 著者所属: Google Research/University of Toronto/McGill University/Mila/MIT/DeepMind /UBC/University of Cambridge/ServiceNow/Haiper/Simon Fraser University
  14. 背景: ディープラーニングには、高品質なデータ(規模に関係なく)が不可欠です。 これは間違いなく、多くのアーキテクチャやトレーニングの詳細と同等かそれ以上に重要である。 しかしながら、多くの単純なビジョンタスクでさえ、十分な量のデータを収集し、管理することは困難な課題です。 主な障壁としては、高品質で詳細なアノテーションの費用、データの多様性、タスクドメインの複雑性の制御、 さらにプライバシー、公平性、ライセンスに関する懸念が挙げられます 本論文の貢献について: ・データの複雑性を細かく制御し、豊富なグランドトゥルースアノテーションを持つ、無数のビジョン タスクのためのフォトリアリスティックな合成データセットを生成するフレームワークKubric を紹介する。

    ・Kubricは数千台のマシンで大規模なジョブをシームレスに実行し、標準的なエクスポートデータフォーマットで テラバイトのデータを生成することが可能である。 ・Kubricの汎用性は、3D NeRFモデルからオプティカルフロー推定まで、新しいビジョンチャレンジのための 13のデータセットとベンチマーク結果によって実証されています。
  15. 従来から、大規模合成データセットが特定のタスクのために存在する。 CLEVR:構成言語と初歩的な視覚的推論のための診断データセット SceneNet RGB-D: RGB-Dビデオデータセットであり、3Dカメラの ポーズ、表面再構成、およびインスタンスレベルのセマンティックセグメ ンテーションで注釈が付けられています。 NYU v2:MicrosoftKinectのRGBカメラとDepthカメラの両方で記録さ れたさまざまな屋内シーンのビデオシーケンスで構成されています。

    SYNTHIA: 運転シナリオのコンテキストでのセマンティックセグメ ンテーションおよび関連するシーン理解の問題を支援する目的で生成され たデータセット virtual KITTI: オブジェクト検出とマルチオブジェクトトラッキング、 シーンレベルとインスタンスレベルのセマンティックセグメンテーション、 オプティカルフロー、深度推定など、フォトリアリスティックな合成ビデ オデータセットです。 flying things 3D:オプティカルフロー、視差、シーンフロー推定のた めの合成データセット 特殊な合成データパイプライン 汎用的なデータセット作成パイプライン Kubric
  16. Kubricは、レンダリングエンジン、物理シミュレータ、データエクスポート基盤の間の接着剤として機能する ⾼レベルのPythonライブラリである。 ・外部ソースからロードされたアセットをランダムにシーンに投入し、 ・場合によっては物理シミュレーションを実行し、 ・結果のフレームをレンダリングし、 ・最後に画像、アノテーションレイヤー、およびその他のメタデータを エクスポートする。 ・Kubricは、コンストレイントは未サポート ・Kubricは、bpyモジュールをインターフェースとして使用 ・Kubricは、前処理されたいくつかのアセットコレクションをGoogle

    Cloudの公開バケットで提供 KuBasic. ShapeNetCore.v2. Google Scanned Objects (GSO) Polyhaven
  17. Kubricの設計指針: ①オープンである ・データ生成コードは、アカデミアや産業界の研究者が自由に使えるもの。 ・KubricはApache2ライセンスのオープンソース。 ②使い勝手が良い ・バックグラウンドでPyBulletとBlenderを使ったシンプルなオブジェクト指向のAPIインターフェースを提供 ・セットアップ、データ転送、同期維持の複雑さを解消しています。 ・様々なデータソースから加工済みの3Dアセットを提供し、最小限の労力で利用可能 ③フォトリアリスティック(写実性) ・BlenderのCyclesレイトレーシングエンジンは高いレベルのリアリズムをサポートし、再反射、屈折、間接照明、

    モーションブラー、被写界深度などの複雑な視覚現象をモデル化することが可能です。 ④スケーラビリティ(拡張性) ・ローカルワークフローからクラウド上の数千台のマシンで大規模なジョブを実行するところまでシームレスに拡張 ⑤ポータブビリティ(再現性) ・Blender Pythonモジュールのインストールが難しく、バージョン間でかなりの差異があるため、特に重要です。 ・Kubric Dockerイメージを配布することで、移植性の確保とインストール負荷削減。 ⑥データエクスポート ・深度マップ、セグメンテーション、オプティカルフロー、表面法線、物体座標、衝突イベント、カメラパラメータ バウンディングボックス、速度、質量、摩擦など豊富なグランドトゥルースアノテーションのセットとして出力
  18. Kubricデータセットと課題: Kubricの性能と汎用性を示すことを目的としてチャレンジ問題を説明する。 ・実世界のアプリケーションに追加のトレーニングデータの提供(sim-to-real)。 ・特定の仮説を実証的に検証するためのもの(テストなど)として使用 ・既存および将来の手法を比較するためのベンチマークとして使用。

  19. 表6. 姿勢推定 COCO領域外の姿勢を持つ人体モデルの合成画像を追加することで、 領域外(Yoga)の結果が改善される。 キーポイント 平均平均精度(mAP)指標(高いほど良い) Active:より多様なポーズを持つ独自のデータセット Yoga:1000例からなる歪んだポーズのテストセット 図8. 姿勢推定

    ポーズの多様化を目指した合成動画からのフルアノテーション画像(左) 実世界のアノテーションデータセットに登場する動き、被写体、背景(右)、COCO相当画像の例。 4.4 姿勢推定 合成データを追加するとキーポイントの平均値-精度を向上させた。追加トレーニングとして使用
  20. 4.5 視覚表現の事前学習 ・Kubricを用い、ShapeNetオブジェクトと背景画像を様々な方法で組み合わせた画像を生成 ・オブジェクトのカテゴリを予測するResNet-50を事前学習→このモデルを様々なデータセットに転送する。 (結果)ランダムな事前学習とImageNetでの事前学習との間のギャップを既に半減 ⇒このアプローチが有望であることを示唆 現状:インターネット上の膨大な写真のコレクション(ウェブ画像)からなるデータセットで事前学習 将来:合成データで事前学習させることができると仮定している。仮説の検証として使用。

  21. 4.8.複雑なBRDF 少数の観測から3Dシーンを再構築するというタスクにおいて、既存手法のベンチマークとして使用。 既存:ほとんど拡散表面で構成され、鏡面ハイライトがほとんどないシーンが対象 課題:シーン表面の反射率が高い場合の対応 ・ShapeNetデータセットの高スペキュラーバージョンをレンダリングし、 ・既存のアプローチが、形状に内在するスペキュラの表現にいかに苦労しているかを示しています。

  22. 4.ディープネット: トランスフォーマーを1,000層まで拡張する (原文:DeepNet: Scaling Transformers to 1,000 Layers) https://arxiv.org/abs/2203.00555v1 本論文では、非常に深いTransformerを安定化させるためのシンプルかつ効果的な方法を提案する。具体的には、

    Transformerの残留接続を修正する新しい正規化関数(DeepNorm)を導入し、理論的に導かれた初期化を伴う。理 論的な解析の結果、モデルの更新を安定的に抑制できることが示された。提案手法は、Post-LNの優れた性能とPre- LNの安定した学習という、2つの世界の長所を兼ね備えており、DeepNormを好ましい代替手法とすることができる。 我々は、Transformerを1,000層(すなわち、2,500の注意とフィードフォワードネットワークのサブレイヤー)ま で問題なく拡張することに成功し、これは、これまでのディープTransformerよりも1桁深いものとなっている。驚 くべきことに、7,482の翻訳方向を持つ多言語ベンチマークにおいて、我々の200層モデル(パラメータ3.2B)は、 48層モデル(パラメータ12B)を5BLEUポイント上回り、有望なスケーリング方向であることが示された。 目的: 非常に深いトランスフォーマーの学習を安定化 成果: 学習の安定化+モデルパラメータ数の削減 方法: 残差接続時にモデルの更新を定数で抑制する正則化関数(DEEPNORM)の提案 固有名: DeepNorm、DeepNet 著者所属: Microsoft Research
  23. 主なTransformerの発表年と層の深さの比較: 著者らの提案するDeepNetが頭抜けて層が深い ここのNormを LinearNorm →DeepNorm DeepNet : vanilla Transformerのすべてのサブレイヤー におけるPost-LNをDeepNormに置き換えたもの

  24. DeepNormの実装: エンコーダー・デコーダーの層の深さによって求まる定数α・βで残差接続時のモデルパラメータ更新を抑制する手法 左図:vanilla Transformerでは層が深くなるにつれて更新するパラメータの数が増えるが、DeepNetでは抑制 右図:その評価結果。6層ずつのエンコーダー・デコーダーではVanilla Transformerの方が精度が高いが、 Vanillaでは発散してしまうような層の深さでもDeepNetは収束し(学習の安定化)、高い精度が出る LayerNormなし 残差接続後 LayerNorm

    残差接続前 LayerNorm 残差接続後 DeepNorm BLEUスコア:機械翻訳の評価方法(プロによる翻訳と近ければ近いほどその機械翻訳の精度は高い)。スコア40以上が高品質の目安。
  25. 目的: スパースAll-MLPの提案 成果: TransformerベースのMoEやdense Transformerを超える性能+学習効率を最大2倍改善 方法: gMLPの主要な密なブロックをスパースブロックに置き換える 固有名: Sparse all-MLP

    著者所属: ー 5.スパース全MLPによる効率的な言語モデリング (原文: Efficient Language Modeling with Sparse all-MLP ) https://arxiv.org/abs/2203.06850v2 All-MLPアーキテクチャは、注意ベースのモデルに代わるものとして、ますます関心を集めています。自然言語処理 においては、gMLPのような最近の研究により、All-MLPは言語モデリングにおいてはTransformerに匹敵するが、下 流のタスクにおいてはまだ遅れをとっていることが示されている。本研究では、MLPの表現力の限界を分析し、特徴 量と入力(トークン)次元の両方でMoE(Mixture-of-Experts)を用いてスパースに活性化したMLPを提案する。こ のようなスパース全MLPは、計算量を一定に保ちながら、モデルの容量と表現力を大幅に向上させる。我々は、2つ のルーティング戦略を用いて、条件付き計算を組み込む際の重要な課題に取り組む。提案するスパースAll-MLPは、 TransformerベースのMoE(GShard、Switch Transformer、Base Layers、HASH Layers)、Dense Transformer、 All-MLPと比較して、言語モデリングの複雑性を改善し、学習効率を最大2倍改善することができます。最後に、ゼロ ショットインコンテキスト学習の性能を6つの下流タスクで評価し、TransformerベースのMoEやdense Transformerを凌駕することを明らかにした。
  26. sMLP アーキテクチャの概略図 N1 個の密なブロック (Dense Blocks) と N2 個の疎なブロック (Sparse

    Blocks)で構成 異なるトークンの特徴量の 同じ次元を集めたベクトル tMoE:ルーター (router) が、トークン単位 (x1,x2,...) で、どのエキスパート FF1, FF2, ... に割り振るかを決定。 sMoE:入力を特徴量の次元方向に分割したもの (y1,y2,...) を、それぞれどのエキスパート SL1, SL2, ..., に割り振るかを決定。 tMoEのみだと同じ隠れ次元の情報が異なるExpert(処理部)へ渡ってしまうため、精度が上がらない そのため、sMoEにより同じ隠れ次元のベクトルを同じExpert(処理部)へ渡すことで、 前のトークンの情報へアクセスでき精度が上がる 背景:gMLPでは下流タスクでは精度が出ていない。 空間ゲーティング層を使った MLP モデルgMLP: この主要な密なブロックを粗なブロックへ置き換えることで計算コストは変わらず、表現力を向上 混合エキスパートモデル (Mixture of Experts): 複数個の部分ネットワークに計算を動的に割り振り、その結果を統合する構造を持ったネットワーク。 モデルの重みと計算が、異なるデバイス (GPU) 上のエキスパート (専門家) に割り振られ、計算量を増や すことなく、モデルの容量を大幅に上げ、訓練も高速化できるという特徴がある。
  27. 学習効率を最大2倍改善

  28. データセット:下流タスク COPA(因果推論タスク)、PIQA (物理世界の仕組みに関する質問)、 StoryCloze(5文な長さの物語に対する正しい終止符の選択)、 Winogrande(代名詞がどの単語を示しているの判断タスク)、 HellaSwag(物語などのエンディングを選ぶ)、ReCoRD(多肢選択式のQAタスク) 6つの下流タスクで評価し、TransformerベースのMoE(GShard、Switch Transformer、Base Layers、 HASH

    Layers)やdense Transformer(GPT3)をスパースAll-MLPが凌駕する(超える)
  29. 6.人工知能の数学 (原文: The Mathematics of Articial Intelligence ) https://arxiv.org/abs/2203.08890v1 現在、私たちは科学と社会生活の両面において、人工知能の目覚ましい成功を目の当たりにしています。しかし、厳

    密な数学的基盤の構築はまだ初期段階にある。この記事は、2022年の国際数学者会議での招待講演に基づいており、 特に、現在の人工知能の「主力商品」であるディープニューラルネットワークに焦点を当てたい。いくつかの模範的 な結果とともに主な理論的方向性を提示し、主要な未解決問題について議論する。 サーベイ論文 目的: 人工知能の問題点である数学的基盤の欠如を明確にすること。 成果: 人工知能の数学的基礎および数学問題への人工知能の手法適用に関してまとめ、人工知能の問題を提起した。 方法: 人工知能の各問題について数学的なアプローチを時系列に紹介し、現状の課題を明確にしていく。 固有名: ー 著者所属: ー
  30. 背景: 人工知能は現在、自律⾛行や⾳声認識などの公共分野と、医療診断や分⼦動力学などの科学分野の両方で、 次々とブレークスルーを起こしている。これは、計算能力の飛躍的向上や膨大な学習データが入手できるように なったためである。 一方で、ディープニューラルネットワークのような手法の実用的な限界が全く検討されておらず、 現状ではニューラルネットワークはまだ「何でも屋」と考えられていることに加え、 包括的な理論的基礎が全く欠けていることが、新たな問題として浮上している。 課題: 人工知能の問題点=数学的基盤の欠如(モデル性能の誤差境界や入力データへの摂動の影響=ロバスト性の問題) 必要性:

    ・人工知能の数学的基礎:ロバスト性の欠如などの現在の障害を克服したり、学習プロセス全体を強固な 理論的基盤の上に置いたりすることを目的とする。 ・数学的問題のための人工知能:逆問題や偏微分方程式のための優れたソルバー開発で人工知能の方法論を 採用する。
  31. ディープニューラルネットワークの定義 ディープニューラルネットワークの応用例 ステップ1(データセットの訓練‧試験分割) ステップ2(アーキテクチャの選択):層数L、各層のニューロン数 、活性化関数ρなど、表現力の決定 ステップ3(トレーニング):最適化問題 ステップ4(テスト):学習したニューラルネットの性能確認(汎化能力、一般化)

  32. 人工知能のための数学的基盤 DNNの学習過程全体を統計的学習問題として考えると、下記3つの研究方向は、まさに全体の誤差を分析する ための自然な研究方向であることがわかる。 1.表現力: ニューラルネットワークのアーキテクチャが、DNNの最良の性能を左右するのか、 また、どの程度左右するのかを一般的に理解することを目的。この問題にアプローチは、応用調和解析や近似理論 2.学習/最適化: 確率的勾配降下のような学習アルゴリズムの分析、すなわち、問題自体が非常に非凸であるにもかかわらず、 なぜ適切なローカルミニマムに収束することが多いのかを問うことが、この方向の主な目的である。 主要な方法論は、代数/微分幾何学、最適制御、最適化の領域から得られる。

    3.一般化: この方向は、サンプル外誤差の理解、すなわち、サンプル外誤差を導き出すことが目的。 必要な手法は、学習理論、確率論、統計学が主流である。 説明可能性: 現時点では、数学的基礎の観点からは、まだ未開拓の分野である。与えられた訓練済みのディープニューラルネット ワークが、入力データのどの特徴が判断に重要であるかという意味で、どのように判断に至るかを深く理解すること が目標である。情報理論や不確実性の定量化など、求められるアプローチの幅は非常に広い。
  33. 最適化 一般化 勾配降下法と確率的勾配降下法の比較 二重降下曲線

  34. 数学的問題のための人工知能 現在の大きなトレンドの一つは、モデル世界とデータ世界の良いところを取り入れるという意味で、古典的 なソルバーとディープラーニングを最適に組み合わせることである。 1.逆問題 画像科学の分野では、ノイズ除去、デブラーリング、インペインティング(画像の欠落部分の復元)など 2.偏微分方程式 偏微分方程式の解をディープニューラルネットワークで近似するもので、偏微分方程式を損失関数に組み込むこ とにより、この課題に応じて学習させるものである。 シアーレットによる スパース正則化

  35. まとめ 人工知能の数学的な7つの重要問題を提起。 ・表現力、最適化、一般化、説明可能性をサブフィールドとする「人工知能のための数学的基礎」 ・逆問題や偏微分方程式への応用に焦点を当てた「数学的問題のための人工知能」 における主要な障害となる。 1.深さの役割について 2.ニューラルネットワークのアーキテクチャのどの部分がディープラーニングの性能に影響を与えるかについて 3.確率的勾配降下法は、非凸問題にもかかわらず、なぜ良好なローカルミニマムに収束するのかについて 4.なぜ大規模なニューラルネットワークはオーバーフィットしないのかについて 5.なぜニューラルネットワークは超高次元環境で優れた性能を発揮するのかについて

    6.ディープアーキテクチャは、データのどのような特徴を学習するのかについて 7.ニューラルネットワークは、自然科学における高度に専門化された数値計算アルゴリズムに取って 代わることができるのだろうかについて
  36. 7.ブロック・リカレント・トランスフォーマー (原文: BLOCK-RECURRENT TRANSFORMERS ) https://arxiv.org/abs/2203.07852v1 この変換器は、シーケンスに沿ってリカレント的に変換層を適用し、シーケンス長に対して線形的な複雑性を持つ。 このリカレントセルは、単一のトークンではなく、トークンのブロックに対して動作し、ブロック内の並列計算を利 用して、アクセラレータのハードウェアを効率的に使用する。セル自体は驚くほどシンプルである。自己注意と交差 注意を用いて、大きな状態ベクトルとトークンの集合に対してリカレント関数を効率的に計算します。私たちのデザ

    インはLSTMセルから一部インスピレーションを受けており、LSTMスタイルのゲートを使用していますが、典型的な LSTMセルを数桁スケールアップしています。再帰の実装は、計算時間とパラメータ数の両方において従来の変換層 と同じコストでありながら、非常に長いシーケンスに対する言語モデリングタスクのパープレックスを劇的に改善す ることができます。このモデルは長距離のTransformer XLのベースラインよりも大きなマージンを持ち、かつ2倍の 速度で動作する。PG19(書籍)、arXivの論文、GitHubのソースコードでその有効性を実証しています。 目的: Transformer では長文の自然言語処理が難しい 成果: 通常のTransformerと処理時間・計算コストは変わらず、長文翻訳の精度を向上 方法: 通常のTransformerでは難しいセルフアテンション時のウィンドウサイズの変更を容易にした 固有名: Block-Recurrent Transformer 著者所属: Google Research、 The Swiss AI Lab IDSIA, SUPSI & USI
  37. 再帰型NNの欠点 1.トークン(文章から切り出した単語)を逐次処理する必要があるため学習・推論が遅い(並列化ができない) 2.過去のトークン全体を1つのステートベクトルにまとめ伝播しているため、過去のトークンにアクセスする にはベクトルサイズに応じて2次関数的に増大するベクトルの積を処理する必要がある 3.トークンを処理するごとに前のステートの一部を消すため、長い文章では勾配が消失してしまう Transformerの欠点 ・セルフアテンションはシーケンス長(文の長さ)に対して2次関数的な複雑性を持つため、長文の翻訳が難しい (セルフアテンションでは入力(Query)とメモリ(Key,Value)がすべて同じテンソルを使うため) 背景: 自然言語処理において回帰型NNとTransformerには以下のような欠点があり長文の翻訳の精度が上がらなかった。

  38. 従来の手法の欠点に対し、著者らの手法では ・トークンの処理とステートの処理を並列でおこなうことにより処理効率を向上する ・従来のTransformer同様、過去のトークンに直接アクセスできるためベクトル積を処理する必要がない 入力されたKey,Value 入力されたQuery キャッシュ化されたKey,Value 入力されたKey,Value 入力されたQuery 従来のアテンション スライディングアテンション

    ・アテンションの際にスライディングウィンドウを用いることにより、アテンションの処理は 従来のアテンションでのシーケンス長に2次関数的→1次関数的比例に改善した ・さらに、前の処理のKey,Valueがキャッシュされて残るため、勾配が消失しにくい
  39. 右表:パープレキシティ(分岐数)が0の方が精度が高い ・XL(Transformer-XL), ・Slide(XL-Cacheの代わりにスライディングウィンドウを実装したTransformer), ・FeedBack(FeedBack TransformerにRecurrentCellを追加したもの)と比べ、 Rec(RecurrentBlockTransformer)が最もパープレキシティが低い(精度が高い) 右図:RecのDual, Single, Skipとは左図のRecurrentCellにおけるゲートの数のこと Dual:

    Gateは2つとも有効 Single: Linear Projectionとその直後のGateを無効にしたもの Skip: MLPとそれに関連するGateを無効にしたもの
  40. 目的: GANについてより良く理解し、このトピックに関する最新文献を身近なものにすること 成果: ↑ 方法: GANの原理的な仕組みを説明し、学習や評価における固有の問題点を提示する。 固有名: ー 著者所属: ー

    8. GAN (原文: Generative Adversarial Network ) https://arxiv.org/abs/2203.00667v1 Generative Adversarial Networks(GAN)は、高品質なデータを生成するためのフレームワークとして非常に人気 があり、多くの領域で学界と産業界の両方で絶大な利用を受けている。特に、コンピュータビジョンの分野では、最 先端の画像生成を実現し、大きなインパクトを与えている。本章では、GANの原理的な仕組みを説明し、学習や評価 における固有の問題点を提示することで、GANの入門的な解説を行う。特に、以下の3つの問題に注目する。(1) モード崩壊、(2)勾配の消失、(3)低画質画像の生成。次に、これらの課題を解決するアーキテクチャ可変なGAN と損失可変なGANをいくつか挙げる。最後に、実世界でのGANの利用例を2つ挙げる。具体的には、データ補強と顔 画像生成である。
  41. GAN (Generative Adversarial Network)とは、与えられたデータセットの分布を学習し、 そこから新しい事例を生成する手法である GAN基本概念 GANのアーキテクチャは、2つのコンポーネントから構成されている。識別器D と生成器G である。 Dは自然分布からの実画像と生成された画像を区別するように訓練され、Gは識別器を欺く偽画像を

    作成するように訓練される。 GAN の目的は、生成されたサンプルの分布G(z)~Pg を学習して、現実世界の分布 Pr を推定することである。 識別器D 生成器G 実画像 生成画像 現実世界の分布Pr G(z)~Pg z~Pz
  42. GANは以下のmin-max最適化問題を解くことで最適化される。 1.識別器の学習: 生成器のパラメータを固定した状態で上式を最大化する。 ・第1項は、実データの場合。この項を最大化するにはlog内部を最大化すればよいため、識別結果として1を出力させるよう学習させる。 ・第2項は、生成されたデータの場合。log内部を最大化するためには識別器の出力を最小化、つまり0を出力するようにすれば良い。 2.生成器の学習: 識別器のパラメータは固定のため第2項を考える。 log内部を最小化をするため識別器は、1を出力するようにすれば良い。 パラメータ固定 パラメータ固定

    TRUE FALSE Pr Pz X’ X’ Pz 双方向 TRUE
  43. GANの利点と問題点 利点 Sharp images: GANは他の生成モデルよりもシャープな画像を生成。VAEで生成された画像よりも高品質。 Configurable size:潜在的な確率変数のサイズが制限されないため、生成器の探索空間が豊かになる。 Versatile generator: GANフレームワークは、アーキテクチャ上の制約がある他の生成モデルとは異なり、

    様々な生成ネットワークをサポートすることができます。VAEでは、生成器の第一層は、 ガウシアンのみ。 問題点 Mode collapse(モード崩壊): 生成器と識別器の同期学習において、生成器は識別器を欺くような特定のパターン(モード)を生成するように学習 する傾向がある。このパターンは式(1)を最小化するが、生成器はデータセットの全分布をカバーすることはない。 Vanishing gradients(勾配消失): このような場合、ジェネレータの学習ステップでは、非常に低い勾配が逆伝播されるため、ジェネレータの学習がう まくいかない。 Instability(不安定): モデルのパラメータは変動し、一般に学習中は安定しない。ジェネレーターは非常に高品質な画像を出力するポイン トに到達することはほとんどない。
  44. Mode collapse(モード崩壊) (下段)

  45. ・2つの確率密度関数の間の距離は, ダイバージェンスと 呼ばれる。 ・その中で最も有名なものは KL(カルバックライブラー) ダイバージェンス JS(ジェンセン-シャノン) ダイバージェンス ・GAN では対照形な指標として

    JS(ジェンセン-シャノン) ダイバージェンスを用いる. GANの学習とJSダイバージェンスの関係から、GANの不 安定性が説明できると考えられる。 Vanishing gradients(勾配消失): (a) ゼロ平均のガウス分布である実画像分布Prと3種類のガウス分布(Pg1、Pg2、Pg3)。 (b) 平均が0から80の間にあるガウス分布PrとPgの間のJSダイバージェンス測定値をプロットしたもの 識別器が最適に近い場合、実際の分布Prから離れたPgで生 成器を学習しようとすると、勾配が非常に小さくなり、 学習が実行できなくなるのである(学習の初期)。
  46. Instability(不安定): 図5 GANにおける学習の不安定さ。 (a)式(1)の損失を用いたGAN学習におけるJS 距離の指標。この指標は生成された画像の品質 との相関が低く、JS距離がとる最高値であるlog2=0.69で飽和する。 (b) ジェネレータのコストを変えて学習させたところ、画質を大きく向上させることなく、 誤差が大きくなってしまった。プロットは[4]から引用。 補足:log(1-D(G(z)))の最小化ではなくlog(D(G(z)))の最大化

    学習中にジェネレータが実際に良質の画像を生成するタイミングを予測することは非常に困難であり、 学習を停止して多くの生成画像を手動で可視化するしか方法はない。
  47. 画質、消失勾配、モード崩壊に関する性能改善

  48. WGAN [4]は、式(1)のコストをWasserstein(ワッサースタイン)距離とも呼ばれる EM(Earth Mover)距離に置き換え、元のGANの消失勾配問題など解決している。

  49. 9.モデルスープ:複数の微調整されたモデルの重みを平均化することで、推論時間を増やすことなく精度を向上さ せることができる (原文: Model soups: averaging weights of multiple ne-tuned

    models improves accuracy without increasing inference time ) https://arxiv.org/abs/2203.05482v1 従来、モデルの精度を最大化するためには、(1)様々なハイパーパラメータで複数のモデルを訓練し、(2)保留さ れた検証集合で最も良い性能を示す個々のモデルを選び、残りを破棄する、というレシピがある。本論文では、大規 模な事前学習済みモデルの微調整という文脈で、この手順の第2段階を再検討する。微調整されたモデルは、しばし ば単一の低誤差ベイスンに位置するように見える。我々は、異なるハイパーパラメータ構成で微調整された複数のモ デルの重みを平均化することで、精度と頑健性が向上することを示す。従来のアンサンブルとは異なり、推論コスト やメモリコストをかけることなく、多くのモデルを平均化することができる。CLIP、ALIGN、JFTで事前学習した ViT-Gなどの大規模な事前学習済みモデルを微調整する場合、我々のスープレシピはImageNetのハイパーパラメー タスイープで最良のモデルよりも大幅に改善することができるのです。その結果、ViT-GはImageNetにおいて 90.94%のトップ1精度を達成し、新たな技術水準を示しました。さらに、このモデルスープのアプローチは、複数の 画像分類や自然言語処理タスクに拡張され、分布外性能を向上させ、新しい下流タスクのゼロショット性能を向上さ せることを示す。最後に、重み平均とロジットエンセンブルの性能の類似性を、損失の平坦性と予測値の信頼性に解 析的に関連付け、この関係を経験的に検証する。 目的:学習済みモデルをファインチューニングし各々のタスクに転移する際の精度・ロバスト性低下の問題解決 成果:アンサンブル学習と異なり推論時の計算コストが増加せず精度とロバスト性を高める手法(Model Soup)の提案 方法:異なるハイパーパラメータ下でファインチューニングしたモデルの最終層のパラメータを平均化する 固有名: Model soups 著者所属: University of Washington/Columbia University/Google Research/Meta AI Research/Tel Aviv University
  50. 背景: 一般的なモデルの高精度化では以下の手順でモデルの選択をする ①様々なハイパーパラメータ下でモデルを学習する ②検証データでモデルの精度を評価し、最良のモデルを選ぶ しかし、この選び方では以下の2つの問題点がある ①選択したモデルが必ずしも実際に取得したデータに対してもベストであるとは限らない (学習・検証・運用時のデータ間での分布の遷移がある可能性) ②ファインチューニングしたモデルでは転移した後、分布外のモデルに対し精度が低下する そこで3種類のModel Soup手法を提案する

    1.Uniform Soup:複数のモデルのファインチューニングした層のパラメータの平均値をとる 2.Greedy Soup:検証時の精度が低い順にモデルのファインチューニングした層のパラメータを足して平均を 取り、精度が向上したモデルのパラメータのみを残していく手法(AとBがあって、A> A+B → A) 3.Learned Soup:ミニバッチ最適化した重みづけをもとにモデルのパラメータを足し合わせていく手法(理論のみ) アンサンブルと違い計算コストは増加しない
  51. 上:精度の最も高いモデルはファインチューニングしたモデルではなく、むしろその間に存在する(赤いエリア) 下:Greedy Soup(紫)は少ないモデル数でファインチューニングした最良のモデルの精度に到達する

  52. 検証結果: 左:どのファインチューニングしたモデルよりもGreedy Soupモデルの方が分布内・外ともに精度が高い 右:分布内(ImageNet)、分布外(その他の大規模データセット)いずれにおいてもGreedy Soupはベストかベストに近い 位置にいる 分布内 分布外 精度とロバスト性向上

  53. 課題: ・適用性 →大規模データセットでの学習に比べ、中規模以下(ImageNet-22kなど)では精度上昇はあまり大きくない ・キャリブレーション性 →ファインチューニングしたモデルの層をすべて変えてしまうため、データの分布に遷移があってもこのモデルで はわからない(アンサンブル学習ではモデル単体のパラメータは変わらないため分布に変遷があればわかる)

  54. 目的: 表形式データでも精度の高いDeeplearning手法を提案 成果: 勾配ブ ースティング決定木(GBDT)に匹敵する性能を発揮 方法: 異なる3つの埋め込みモジュールを検討、これらを組み合わせることで大幅に性能改善 固有名: ー 著者所属:

    ー 10.表形式ディープラーニングにおける数値特徴のエンベッディングについて (原文: On Embeddings for Numerical Features in Tabular Deep Learning ) https://arxiv.org/abs/2203.05556v 最近、Transformerのようなディープアーキテクチャーが表形式のデータ問題で強い性能を示すようになった。従来 のモデル、例えばMLPとは異なり、これらのアーキテクチャは数値特徴のスカラー値を高次元埋め込みにマッピング してからメインバックボーンに混ぜ込んでいる。本研究では、数値特徴の埋め込みは表形式DLにおいて未開拓の自由 度であり、より強力なDLモデルの構築と、従来GBDTに適したいくつかのベンチマークにおいてGBDTと競合するこ とが可能であると論じる。まず、埋め込みモジュールを構築するための概念的に異なる2つのアプローチについて説 明する。最初のものはスカラー値の区分的線形エンコーディングに基づくものであり、2番目のものは周期的活性化 を利用するものである。次に、これらの2つのアプローチが、線形層やReLU活性化などの従来のブロックに基づく埋 め込みと比較して、大幅な性能向上をもたらすことを経験的に示す。また、重要な点として、数値特徴の埋め込みが Transformerだけでなく、多くのバックボーンに有効であることを示す。具体的には、適切な埋め込みを行った後、 単純なMLPのようなモデルは、注意ベースのアーキテクチャと同等の性能を発揮することができます。全体として、 我々は、表形式DLのさらなる改善のための良い可能性を持つ重要な設計側面として、数値特徴のための埋め込みを強 調します。
  55. 背景: これまで表形式データを取り扱うDeeplearningは多く発表されていたが、いずれも勾配ブ ース ティング決定木GBDTを一貫して上回ることができなかった。 表形式データについて: 構造化データ:2次元の表形式など値が数値・記号でテーブルに整理されている。 (例)固定長ファイル、ExcelやCVSファイルなど 非構造化データ:データに規則性がなく表形式にできないもの。 (例)画像、⾳声、動画、テキスト、センサーログなど 半構造化データ:表形式ではないがデータに規則性がある。

    (例)XML、JSON、html
  56. 埋め込みモジュール ②区分線形エンコーディング →前処理のbinningに基づいている ③周波数活性化 →高次元の埋め込み空間へ特徴量を転送 ・多層パーセプトロン(MLP) ・Transformer ・ResNet のようなアーキテクチャ バックボーン

    入力構造化データ例 One hot encording カテゴリカル データ 数値データ 特徴量の表現を変えることで Deeplearnigの性能が向上したという 論文にインスパイアされた ☆ポイント 埋め込みモジュールを提案するということが 本論文で力を入れている点である バックボーンのアーキテクチャの探索には力を入れず、 異なるアーキテクチャでも性能の同等レベルに向上できる Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains 推論結果 ①単純な微分可能層 →単純な線形層+活性化関数で構成される 数値データ
  57. データセットの例: California Housing (CA):カリフォルニア州の住宅価格の表形式データセット 住宅価格(中央値)、所得(中央値)、築年数(中央値)、総部屋数、総寝室数、人口、総世帯数、緯度、経度 評価結果の表記について: 線形層+活性化関数 ・周期性は式 (8) で定義される。

    ・PLEq は、分位数によって動かされる PLE を表す。 ・PLEt は、ターゲットを考慮した PLE を示す。 ・Linear_ は、バイアスのない線形層を示す。 ・LReLU はリーキーReLUを表す。 ・AutoDisはGuoら(2021)で提案された。 二乗平均平方根誤差
  58. 埋め込みモジュール① MLPに単純な微分可能層(単純な線形層+活性化関数)で構成される埋め込みモジュールを追加して評価 結果:精度向上に寄与している(劇的改善ではない) 表記について=↓: RMSE(低いほど良い) 、↑:精度に対応する(高いほど良い) 区分的線形エンコーディングの評価 結果:MLPとtransformerの両方のアーキテクチャで有益、 区分的線形化エンコーディング+埋め込みモジュール①を追加すると性能UP 埋め込みモジュル②

  59. 周期的活性化関数の評価 埋め込みモジュール③ ・普通のMLPより性能向上 ・周期的活性化関数と埋め込み⼦ジュール①の組み合わせは常に行うべき

  60. 提案手法ポイント1( vs MLP、ResNet、Transformer ) ・ほとんどのデータセットで数値特徴量の埋め込みにより3つの異なるバックボーンに顕著な改善が見られる ・PLR(周期的活性化関数と単純な微分可能埋め込みモジュールの組み合わせ)が最良の結果(平均性能) ・MLPのようなモデルと埋め込みモジュールの組み合わせはtransformerと埋め込みモジュールの組み合わせ と同じレベルの性能を示す

  61. 提案手法ポイント2( vs GBDT) ・MIデータセットでは提案手法はGBDTにすべて負けているが、それ以外では匹敵する性能を示している ・GBDTと比較すると、提案手法のアーキテクチャは効率が悪い

  62. None