AI最新論文読み会2022年4月

AI最新論文読み会2022年4月 YAMAHA MOTOR CO.,LTD ＊Komaike Kunimune Yamamoto Atsushi Saitou Takashi
（文献調査を上記で分担、今回の発表者＊）産業用ロボット| ヤマハ発動機 (yamaha-motor.co.jp) 2022国際ロボット展(iREX2022) - イベント | ヤマハ発動機株式会社 (yamaha-motor.com)

１.テンソルプログラムV：ゼロショットハイパーパラメータ転送による大規模ニューロネットワークのチューニング（原文： Tensor Programs V: Tuning Large Neural Networks via
Zero-Shot Hyperparameter Transfer）２．知的な意思決定者の共通モデルの探求（原文：The Quest for a Common Model of the Intelligent Decision Maker）３．キューブリックスケーラブルなデータセット生成ツール【pickup】（原文：Kubric: A scalable dataset generator）４．ディープネット：トランスフォーマーを1,000層まで拡張する（原文：DeepNet: Scaling Transformers to 1,000 Layers）５．スパース全MLPによる効率的な言語モデリング（原文： Efficient Language Modeling with Sparse all-MLP ）６．人工知能の数学（原文： The Mathematics of Articial Intelligence ）７．ブロック・リカレント・トランスフォーマー（原文： BLOCK-RECURRENT TRANSFORMERS ）８． GAN （原文： Generative Adversarial Network ）９．モデルスープ：複数の微調整されたモデルの重みを平均化することで、推論時間を増やすことなく精度を向上させることができる（原文： Model soups: averaging weights of multiple ne-tuned models improves accuracy without increasing inference time ）１０．表形式ディープラーニングにおける数値特徴のエンベッディングについて（原文： On Embeddings for Numerical Features in Tabular Deep Learning ） PaperWithCodeの10本を紹介 https://megalodon.jp/2022-0326-1516-40/https://paperswithcode.com:443/top-social?num_days=30

１.テンソルプログラムV：ゼロショットハイパーパラメータ転送による大規模ニューロネットワークのチューニング（原文： Tensor Programs V: Tuning Large Neural Networks via
Zero-Shot Hyperparameter Transfer） https://arxiv.org/abs/2203.03466v1 深層学習におけるハイパーパラメータ（HP）のチューニングは、数十億のパラメータを持つニューラルネットワーク（NN）では法外に高価な処理である。我々は、最近発見された最大更新パラメトリゼーション（μP）において、モデルサイズが変化しても、多くの最適なHPは安定したままであることを示す。これは、μPでターゲットモデルをパラメトリック化し、より小さなモデルで間接的にHPを調整し、ゼロショットでフルサイズモデルに転送する、つまり、フルサイズモデルを直接調整することなくHPを調整する新しいパラダイムを導き出すものである。Transformerと ResNetでμTransferを検証しています。例えば、1）13Mパラメータのモデルから事前学習用HPを転送することで、 BERT-large（350Mパラメータ）の公開値を上回り、BERT-largeの事前学習と同等の総チューニングコストで済む。 2）40Mパラメータからの転送により、67億GPT-3の公開値を上回り、総予習コストのわずか7%のチューニングコストで済む。この手法のPytorch実装はgithub.com/Microsoft/mupにあり、`pip install mup`でインストール可能です。目的：µTransferという新しいハイパーパラメータチューニング方法を提案成果：標準的なハイパーパラメータ調整で調整された大規模モデルの性能を凌駕する（超える）方法：µPでパラメーター化し、より小さなモデルでハイパーパラメータを間接的にチューニングし、フルモデルに移行することで、非常に大規模なネットワークを間接的に調整する固有名： Tensor Programs V 著者所属： Microsoft Corporation、OpenAI

背景：深層学習において、モデルの性能向上のためにハイパーパラメータの最適な組み合わせを探索するプロセスは重要である。一般的に、様々なパラメータの組み合わせを試行するため、時間と計算コストがかかる。小さなNNを訓練する場合、多くのハイパーパラメータを試し、最適なものを選択できるが、GPT-3のような大規模なNNでは実現可能とは言えない。課題：大規模なNNでのハイパーパラメータ調整の効率化着目：そこで、本論文では小さなNNでハイパーパラメータを調整し、大きなNNでそのハイパーパラメータを使用できる方法はないかに検討。
→小さなNNと大きなNNで最適なハイパーパラメータは、どのように変わるのか把握する。そのため、まず、モデルサイズとしてネットワークの幅を変えて確認した。幅n 深さ

2層のMLPの場合ネットワークの幅（width）を変えて確認横軸：ハイパーパラメータ（学習率）縦軸：損失結論：モデルサイズ(幅)が変わると最適なパラメータも変わってしまう →Max Update Parametrization（µP）がこの問題を解決する Transformerの場合

（例）２層MLPの式（n：幅） μPに切り替える・最終層W3の初期値を変更・最初と最後の層の学習率を変更・ SPとは対照的に、 µPでの最適な学習率は安定。・最適な学習率が安定しており、性能は幅とともに単調に向上標準的なパラメータ調整(SP)
Maximal Update Parametrization （µP） Maximal Update Parametrization(µP)

どのハイパーパラメータをµTransferできるのか？１．学習率など、小さいモデルから大きいモデルへと転送できるもの(可能) ２．正則化を主に制御(ドロップアウト、重み減衰)し、提案手法とは相性が悪いもの(不可) ３．学習規模を定義するもの、例えば前述の幅や、深さやバッチサイズなど、我々が他のハイパーパラメータを移行する際にまたがるもの(可能) µPは、様々なサイズのNNが特定の条件下で同じ最適なハイパーパラメータを共有するという事実を利用して、数十億のパラメーターモデル全体を直接調整する代わりに、小規模な調整プロセスを外挿して、はるかに大きなモデルにマッピングする。仮説が正しければ、様々な幅のµPモデルの訓練損失-ハイパーパラメーター曲線は、同様の最小値を共有する。 µTransfer
アルゴリズム：µTransfer を介した大規模なターゲットモデルの調整方法 1．最大更新パラメーター化（µP）でターゲットモデルをパラメーター化する 2．ターゲットモデルの小さいバージョン（幅および/または深さ）を調整する 3．調整されたハイパーパラメータをターゲットモデルにコピーします μPとμTransferに関する役割に応じてハイパーパラメータを3種類に分類

学習率、クロスエントロピー温度、初期化スケール、学習率スケジュールに対してプロットされているハイパーパラメータをµTransferできるもの学習率に対して、幅、深さ、バッチサイズ、およびシーケンス長全体をプロット学習規模を定義するもの小さなモデルから大きなモデルに転送できるもの参照：µTransfer: A technique
for hyperparameter tuning of enormous neural networks - Microsoft Research

GPT-3でµTransferを使用して、・4,000万パラメーターモデル(小さなモデル)→67億パラメーターモデル(大きなモデル) にハイパーパラメーターを転送した(1/168サイズ) ・ハイパーパラメータ調整方法は小さなモデルでランダムサーチして決定 GPT-3に対するµTransferの有効性を評価結果：・μTransferredGPT-3（提案手法)が、全てのタスクで同じサイズの元のバージョンよりも優れている・μTransferredGPT-3（提案手法)の性能は、元のGPT-3の論文の130億モデルの性能に匹敵する LAMBADAデータセット：遠い単語や文章の依存関係を捉える必要のあるデータセットで、
文章の最後の単語が何かということを予測する。参照：µTransfer: A technique for hyperparameter tuning of enormous neural networks - Microsoft Research Perplexity：・人の話した言葉に対する相違指標（小さいほど良い）・一般的に流暢さを表す。

目的：心理学、神経科学、倫理学の自然科学、人工知能の工学科学、最適制御理論など複数の業界で共通のものを指している言葉を整理すること(共通モデル化が目的)。成果：言葉の整理を実施方法：言葉の定義固有名：ー著者所属：
University of Alberta ２．知的な意思決定者の共通モデルの探求（原文：The Quest for a Common Model of the Intelligent Decision Maker） https://arxiv.org/abs/2202.13252v1 Multi-disciplinary Conference on Reinforcement Learning and Decision Makingの前提は、複数の分野が時間をかけて目標指向の意思決定を行うことに関心を共有していることである。この論文のアイデアは、心理学、人工知能、経済学、制御理論、神経科学にまたがって実質的で広く保持されている意思決定者の視点（私は「知的エージェントの共通モデル」と呼ぶ）を提案することによって、この前提をより鮮明に、より深くしようというものである。この共通モデルには、いかなる生物、世界、あるいは応用領域にも固有のものは含まれていない。共通モデルには、意思決定者とその世界との相互作用（入力と出力、および目標が必要）と、意思決定者の内部構成要素（知覚、意思決定、内部評価、および世界モデルのための）が含まれる。これらの側面と構成要素を特定し、分野によって異なる名称が与えられているが、本質的には同じ考えを指していることを指摘し、分野を超えて使用できる中立的な用語を考案することの難しさと利点について論じる。今こそ、知的エージェントの実質的な共通モデルに、複数の多様な分野が収斂していることを認識し、それを基礎に据えるべき時である。

分野が違うと言葉の定義が違う例：制御理論では意思決定者は、コントロールであり状態を受信し、制御信号をプラントに送信する心理学では意思決定者は、生物であり、刺激を受け取ってその環境に応答を送信する ↓ 意思決定者はエージェントと呼ぶ。「エージェント」という用語は、自律性と目的性を意味するため、「意思決定者」よりも好ましい意思決定エージェントは、エージェント以外のすべてのものと相互作用するこれは、「環境」または「世界」と呼ばれる
エージェントが行動を起こし、観察する。

エージェントの内部構造エージェントの内部構造の提案された共通モデルには、知覚、反応ポリシー、価値関数、遷移モデルの4つの主成分がある ①知覚コンポーネント観察と行動を処理して主観的な状態を生成これは、行動（リアクティブポリシー）の選択、将来の報酬（値関数）、および将来の主観的状態を予測するため（遷移モデル）。状態は、エージェントの観察と行動に関連しており、世界の実際の内部作業に対応していない可能性があるという点で主観的です。多くの場合、主観的状態の構築は固定された前処理ステップであり、その場合、エージェントは観察として主観的状態を直接受け取ると想定。 ②リアクティブポリシーコンポーネント主観的な状態を行動にマッピングします。全体的な行動の生成をこれらの2つの部分（認識とポリシー）に分離することは、多くの分野で一般的
③価値関数コンポーネント主観的な状態（または状態と行動のペア）をその望ましさのスカラー評価にマッピングする ④遷移モデル状態を取り込み、様々な行動が実行された場合に次の状態が発生することを予測する遷移モデルは、様々な行動の効果をシミュレートするために使用され、値関数の助けを借りて、可能な結果を評価し、予測された良い結果を伴うアクションを優先し、予測された悪い結果を伴う行動を嫌うようにリアクティブポリシーを更新

３．キューブリックスケーラブルなデータセット生成ツール（原文：Kubric: A scalable dataset generator） https://arxiv.org/abs/2203.03570v1 機械学習の原動力はデータであり、学習データの量と質は、しばしば、アーキテクチャや学習の詳細よりもシステムの性能にとって重要である。しかし、実データを大規模に収集、処理、アノテーションすることは困難であり、コス
トもかかる上、プライバシー、公平性、法的な問題も頻繁に発生する。合成データは、これらの欠点に対処できる可能性を秘めた強力なツールである。1) 安価である 2) 豊富なグランドトゥルース注釈をサポートする 3) データを完全に制御できる 4) バイアス、プライバシー、ライセンスに関する問題を回避または軽減できる。残念ながら、効果的なデータ生成のためのソフトウェアツールは、アーキテクチャ設計やトレーニングのためのツールに比べて成熟しておらず、生成の取り組みが断片的である。KubricはPyBulletやBlenderと連携し、豊富なアノテーションを含むフォトリアリスティックなシーンを生成するオープンソースのPythonフレームワークで、数千台のマシンに分散し、 TBsのデータを生成する大規模ジョブにもシームレスに拡張することができます。我々は、3D NeRFモデルの研究からオプティカルフロー推定に至るまで、13種類の生成データセットを提示することで、Kubricの有効性を実証しています。Kubric、使用した資産、すべての生成コード、およびレンダリングされたデータセットを再利用および修正できるように公開する。目的：Kubric（ビジョンタスクのためのフォトリアリスティックな合成データセットを生成するpythonフレームワーク）の紹介成果：汎用的なデータセット作成パイプラインの実現方法：PyBulletとBlenderを使ったシンプルなオブジェクト指向のAPIインターフェースを提供し、セットアップ、データ転送、同期維持の複雑さを解消して実現固有名： Kubric 著者所属： Google Research/University of Toronto/McGill University/Mila/MIT/DeepMind /UBC/University of Cambridge/ServiceNow/Haiper/Simon Fraser University

背景：ディープラーニングには、高品質なデータ（規模に関係なく）が不可欠です。これは間違いなく、多くのアーキテクチャやトレーニングの詳細と同等かそれ以上に重要である。しかしながら、多くの単純なビジョンタスクでさえ、十分な量のデータを収集し、管理することは困難な課題です。主な障壁としては、高品質で詳細なアノテーションの費用、データの多様性、タスクドメインの複雑性の制御、さらにプライバシー、公平性、ライセンスに関する懸念が挙げられます本論文の貢献について：・データの複雑性を細かく制御し、豊富なグランドトゥルースアノテーションを持つ、無数のビジョンタスクのためのフォトリアリスティックな合成データセットを生成するフレームワークKubric を紹介する。
・Kubricは数千台のマシンで大規模なジョブをシームレスに実行し、標準的なエクスポートデータフォーマットでテラバイトのデータを生成することが可能である。・Kubricの汎用性は、3D NeRFモデルからオプティカルフロー推定まで、新しいビジョンチャレンジのための 13のデータセットとベンチマーク結果によって実証されています。

従来から、大規模合成データセットが特定のタスクのために存在する。 CLEVR：構成言語と初歩的な視覚的推論のための診断データセット SceneNet RGB-D： RGB-Dビデオデータセットであり、3Dカメラのポーズ、表面再構成、およびインスタンスレベルのセマンティックセグメンテーションで注釈が付けられています。 NYU v2：MicrosoftKinectのRGBカメラとDepthカメラの両方で記録されたさまざまな屋内シーンのビデオシーケンスで構成されています。
SYNTHIA：運転シナリオのコンテキストでのセマンティックセグメンテーションおよび関連するシーン理解の問題を支援する目的で生成されたデータセット virtual KITTI：オブジェクト検出とマルチオブジェクトトラッキング、シーンレベルとインスタンスレベルのセマンティックセグメンテーション、オプティカルフロー、深度推定など、フォトリアリスティックな合成ビデオデータセットです。 flying things 3D：オプティカルフロー、視差、シーンフロー推定のための合成データセット特殊な合成データパイプライン汎用的なデータセット作成パイプライン Kubric

Kubricは、レンダリングエンジン、物理シミュレータ、データエクスポート基盤の間の接着剤として機能する⾼レベルのPythonライブラリである。・外部ソースからロードされたアセットをランダムにシーンに投入し、・場合によっては物理シミュレーションを実行し、・結果のフレームをレンダリングし、・最後に画像、アノテーションレイヤー、およびその他のメタデータをエクスポートする。・Kubricは、コンストレイントは未サポート・Kubricは、bpyモジュールをインターフェースとして使用・Kubricは、前処理されたいくつかのアセットコレクションをGoogle
Cloudの公開バケットで提供 KuBasic. ShapeNetCore.v2. Google Scanned Objects (GSO) Polyhaven

Kubricの設計指針： ①オープンである・データ生成コードは、アカデミアや産業界の研究者が自由に使えるもの。・KubricはApache2ライセンスのオープンソース。 ②使い勝手が良い・バックグラウンドでPyBulletとBlenderを使ったシンプルなオブジェクト指向のAPIインターフェースを提供・セットアップ、データ転送、同期維持の複雑さを解消しています。・様々なデータソースから加工済みの3Dアセットを提供し、最小限の労力で利用可能 ③フォトリアリスティック（写実性）・BlenderのCyclesレイトレーシングエンジンは高いレベルのリアリズムをサポートし、再反射、屈折、間接照明、
モーションブラー、被写界深度などの複雑な視覚現象をモデル化することが可能です。 ④スケーラビリティ（拡張性) ・ローカルワークフローからクラウド上の数千台のマシンで大規模なジョブを実行するところまでシームレスに拡張 ⑤ポータブビリティ（再現性）・Blender Pythonモジュールのインストールが難しく、バージョン間でかなりの差異があるため、特に重要です。・Kubric Dockerイメージを配布することで、移植性の確保とインストール負荷削減。 ⑥データエクスポート・深度マップ、セグメンテーション、オプティカルフロー、表面法線、物体座標、衝突イベント、カメラパラメータバウンディングボックス、速度、質量、摩擦など豊富なグランドトゥルースアノテーションのセットとして出力

Kubricデータセットと課題: Kubricの性能と汎用性を示すことを目的としてチャレンジ問題を説明する。・実世界のアプリケーションに追加のトレーニングデータの提供（sim-to-real）。・特定の仮説を実証的に検証するためのもの（テストなど）として使用・既存および将来の手法を比較するためのベンチマークとして使用。

表6. 姿勢推定 COCO領域外の姿勢を持つ人体モデルの合成画像を追加することで、領域外（Yoga）の結果が改善される。キーポイント平均平均精度（mAP）指標（高いほど良い） Active：より多様なポーズを持つ独自のデータセット Yoga：1000例からなる歪んだポーズのテストセット図8. 姿勢推定
ポーズの多様化を目指した合成動画からのフルアノテーション画像（左）実世界のアノテーションデータセットに登場する動き、被写体、背景（右）、COCO相当画像の例。 4.4 姿勢推定合成データを追加するとキーポイントの平均値-精度を向上させた。追加トレーニングとして使用

4.5 視覚表現の事前学習・Kubricを用い、ShapeNetオブジェクトと背景画像を様々な方法で組み合わせた画像を生成・オブジェクトのカテゴリを予測するResNet-50を事前学習→このモデルを様々なデータセットに転送する。（結果）ランダムな事前学習とImageNetでの事前学習との間のギャップを既に半減 ⇒このアプローチが有望であることを示唆現状：インターネット上の膨大な写真のコレクション（ウェブ画像）からなるデータセットで事前学習将来：合成データで事前学習させることができると仮定している。仮説の検証として使用。

4.8.複雑なBRDF 少数の観測から3Dシーンを再構築するというタスクにおいて、既存手法のベンチマークとして使用。既存：ほとんど拡散表面で構成され、鏡面ハイライトがほとんどないシーンが対象課題：シーン表面の反射率が高い場合の対応・ShapeNetデータセットの高スペキュラーバージョンをレンダリングし、・既存のアプローチが、形状に内在するスペキュラの表現にいかに苦労しているかを示しています。

４．ディープネット：トランスフォーマーを1,000層まで拡張する（原文：DeepNet: Scaling Transformers to 1,000 Layers） https://arxiv.org/abs/2203.00555v1 本論文では、非常に深いTransformerを安定化させるためのシンプルかつ効果的な方法を提案する。具体的には、
Transformerの残留接続を修正する新しい正規化関数（DeepNorm）を導入し、理論的に導かれた初期化を伴う。理論的な解析の結果、モデルの更新を安定的に抑制できることが示された。提案手法は、Post-LNの優れた性能とPre- LNの安定した学習という、2つの世界の長所を兼ね備えており、DeepNormを好ましい代替手法とすることができる。我々は、Transformerを1,000層（すなわち、2,500の注意とフィードフォワードネットワークのサブレイヤー）まで問題なく拡張することに成功し、これは、これまでのディープTransformerよりも1桁深いものとなっている。驚くべきことに、7,482の翻訳方向を持つ多言語ベンチマークにおいて、我々の200層モデル（パラメータ3.2B）は、 48層モデル（パラメータ12B）を5BLEUポイント上回り、有望なスケーリング方向であることが示された。目的：非常に深いトランスフォーマーの学習を安定化成果：学習の安定化＋モデルパラメータ数の削減方法：残差接続時にモデルの更新を定数で抑制する正則化関数(DEEPNORM)の提案固有名： DeepNorm、DeepNet 著者所属： Microsoft Research

主なTransformerの発表年と層の深さの比較：著者らの提案するDeepNetが頭抜けて層が深いここのNormを LinearNorm →DeepNorm DeepNet ： vanilla TransformerのすべてのサブレイヤーにおけるPost-LNをDeepNormに置き換えたもの

DeepNormの実装：エンコーダー・デコーダーの層の深さによって求まる定数α・βで残差接続時のモデルパラメータ更新を抑制する手法左図：vanilla Transformerでは層が深くなるにつれて更新するパラメータの数が増えるが、DeepNetでは抑制右図：その評価結果。6層ずつのエンコーダー・デコーダーではVanilla Transformerの方が精度が高いが、 Vanillaでは発散してしまうような層の深さでもDeepNetは収束し（学習の安定化）、高い精度が出る LayerNormなし残差接続後 LayerNorm
残差接続前 LayerNorm 残差接続後 DeepNorm BLEUスコア：機械翻訳の評価方法（プロによる翻訳と近ければ近いほどその機械翻訳の精度は高い）。スコア40以上が高品質の目安。

目的：スパースAll-MLPの提案成果： TransformerベースのMoEやdense Transformerを超える性能＋学習効率を最大2倍改善方法： gMLPの主要な密なブロックをスパースブロックに置き換える固有名： Sparse all-MLP
著者所属：ー５．スパース全MLPによる効率的な言語モデリング（原文： Efficient Language Modeling with Sparse all-MLP ） https://arxiv.org/abs/2203.06850v2 All-MLPアーキテクチャは、注意ベースのモデルに代わるものとして、ますます関心を集めています。自然言語処理においては、gMLPのような最近の研究により、All-MLPは言語モデリングにおいてはTransformerに匹敵するが、下流のタスクにおいてはまだ遅れをとっていることが示されている。本研究では、MLPの表現力の限界を分析し、特徴量と入力（トークン）次元の両方でMoE（Mixture-of-Experts）を用いてスパースに活性化したMLPを提案する。このようなスパース全MLPは、計算量を一定に保ちながら、モデルの容量と表現力を大幅に向上させる。我々は、2つのルーティング戦略を用いて、条件付き計算を組み込む際の重要な課題に取り組む。提案するスパースAll-MLPは、 TransformerベースのMoE（GShard、Switch Transformer、Base Layers、HASH Layers）、Dense Transformer、 All-MLPと比較して、言語モデリングの複雑性を改善し、学習効率を最大2倍改善することができます。最後に、ゼロショットインコンテキスト学習の性能を6つの下流タスクで評価し、TransformerベースのMoEやdense Transformerを凌駕することを明らかにした。

sMLP アーキテクチャの概略図 N1 個の密なブロック (Dense Blocks) と N2 個の疎なブロック (Sparse
Blocks)で構成異なるトークンの特徴量の同じ次元を集めたベクトル tMoE：ルーター (router) が、トークン単位 (x1,x2,...) で、どのエキスパート FF1, FF2, ... に割り振るかを決定。 sMoE：入力を特徴量の次元方向に分割したもの (y1,y2,...) を、それぞれどのエキスパート SL1, SL2, ..., に割り振るかを決定。 tMoEのみだと同じ隠れ次元の情報が異なるExpert(処理部)へ渡ってしまうため、精度が上がらないそのため、sMoEにより同じ隠れ次元のベクトルを同じExpert(処理部)へ渡すことで、前のトークンの情報へアクセスでき精度が上がる背景：gMLPでは下流タスクでは精度が出ていない。空間ゲーティング層を使った MLP モデルgMLP：この主要な密なブロックを粗なブロックへ置き換えることで計算コストは変わらず、表現力を向上混合エキスパートモデル (Mixture of Experts)：複数個の部分ネットワークに計算を動的に割り振り、その結果を統合する構造を持ったネットワーク。モデルの重みと計算が、異なるデバイス (GPU) 上のエキスパート (専門家) に割り振られ、計算量を増やすことなく、モデルの容量を大幅に上げ、訓練も高速化できるという特徴がある。

学習効率を最大2倍改善

データセット：下流タスク COPA（因果推論タスク）、PIQA （物理世界の仕組みに関する質問）、 StoryCloze（5文な長さの物語に対する正しい終止符の選択）、 Winogrande（代名詞がどの単語を示しているの判断タスク）、 HellaSwag（物語などのエンディングを選ぶ）、ReCoRD（多肢選択式のQAタスク） 6つの下流タスクで評価し、TransformerベースのMoE（GShard、Switch Transformer、Base Layers、 HASH
Layers）やdense Transformer（GPT3）をスパースAll-MLPが凌駕する（超える）

６．人工知能の数学（原文： The Mathematics of Articial Intelligence ） https://arxiv.org/abs/2203.08890v1 現在、私たちは科学と社会生活の両面において、人工知能の目覚ましい成功を目の当たりにしています。しかし、厳
密な数学的基盤の構築はまだ初期段階にある。この記事は、2022年の国際数学者会議での招待講演に基づいており、特に、現在の人工知能の「主力商品」であるディープニューラルネットワークに焦点を当てたい。いくつかの模範的な結果とともに主な理論的方向性を提示し、主要な未解決問題について議論する。サーベイ論文目的：人工知能の問題点である数学的基盤の欠如を明確にすること。成果：人工知能の数学的基礎および数学問題への人工知能の手法適用に関してまとめ、人工知能の問題を提起した。方法：人工知能の各問題について数学的なアプローチを時系列に紹介し、現状の課題を明確にしていく。固有名：ー著者所属：ー

背景：人工知能は現在、自律⾛行や⾳声認識などの公共分野と、医療診断や分⼦動力学などの科学分野の両方で、次々とブレークスルーを起こしている。これは、計算能力の飛躍的向上や膨大な学習データが入手できるようになったためである。一方で、ディープニューラルネットワークのような手法の実用的な限界が全く検討されておらず、現状ではニューラルネットワークはまだ「何でも屋」と考えられていることに加え、包括的な理論的基礎が全く欠けていることが、新たな問題として浮上している。課題：人工知能の問題点＝数学的基盤の欠如（モデル性能の誤差境界や入力データへの摂動の影響＝ロバスト性の問題）必要性：
・人工知能の数学的基礎：ロバスト性の欠如などの現在の障害を克服したり、学習プロセス全体を強固な理論的基盤の上に置いたりすることを目的とする。・数学的問題のための人工知能：逆問題や偏微分方程式のための優れたソルバー開発で人工知能の方法論を採用する。

ディープニューラルネットワークの定義ディープニューラルネットワークの応用例ステップ１（データセットの訓練‧試験分割）ステップ２（アーキテクチャの選択）：層数L、各層のニューロン数、活性化関数ρなど、表現力の決定ステップ３（トレーニング）：最適化問題ステップ４（テスト）：学習したニューラルネットの性能確認（汎化能力、一般化）

人工知能のための数学的基盤 DNNの学習過程全体を統計的学習問題として考えると、下記3つの研究方向は、まさに全体の誤差を分析するための自然な研究方向であることがわかる。１．表現力：ニューラルネットワークのアーキテクチャが、DNNの最良の性能を左右するのか、また、どの程度左右するのかを一般的に理解することを目的。この問題にアプローチは、応用調和解析や近似理論２．学習/最適化：確率的勾配降下のような学習アルゴリズムの分析、すなわち、問題自体が非常に非凸であるにもかかわらず、なぜ適切なローカルミニマムに収束することが多いのかを問うことが、この方向の主な目的である。主要な方法論は、代数/微分幾何学、最適制御、最適化の領域から得られる。
３．一般化：この方向は、サンプル外誤差の理解、すなわち、サンプル外誤差を導き出すことが目的。必要な手法は、学習理論、確率論、統計学が主流である。説明可能性：現時点では、数学的基礎の観点からは、まだ未開拓の分野である。与えられた訓練済みのディープニューラルネットワークが、入力データのどの特徴が判断に重要であるかという意味で、どのように判断に至るかを深く理解することが目標である。情報理論や不確実性の定量化など、求められるアプローチの幅は非常に広い。

最適化一般化勾配降下法と確率的勾配降下法の比較二重降下曲線

数学的問題のための人工知能現在の大きなトレンドの一つは、モデル世界とデータ世界の良いところを取り入れるという意味で、古典的なソルバーとディープラーニングを最適に組み合わせることである。１．逆問題画像科学の分野では、ノイズ除去、デブラーリング、インペインティング（画像の欠落部分の復元）など２．偏微分方程式偏微分方程式の解をディープニューラルネットワークで近似するもので、偏微分方程式を損失関数に組み込むことにより、この課題に応じて学習させるものである。シアーレットによるスパース正則化

まとめ人工知能の数学的な7つの重要問題を提起。・表現力、最適化、一般化、説明可能性をサブフィールドとする「人工知能のための数学的基礎」・逆問題や偏微分方程式への応用に焦点を当てた「数学的問題のための人工知能」における主要な障害となる。１．深さの役割について２．ニューラルネットワークのアーキテクチャのどの部分がディープラーニングの性能に影響を与えるかについて３．確率的勾配降下法は、非凸問題にもかかわらず、なぜ良好なローカルミニマムに収束するのかについて４．なぜ大規模なニューラルネットワークはオーバーフィットしないのかについて５．なぜニューラルネットワークは超高次元環境で優れた性能を発揮するのかについて
６．ディープアーキテクチャは、データのどのような特徴を学習するのかについて７．ニューラルネットワークは、自然科学における高度に専門化された数値計算アルゴリズムに取って代わることができるのだろうかについて

７．ブロック・リカレント・トランスフォーマー（原文： BLOCK-RECURRENT TRANSFORMERS ） https://arxiv.org/abs/2203.07852v1 この変換器は、シーケンスに沿ってリカレント的に変換層を適用し、シーケンス長に対して線形的な複雑性を持つ。このリカレントセルは、単一のトークンではなく、トークンのブロックに対して動作し、ブロック内の並列計算を利用して、アクセラレータのハードウェアを効率的に使用する。セル自体は驚くほどシンプルである。自己注意と交差注意を用いて、大きな状態ベクトルとトークンの集合に対してリカレント関数を効率的に計算します。私たちのデザ
インはLSTMセルから一部インスピレーションを受けており、LSTMスタイルのゲートを使用していますが、典型的な LSTMセルを数桁スケールアップしています。再帰の実装は、計算時間とパラメータ数の両方において従来の変換層と同じコストでありながら、非常に長いシーケンスに対する言語モデリングタスクのパープレックスを劇的に改善することができます。このモデルは長距離のTransformer XLのベースラインよりも大きなマージンを持ち、かつ2倍の速度で動作する。PG19（書籍）、arXivの論文、GitHubのソースコードでその有効性を実証しています。目的： Transformer では長文の自然言語処理が難しい成果：通常のTransformerと処理時間・計算コストは変わらず、長文翻訳の精度を向上方法：通常のTransformerでは難しいセルフアテンション時のウィンドウサイズの変更を容易にした固有名： Block-Recurrent Transformer 著者所属： Google Research、 The Swiss AI Lab IDSIA, SUPSI & USI

再帰型NNの欠点１．トークン(文章から切り出した単語)を逐次処理する必要があるため学習・推論が遅い(並列化ができない) ２．過去のトークン全体を1つのステートベクトルにまとめ伝播しているため、過去のトークンにアクセスするにはベクトルサイズに応じて2次関数的に増大するベクトルの積を処理する必要がある３．トークンを処理するごとに前のステートの一部を消すため、長い文章では勾配が消失してしまう Transformerの欠点・セルフアテンションはシーケンス長(文の長さ)に対して2次関数的な複雑性を持つため、長文の翻訳が難しい (セルフアテンションでは入力(Query)とメモリ(Key,Value)がすべて同じテンソルを使うため) 背景: 自然言語処理において回帰型NNとTransformerには以下のような欠点があり長文の翻訳の精度が上がらなかった。

従来の手法の欠点に対し、著者らの手法では・トークンの処理とステートの処理を並列でおこなうことにより処理効率を向上する・従来のTransformer同様、過去のトークンに直接アクセスできるためベクトル積を処理する必要がない入力されたKey,Value 入力されたQuery キャッシュ化されたKey,Value 入力されたKey,Value 入力されたQuery 従来のアテンションスライディングアテンション
・アテンションの際にスライディングウィンドウを用いることにより、アテンションの処理は従来のアテンションでのシーケンス長に2次関数的→1次関数的比例に改善した・さらに、前の処理のKey,Valueがキャッシュされて残るため、勾配が消失しにくい

右表：パープレキシティ(分岐数)が0の方が精度が高い・XL(Transformer-XL), ・Slide(XL-Cacheの代わりにスライディングウィンドウを実装したTransformer), ・FeedBack(FeedBack TransformerにRecurrentCellを追加したもの)と比べ、 Rec(RecurrentBlockTransformer)が最もパープレキシティが低い(精度が高い) 右図:RecのDual, Single, Skipとは左図のRecurrentCellにおけるゲートの数のこと Dual：
Gateは2つとも有効 Single： Linear Projectionとその直後のGateを無効にしたもの Skip： MLPとそれに関連するGateを無効にしたもの

目的： GANについてより良く理解し、このトピックに関する最新文献を身近なものにすること成果： ↑ 方法： GANの原理的な仕組みを説明し、学習や評価における固有の問題点を提示する。固有名：ー著者所属：ー
８． GAN （原文： Generative Adversarial Network ） https://arxiv.org/abs/2203.00667v1 Generative Adversarial Networks（GAN）は、高品質なデータを生成するためのフレームワークとして非常に人気があり、多くの領域で学界と産業界の両方で絶大な利用を受けている。特に、コンピュータビジョンの分野では、最先端の画像生成を実現し、大きなインパクトを与えている。本章では、GANの原理的な仕組みを説明し、学習や評価における固有の問題点を提示することで、GANの入門的な解説を行う。特に、以下の3つの問題に注目する。(1）モード崩壊、（2）勾配の消失、（3）低画質画像の生成。次に、これらの課題を解決するアーキテクチャ可変なGAN と損失可変なGANをいくつか挙げる。最後に、実世界でのGANの利用例を2つ挙げる。具体的には、データ補強と顔画像生成である。

GAN （Generative Adversarial Network）とは、与えられたデータセットの分布を学習し、そこから新しい事例を生成する手法である GAN基本概念 GANのアーキテクチャは、2つのコンポーネントから構成されている。識別器D と生成器G である。 Dは自然分布からの実画像と生成された画像を区別するように訓練され、Gは識別器を欺く偽画像を
作成するように訓練される。 GAN の目的は、生成されたサンプルの分布G（ｚ）～Pg を学習して、現実世界の分布 Pr を推定することである。識別器D 生成器G 実画像生成画像現実世界の分布Pr G（z）~Pg z~Pz

GANは以下のmin-max最適化問題を解くことで最適化される。１．識別器の学習：生成器のパラメータを固定した状態で上式を最大化する。・第1項は、実データの場合。この項を最大化するにはlog内部を最大化すればよいため、識別結果として1を出力させるよう学習させる。・第2項は、生成されたデータの場合。log内部を最大化するためには識別器の出力を最小化、つまり0を出力するようにすれば良い。２．生成器の学習：識別器のパラメータは固定のため第2項を考える。 log内部を最小化をするため識別器は、1を出力するようにすれば良い。パラメータ固定パラメータ固定
TRUE FALSE Pr Pz X’ X’ Pz 双方向 TRUE

GANの利点と問題点利点 Sharp images: GANは他の生成モデルよりもシャープな画像を生成。VAEで生成された画像よりも高品質。 Configurable size：潜在的な確率変数のサイズが制限されないため、生成器の探索空間が豊かになる。 Versatile generator: GANフレームワークは、アーキテクチャ上の制約がある他の生成モデルとは異なり、
様々な生成ネットワークをサポートすることができます。VAEでは、生成器の第一層は、ガウシアンのみ。問題点 Mode collapse（モード崩壊）：生成器と識別器の同期学習において、生成器は識別器を欺くような特定のパターン（モード）を生成するように学習する傾向がある。このパターンは式(1)を最小化するが、生成器はデータセットの全分布をカバーすることはない。 Vanishing gradients（勾配消失）: このような場合、ジェネレータの学習ステップでは、非常に低い勾配が逆伝播されるため、ジェネレータの学習がうまくいかない。 Instability（不安定）：モデルのパラメータは変動し、一般に学習中は安定しない。ジェネレーターは非常に高品質な画像を出力するポイントに到達することはほとんどない。

Mode collapse（モード崩壊）（下段）

・２つの確率密度関数の間の距離は, ダイバージェンスと呼ばれる。・その中で最も有名なものは KL(カルバックライブラー) ダイバージェンス JS(ジェンセン-シャノン) ダイバージェンス・GAN では対照形な指標として
JS(ジェンセン-シャノン) ダイバージェンスを用いる. GANの学習とJSダイバージェンスの関係から、GANの不安定性が説明できると考えられる。 Vanishing gradients（勾配消失）: (a) ゼロ平均のガウス分布である実画像分布Prと3種類のガウス分布（Pg1、Pg2、Pg3）。 (b) 平均が0から80の間にあるガウス分布PrとPgの間のJSダイバージェンス測定値をプロットしたもの識別器が最適に近い場合、実際の分布Prから離れたPgで生成器を学習しようとすると、勾配が非常に小さくなり、学習が実行できなくなるのである（学習の初期）。

Instability（不安定）：図5 GANにおける学習の不安定さ。 (a)式(1)の損失を用いたGAN学習におけるJS 距離の指標。この指標は生成された画像の品質との相関が低く、JS距離がとる最高値であるlog2＝0.69で飽和する。 (b) ジェネレータのコストを変えて学習させたところ、画質を大きく向上させることなく、誤差が大きくなってしまった。プロットは[4]から引用。補足：log（1-D（G（z）））の最小化ではなくlog（D（G（z）））の最大化
学習中にジェネレータが実際に良質の画像を生成するタイミングを予測することは非常に困難であり、学習を停止して多くの生成画像を手動で可視化するしか方法はない。

画質、消失勾配、モード崩壊に関する性能改善

WGAN [4]は、式（1）のコストをWasserstein（ワッサースタイン）距離とも呼ばれる EM（Earth Mover）距離に置き換え、元のGANの消失勾配問題など解決している。

９．モデルスープ：複数の微調整されたモデルの重みを平均化することで、推論時間を増やすことなく精度を向上させることができる（原文： Model soups: averaging weights of multiple ne-tuned
models improves accuracy without increasing inference time ） https://arxiv.org/abs/2203.05482v1 従来、モデルの精度を最大化するためには、（1）様々なハイパーパラメータで複数のモデルを訓練し、（2）保留された検証集合で最も良い性能を示す個々のモデルを選び、残りを破棄する、というレシピがある。本論文では、大規模な事前学習済みモデルの微調整という文脈で、この手順の第2段階を再検討する。微調整されたモデルは、しばしば単一の低誤差ベイスンに位置するように見える。我々は、異なるハイパーパラメータ構成で微調整された複数のモデルの重みを平均化することで、精度と頑健性が向上することを示す。従来のアンサンブルとは異なり、推論コストやメモリコストをかけることなく、多くのモデルを平均化することができる。CLIP、ALIGN、JFTで事前学習した ViT-Gなどの大規模な事前学習済みモデルを微調整する場合、我々のスープレシピはImageNetのハイパーパラメータスイープで最良のモデルよりも大幅に改善することができるのです。その結果、ViT-GはImageNetにおいて 90.94%のトップ1精度を達成し、新たな技術水準を示しました。さらに、このモデルスープのアプローチは、複数の画像分類や自然言語処理タスクに拡張され、分布外性能を向上させ、新しい下流タスクのゼロショット性能を向上させることを示す。最後に、重み平均とロジットエンセンブルの性能の類似性を、損失の平坦性と予測値の信頼性に解析的に関連付け、この関係を経験的に検証する。目的：学習済みモデルをファインチューニングし各々のタスクに転移する際の精度・ロバスト性低下の問題解決成果：アンサンブル学習と異なり推論時の計算コストが増加せず精度とロバスト性を高める手法(Model Soup)の提案方法：異なるハイパーパラメータ下でファインチューニングしたモデルの最終層のパラメータを平均化する固有名： Model soups 著者所属： University of Washington/Columbia University/Google Research/Meta AI Research/Tel Aviv University

背景：一般的なモデルの高精度化では以下の手順でモデルの選択をする ①様々なハイパーパラメータ下でモデルを学習する ②検証データでモデルの精度を評価し、最良のモデルを選ぶしかし、この選び方では以下の2つの問題点がある ①選択したモデルが必ずしも実際に取得したデータに対してもベストであるとは限らない (学習・検証・運用時のデータ間での分布の遷移がある可能性) ②ファインチューニングしたモデルでは転移した後、分布外のモデルに対し精度が低下するそこで3種類のModel Soup手法を提案する
1．Uniform Soup:複数のモデルのファインチューニングした層のパラメータの平均値をとる 2．Greedy Soup:検証時の精度が低い順にモデルのファインチューニングした層のパラメータを足して平均を取り、精度が向上したモデルのパラメータのみを残していく手法（AとBがあって、A＞ A＋B → A） 3．Learned Soup:ミニバッチ最適化した重みづけをもとにモデルのパラメータを足し合わせていく手法(理論のみ) アンサンブルと違い計算コストは増加しない

上：精度の最も高いモデルはファインチューニングしたモデルではなく、むしろその間に存在する(赤いエリア) 下：Greedy Soup(紫)は少ないモデル数でファインチューニングした最良のモデルの精度に到達する

検証結果：左：どのファインチューニングしたモデルよりもGreedy Soupモデルの方が分布内・外ともに精度が高い右：分布内(ImageNet)、分布外(その他の大規模データセット)いずれにおいてもGreedy Soupはベストかベストに近い位置にいる分布内分布外精度とロバスト性向上

課題：・適用性 →大規模データセットでの学習に比べ、中規模以下(ImageNet-22kなど)では精度上昇はあまり大きくない・キャリブレーション性 →ファインチューニングしたモデルの層をすべて変えてしまうため、データの分布に遷移があってもこのモデルではわからない(アンサンブル学習ではモデル単体のパラメータは変わらないため分布に変遷があればわかる)

目的：表形式データでも精度の高いDeeplearning手法を提案成果：勾配ブースティング決定木（GBDT）に匹敵する性能を発揮方法：異なる3つの埋め込みモジュールを検討、これらを組み合わせることで大幅に性能改善固有名：ー著者所属：
ー１０．表形式ディープラーニングにおける数値特徴のエンベッディングについて（原文： On Embeddings for Numerical Features in Tabular Deep Learning ） https://arxiv.org/abs/2203.05556v 最近、Transformerのようなディープアーキテクチャーが表形式のデータ問題で強い性能を示すようになった。従来のモデル、例えばMLPとは異なり、これらのアーキテクチャは数値特徴のスカラー値を高次元埋め込みにマッピングしてからメインバックボーンに混ぜ込んでいる。本研究では、数値特徴の埋め込みは表形式DLにおいて未開拓の自由度であり、より強力なDLモデルの構築と、従来GBDTに適したいくつかのベンチマークにおいてGBDTと競合することが可能であると論じる。まず、埋め込みモジュールを構築するための概念的に異なる2つのアプローチについて説明する。最初のものはスカラー値の区分的線形エンコーディングに基づくものであり、2番目のものは周期的活性化を利用するものである。次に、これらの2つのアプローチが、線形層やReLU活性化などの従来のブロックに基づく埋め込みと比較して、大幅な性能向上をもたらすことを経験的に示す。また、重要な点として、数値特徴の埋め込みが Transformerだけでなく、多くのバックボーンに有効であることを示す。具体的には、適切な埋め込みを行った後、単純なMLPのようなモデルは、注意ベースのアーキテクチャと同等の性能を発揮することができます。全体として、我々は、表形式DLのさらなる改善のための良い可能性を持つ重要な設計側面として、数値特徴のための埋め込みを強調します。

背景：これまで表形式データを取り扱うDeeplearningは多く発表されていたが、いずれも勾配ブースティング決定木GBDTを一貫して上回ることができなかった。表形式データについて：構造化データ：2次元の表形式など値が数値・記号でテーブルに整理されている。（例）固定長ファイル、ExcelやCVSファイルなど非構造化データ：データに規則性がなく表形式にできないもの。（例）画像、⾳声、動画、テキスト、センサーログなど半構造化データ：表形式ではないがデータに規則性がある。
（例）XML、JSON、html

埋め込みモジュール ②区分線形エンコーディング →前処理のbinningに基づいている ③周波数活性化 →高次元の埋め込み空間へ特徴量を転送・多層パーセプトロン(MLP) ・Transformer ・ResNet のようなアーキテクチャバックボーン
入力構造化データ例 One hot encording カテゴリカルデータ数値データ特徴量の表現を変えることで Deeplearnigの性能が向上したという論文にインスパイアされた ☆ポイント埋め込みモジュールを提案するということが本論文で力を入れている点であるバックボーンのアーキテクチャの探索には力を入れず、異なるアーキテクチャでも性能の同等レベルに向上できる Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains 推論結果 ①単純な微分可能層 →単純な線形層＋活性化関数で構成される数値データ

データセットの例： California Housing (CA)：カリフォルニア州の住宅価格の表形式データセット住宅価格（中央値）、所得（中央値）、築年数（中央値）、総部屋数、総寝室数、人口、総世帯数、緯度、経度評価結果の表記について：線形層＋活性化関数・周期性は式（8）で定義される。
・PLEq は、分位数によって動かされる PLE を表す。・PLEt は、ターゲットを考慮した PLE を示す。・Linear_ は、バイアスのない線形層を示す。・LReLU はリーキーReLUを表す。・AutoDisはGuoら(2021)で提案された。二乗平均平方根誤差

埋め込みモジュール① MLPに単純な微分可能層(単純な線形層＋活性化関数)で構成される埋め込みモジュールを追加して評価結果：精度向上に寄与している(劇的改善ではない) 表記について＝↓： RMSE(低いほど良い) 、↑：精度に対応する(高いほど良い) 区分的線形エンコーディングの評価結果：MLPとtransformerの両方のアーキテクチャで有益、区分的線形化エンコーディング+埋め込みモジュール①を追加すると性能UP 埋め込みモジュル②

周期的活性化関数の評価埋め込みモジュール③ ・普通のMLPより性能向上・周期的活性化関数と埋め込み⼦ジュール①の組み合わせは常に行うべき

提案手法ポイント１（ vs MLP、ResNet、Transformer ）・ほとんどのデータセットで数値特徴量の埋め込みにより3つの異なるバックボーンに顕著な改善が見られる・PLR(周期的活性化関数と単純な微分可能埋め込みモジュールの組み合わせ)が最良の結果（平均性能）・MLPのようなモデルと埋め込みモジュールの組み合わせはtransformerと埋め込みモジュールの組み合わせと同じレベルの性能を示す

提案手法ポイント２（ vs GBDT）・MIデータセットでは提案手法はGBDTにすべて負けているが、それ以外では匹敵する性能を示している・GBDTと比較すると、提案手法のアーキテクチャは効率が悪い

AI最新論文読み会2022年4月

AI最新論文読み会2022年4月

医療AI研究所@大阪公立大学

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Research

Featured

Transcript