Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI最新論文読み会2022年4月

 AI最新論文読み会2022年4月

AI最新論文読み会2022年4月

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Research

Transcript

  1. AI最新論文読み会2022年4月 YAMAHA MOTOR CO.,LTD *Komaike Kunimune Yamamoto Atsushi Saitou Takashi

    (文献調査を上記で分担、今回の発表者*) 産業用ロボット| ヤマハ発動機 (yamaha-motor.co.jp) 2022国際ロボット展(iREX2022) - イベント | ヤマハ発動機株式会社 (yamaha-motor.com)
  2. 1.テンソルプログラムV:ゼロショットハイパーパラメータ転送による大規模ニューロネットワークのチューニング (原文: Tensor Programs V: Tuning Large Neural Networks via

    Zero-Shot Hyperparameter Transfer) 2.知的な意思決定者の共通モデルの探求 (原文:The Quest for a Common Model of the Intelligent Decision Maker) 3.キューブリック スケーラブルなデータセット生成ツール 【pickup】 (原文:Kubric: A scalable dataset generator) 4.ディープネット: トランスフォーマーを1,000層まで拡張する (原文:DeepNet: Scaling Transformers to 1,000 Layers) 5.スパース全MLPによる効率的な言語モデリング (原文: Efficient Language Modeling with Sparse all-MLP ) 6.人工知能の数学 (原文: The Mathematics of Articial Intelligence ) 7.ブロック・リカレント・トランスフォーマー (原文: BLOCK-RECURRENT TRANSFORMERS ) 8. GAN (原文: Generative Adversarial Network ) 9.モデルスープ:複数の微調整されたモデルの重みを平均化することで、推論時間を増やすことなく精度を向上させることができる (原文: Model soups: averaging weights of multiple ne-tuned models improves accuracy without increasing inference time ) 10.表形式ディープラーニングにおける数値特徴のエンベッディングについて (原文: On Embeddings for Numerical Features in Tabular Deep Learning ) PaperWithCodeの10本を紹介 https://megalodon.jp/2022-0326-1516-40/https://paperswithcode.com:443/top-social?num_days=30
  3. 1.テンソルプログラムV:ゼロショットハイパーパラメータ転送による大規模ニューロネットワークのチューニング (原文: Tensor Programs V: Tuning Large Neural Networks via

    Zero-Shot Hyperparameter Transfer) https://arxiv.org/abs/2203.03466v1 深層学習におけるハイパーパラメータ(HP)のチューニングは、数十億のパラメータを持つニューラルネットワーク (NN)では法外に高価な処理である。我々は、最近発見された最大更新パラメトリゼーション(μP)において、モ デルサイズが変化しても、多くの最適なHPは安定したままであることを示す。これは、μPでターゲットモデルをパ ラメトリック化し、より小さなモデルで間接的にHPを調整し、ゼロショットでフルサイズモデルに転送する、つまり、 フルサイズモデルを直接調整することなくHPを調整する新しいパラダイムを導き出すものである。Transformerと ResNetでμTransferを検証しています。例えば、1)13Mパラメータのモデルから事前学習用HPを転送することで、 BERT-large(350Mパラメータ)の公開値を上回り、BERT-largeの事前学習と同等の総チューニングコストで済む。 2)40Mパラメータからの転送により、67億GPT-3の公開値を上回り、総予習コストのわずか7%のチューニングコ ストで済む。この手法のPytorch実装はgithub.com/Microsoft/mupにあり、`pip install mup`でインストール可能 です。 目的:µTransferという新しいハイパーパラメータチューニング方法を提案 成果:標準的なハイパーパラメータ調整で調整された大規模モデルの性能を凌駕する(超える) 方法:µPでパラメーター化し、より小さなモデルでハイパーパラメータを間接的にチューニングし、フルモデルに 移行することで、非常に大規模なネットワークを間接的に調整する 固有名: Tensor Programs V 著者所属: Microsoft Corporation、OpenAI
  4. 目的: 心理学、神経科学、倫理学の自然科学、人工知能の工学科学、最適制御理論など複数の業界で共通のもの を指している言葉を整理すること(共通モデル化が目的)。 成果: 言葉の整理を実施 方法: 言葉の定義 固有名: ー 著者所属:

    University of Alberta 2.知的な意思決定者の共通モデルの探求 (原文:The Quest for a Common Model of the Intelligent Decision Maker) https://arxiv.org/abs/2202.13252v1 Multi-disciplinary Conference on Reinforcement Learning and Decision Makingの前提は、複数の分野が時間を かけて目標指向の意思決定を行うことに関心を共有していることである。この論文のアイデアは、心理学、人工知能、 経済学、制御理論、神経科学にまたがって実質的で広く保持されている意思決定者の視点(私は「知的エージェント の共通モデル」と呼ぶ)を提案することによって、この前提をより鮮明に、より深くしようというものである。この 共通モデルには、いかなる生物、世界、あるいは応用領域にも固有のものは含まれていない。共通モデルには、意思 決定者とその世界との相互作用(入力と出力、および目標が必要)と、意思決定者の内部構成要素(知覚、意思決定、 内部評価、および世界モデルのための)が含まれる。これらの側面と構成要素を特定し、分野によって異なる名称が 与えられているが、本質的には同じ考えを指していることを指摘し、分野を超えて使用できる中立的な用語を考案す ることの難しさと利点について論じる。今こそ、知的エージェントの実質的な共通モデルに、複数の多様な分野が収 斂していることを認識し、それを基礎に据えるべき時である。
  5. エージェントの内部構造 エージェントの内部構造の提案された共通モデルには、知覚、反応ポリシー、価値関数、遷移モデルの4つの主成分がある ①知覚コンポーネント 観察と行動を処理して主観的な状態を生成 これは、行動(リアクティブポリシー)の選択、将来の報酬(値関数)、および将来の主観的状態を予測するため(遷移モデル)。 状態は、エージェントの観察と行動に関連しており、世界の実際の内部作業に対応していない可能性があるという点で主観的です。 多くの場合、主観的状態の構築は固定された前処理ステップであり、その場合、エージェントは観察として主観的状態を直接受け取ると想定。 ②リアクティブポリシーコンポーネント 主観的な状態を行動にマッピングします。 全体的な行動の生成をこれらの2つの部分(認識とポリシー)に分離することは、多くの分野で一般的

    ③価値関数コンポーネント 主観的な状態(または状態と行動のペア)をその望ましさのスカラー評価にマッピングする ④遷移モデル 状態を取り込み、様々な行動が実行された場合に次の状態が発生することを予測する 遷移モデルは、様々な行動の効果をシミュレートするために使用され、値関数の助けを借りて、可能な結果を評価し、 予測された良い結果を伴うアクションを優先し、予測された悪い結果を伴う行動を嫌うようにリアクティブポリシーを更新
  6. 3.キューブリック スケーラブルなデータセット生成ツール (原文:Kubric: A scalable dataset generator) https://arxiv.org/abs/2203.03570v1 機械学習の原動力はデータであり、学習データの量と質は、しばしば、アーキテクチャや学習の詳細よりもシステム の性能にとって重要である。しかし、実データを大規模に収集、処理、アノテーションすることは困難であり、コス

    トもかかる上、プライバシー、公平性、法的な問題も頻繁に発生する。合成データは、これらの欠点に対処できる可 能性を秘めた強力なツールである。1) 安価である 2) 豊富なグランドトゥルース注釈をサポートする 3) データを完 全に制御できる 4) バイアス、プライバシー、ライセンスに関する問題を回避または軽減できる。残念ながら、効果 的なデータ生成のためのソフトウェアツールは、アーキテクチャ設計やトレーニングのためのツールに比べて成熟し ておらず、生成の取り組みが断片的である。KubricはPyBulletやBlenderと連携し、豊富なアノテーションを含む フォトリアリスティックなシーンを生成するオープンソースのPythonフレームワークで、数千台のマシンに分散し、 TBsのデータを生成する大規模ジョブにもシームレスに拡張することができます。我々は、3D NeRFモデルの研究か らオプティカルフロー推定に至るまで、13種類の生成データセットを提示することで、Kubricの有効性を実証してい ます。Kubric、使用した資産、すべての生成コード、およびレンダリングされたデータセットを再利用および修正で きるように公開する。 目的:Kubric(ビジョンタスクのためのフォトリアリスティックな合成データセットを生成するpythonフレームワーク)の紹介 成果:汎用的なデータセット作成パイプラインの実現 方法:PyBulletとBlenderを使ったシンプルなオブジェクト指向のAPIインターフェースを提供し、セットアップ、 データ転送、同期維持の複雑さを解消して実現 固有名: Kubric 著者所属: Google Research/University of Toronto/McGill University/Mila/MIT/DeepMind /UBC/University of Cambridge/ServiceNow/Haiper/Simon Fraser University
  7. 従来から、大規模合成データセットが特定のタスクのために存在する。 CLEVR:構成言語と初歩的な視覚的推論のための診断データセット SceneNet RGB-D: RGB-Dビデオデータセットであり、3Dカメラの ポーズ、表面再構成、およびインスタンスレベルのセマンティックセグメ ンテーションで注釈が付けられています。 NYU v2:MicrosoftKinectのRGBカメラとDepthカメラの両方で記録さ れたさまざまな屋内シーンのビデオシーケンスで構成されています。

    SYNTHIA: 運転シナリオのコンテキストでのセマンティックセグメ ンテーションおよび関連するシーン理解の問題を支援する目的で生成され たデータセット virtual KITTI: オブジェクト検出とマルチオブジェクトトラッキング、 シーンレベルとインスタンスレベルのセマンティックセグメンテーション、 オプティカルフロー、深度推定など、フォトリアリスティックな合成ビデ オデータセットです。 flying things 3D:オプティカルフロー、視差、シーンフロー推定のた めの合成データセット 特殊な合成データパイプライン 汎用的なデータセット作成パイプライン Kubric
  8. Kubricの設計指針: ①オープンである ・データ生成コードは、アカデミアや産業界の研究者が自由に使えるもの。 ・KubricはApache2ライセンスのオープンソース。 ②使い勝手が良い ・バックグラウンドでPyBulletとBlenderを使ったシンプルなオブジェクト指向のAPIインターフェースを提供 ・セットアップ、データ転送、同期維持の複雑さを解消しています。 ・様々なデータソースから加工済みの3Dアセットを提供し、最小限の労力で利用可能 ③フォトリアリスティック(写実性) ・BlenderのCyclesレイトレーシングエンジンは高いレベルのリアリズムをサポートし、再反射、屈折、間接照明、

    モーションブラー、被写界深度などの複雑な視覚現象をモデル化することが可能です。 ④スケーラビリティ(拡張性) ・ローカルワークフローからクラウド上の数千台のマシンで大規模なジョブを実行するところまでシームレスに拡張 ⑤ポータブビリティ(再現性) ・Blender Pythonモジュールのインストールが難しく、バージョン間でかなりの差異があるため、特に重要です。 ・Kubric Dockerイメージを配布することで、移植性の確保とインストール負荷削減。 ⑥データエクスポート ・深度マップ、セグメンテーション、オプティカルフロー、表面法線、物体座標、衝突イベント、カメラパラメータ バウンディングボックス、速度、質量、摩擦など豊富なグランドトゥルースアノテーションのセットとして出力
  9. 表6. 姿勢推定 COCO領域外の姿勢を持つ人体モデルの合成画像を追加することで、 領域外(Yoga)の結果が改善される。 キーポイント 平均平均精度(mAP)指標(高いほど良い) Active:より多様なポーズを持つ独自のデータセット Yoga:1000例からなる歪んだポーズのテストセット 図8. 姿勢推定

    ポーズの多様化を目指した合成動画からのフルアノテーション画像(左) 実世界のアノテーションデータセットに登場する動き、被写体、背景(右)、COCO相当画像の例。 4.4 姿勢推定 合成データを追加するとキーポイントの平均値-精度を向上させた。追加トレーニングとして使用
  10. 4.ディープネット: トランスフォーマーを1,000層まで拡張する (原文:DeepNet: Scaling Transformers to 1,000 Layers) https://arxiv.org/abs/2203.00555v1 本論文では、非常に深いTransformerを安定化させるためのシンプルかつ効果的な方法を提案する。具体的には、

    Transformerの残留接続を修正する新しい正規化関数(DeepNorm)を導入し、理論的に導かれた初期化を伴う。理 論的な解析の結果、モデルの更新を安定的に抑制できることが示された。提案手法は、Post-LNの優れた性能とPre- LNの安定した学習という、2つの世界の長所を兼ね備えており、DeepNormを好ましい代替手法とすることができる。 我々は、Transformerを1,000層(すなわち、2,500の注意とフィードフォワードネットワークのサブレイヤー)ま で問題なく拡張することに成功し、これは、これまでのディープTransformerよりも1桁深いものとなっている。驚 くべきことに、7,482の翻訳方向を持つ多言語ベンチマークにおいて、我々の200層モデル(パラメータ3.2B)は、 48層モデル(パラメータ12B)を5BLEUポイント上回り、有望なスケーリング方向であることが示された。 目的: 非常に深いトランスフォーマーの学習を安定化 成果: 学習の安定化+モデルパラメータ数の削減 方法: 残差接続時にモデルの更新を定数で抑制する正則化関数(DEEPNORM)の提案 固有名: DeepNorm、DeepNet 著者所属: Microsoft Research
  11. 目的: スパースAll-MLPの提案 成果: TransformerベースのMoEやdense Transformerを超える性能+学習効率を最大2倍改善 方法: gMLPの主要な密なブロックをスパースブロックに置き換える 固有名: Sparse all-MLP

    著者所属: ー 5.スパース全MLPによる効率的な言語モデリング (原文: Efficient Language Modeling with Sparse all-MLP ) https://arxiv.org/abs/2203.06850v2 All-MLPアーキテクチャは、注意ベースのモデルに代わるものとして、ますます関心を集めています。自然言語処理 においては、gMLPのような最近の研究により、All-MLPは言語モデリングにおいてはTransformerに匹敵するが、下 流のタスクにおいてはまだ遅れをとっていることが示されている。本研究では、MLPの表現力の限界を分析し、特徴 量と入力(トークン)次元の両方でMoE(Mixture-of-Experts)を用いてスパースに活性化したMLPを提案する。こ のようなスパース全MLPは、計算量を一定に保ちながら、モデルの容量と表現力を大幅に向上させる。我々は、2つ のルーティング戦略を用いて、条件付き計算を組み込む際の重要な課題に取り組む。提案するスパースAll-MLPは、 TransformerベースのMoE(GShard、Switch Transformer、Base Layers、HASH Layers)、Dense Transformer、 All-MLPと比較して、言語モデリングの複雑性を改善し、学習効率を最大2倍改善することができます。最後に、ゼロ ショットインコンテキスト学習の性能を6つの下流タスクで評価し、TransformerベースのMoEやdense Transformerを凌駕することを明らかにした。
  12. sMLP アーキテクチャの概略図 N1 個の密なブロック (Dense Blocks) と N2 個の疎なブロック (Sparse

    Blocks)で構成 異なるトークンの特徴量の 同じ次元を集めたベクトル tMoE:ルーター (router) が、トークン単位 (x1,x2,...) で、どのエキスパート FF1, FF2, ... に割り振るかを決定。 sMoE:入力を特徴量の次元方向に分割したもの (y1,y2,...) を、それぞれどのエキスパート SL1, SL2, ..., に割り振るかを決定。 tMoEのみだと同じ隠れ次元の情報が異なるExpert(処理部)へ渡ってしまうため、精度が上がらない そのため、sMoEにより同じ隠れ次元のベクトルを同じExpert(処理部)へ渡すことで、 前のトークンの情報へアクセスでき精度が上がる 背景:gMLPでは下流タスクでは精度が出ていない。 空間ゲーティング層を使った MLP モデルgMLP: この主要な密なブロックを粗なブロックへ置き換えることで計算コストは変わらず、表現力を向上 混合エキスパートモデル (Mixture of Experts): 複数個の部分ネットワークに計算を動的に割り振り、その結果を統合する構造を持ったネットワーク。 モデルの重みと計算が、異なるデバイス (GPU) 上のエキスパート (専門家) に割り振られ、計算量を増や すことなく、モデルの容量を大幅に上げ、訓練も高速化できるという特徴がある。
  13. 6.人工知能の数学 (原文: The Mathematics of Articial Intelligence ) https://arxiv.org/abs/2203.08890v1 現在、私たちは科学と社会生活の両面において、人工知能の目覚ましい成功を目の当たりにしています。しかし、厳

    密な数学的基盤の構築はまだ初期段階にある。この記事は、2022年の国際数学者会議での招待講演に基づいており、 特に、現在の人工知能の「主力商品」であるディープニューラルネットワークに焦点を当てたい。いくつかの模範的 な結果とともに主な理論的方向性を提示し、主要な未解決問題について議論する。 サーベイ論文 目的: 人工知能の問題点である数学的基盤の欠如を明確にすること。 成果: 人工知能の数学的基礎および数学問題への人工知能の手法適用に関してまとめ、人工知能の問題を提起した。 方法: 人工知能の各問題について数学的なアプローチを時系列に紹介し、現状の課題を明確にしていく。 固有名: ー 著者所属: ー
  14. 人工知能のための数学的基盤 DNNの学習過程全体を統計的学習問題として考えると、下記3つの研究方向は、まさに全体の誤差を分析する ための自然な研究方向であることがわかる。 1.表現力: ニューラルネットワークのアーキテクチャが、DNNの最良の性能を左右するのか、 また、どの程度左右するのかを一般的に理解することを目的。この問題にアプローチは、応用調和解析や近似理論 2.学習/最適化: 確率的勾配降下のような学習アルゴリズムの分析、すなわち、問題自体が非常に非凸であるにもかかわらず、 なぜ適切なローカルミニマムに収束することが多いのかを問うことが、この方向の主な目的である。 主要な方法論は、代数/微分幾何学、最適制御、最適化の領域から得られる。

    3.一般化: この方向は、サンプル外誤差の理解、すなわち、サンプル外誤差を導き出すことが目的。 必要な手法は、学習理論、確率論、統計学が主流である。 説明可能性: 現時点では、数学的基礎の観点からは、まだ未開拓の分野である。与えられた訓練済みのディープニューラルネット ワークが、入力データのどの特徴が判断に重要であるかという意味で、どのように判断に至るかを深く理解すること が目標である。情報理論や不確実性の定量化など、求められるアプローチの幅は非常に広い。
  15. 7.ブロック・リカレント・トランスフォーマー (原文: BLOCK-RECURRENT TRANSFORMERS ) https://arxiv.org/abs/2203.07852v1 この変換器は、シーケンスに沿ってリカレント的に変換層を適用し、シーケンス長に対して線形的な複雑性を持つ。 このリカレントセルは、単一のトークンではなく、トークンのブロックに対して動作し、ブロック内の並列計算を利 用して、アクセラレータのハードウェアを効率的に使用する。セル自体は驚くほどシンプルである。自己注意と交差 注意を用いて、大きな状態ベクトルとトークンの集合に対してリカレント関数を効率的に計算します。私たちのデザ

    インはLSTMセルから一部インスピレーションを受けており、LSTMスタイルのゲートを使用していますが、典型的な LSTMセルを数桁スケールアップしています。再帰の実装は、計算時間とパラメータ数の両方において従来の変換層 と同じコストでありながら、非常に長いシーケンスに対する言語モデリングタスクのパープレックスを劇的に改善す ることができます。このモデルは長距離のTransformer XLのベースラインよりも大きなマージンを持ち、かつ2倍の 速度で動作する。PG19(書籍)、arXivの論文、GitHubのソースコードでその有効性を実証しています。 目的: Transformer では長文の自然言語処理が難しい 成果: 通常のTransformerと処理時間・計算コストは変わらず、長文翻訳の精度を向上 方法: 通常のTransformerでは難しいセルフアテンション時のウィンドウサイズの変更を容易にした 固有名: Block-Recurrent Transformer 著者所属: Google Research、 The Swiss AI Lab IDSIA, SUPSI & USI
  16. 従来の手法の欠点に対し、著者らの手法では ・トークンの処理とステートの処理を並列でおこなうことにより処理効率を向上する ・従来のTransformer同様、過去のトークンに直接アクセスできるためベクトル積を処理する必要がない 入力されたKey,Value 入力されたQuery キャッシュ化されたKey,Value 入力されたKey,Value 入力されたQuery 従来のアテンション スライディングアテンション

    ・アテンションの際にスライディングウィンドウを用いることにより、アテンションの処理は 従来のアテンションでのシーケンス長に2次関数的→1次関数的比例に改善した ・さらに、前の処理のKey,Valueがキャッシュされて残るため、勾配が消失しにくい
  17. 目的: GANについてより良く理解し、このトピックに関する最新文献を身近なものにすること 成果: ↑ 方法: GANの原理的な仕組みを説明し、学習や評価における固有の問題点を提示する。 固有名: ー 著者所属: ー

    8. GAN (原文: Generative Adversarial Network ) https://arxiv.org/abs/2203.00667v1 Generative Adversarial Networks(GAN)は、高品質なデータを生成するためのフレームワークとして非常に人気 があり、多くの領域で学界と産業界の両方で絶大な利用を受けている。特に、コンピュータビジョンの分野では、最 先端の画像生成を実現し、大きなインパクトを与えている。本章では、GANの原理的な仕組みを説明し、学習や評価 における固有の問題点を提示することで、GANの入門的な解説を行う。特に、以下の3つの問題に注目する。(1) モード崩壊、(2)勾配の消失、(3)低画質画像の生成。次に、これらの課題を解決するアーキテクチャ可変なGAN と損失可変なGANをいくつか挙げる。最後に、実世界でのGANの利用例を2つ挙げる。具体的には、データ補強と顔 画像生成である。
  18. GANの利点と問題点 利点 Sharp images: GANは他の生成モデルよりもシャープな画像を生成。VAEで生成された画像よりも高品質。 Configurable size:潜在的な確率変数のサイズが制限されないため、生成器の探索空間が豊かになる。 Versatile generator: GANフレームワークは、アーキテクチャ上の制約がある他の生成モデルとは異なり、

    様々な生成ネットワークをサポートすることができます。VAEでは、生成器の第一層は、 ガウシアンのみ。 問題点 Mode collapse(モード崩壊): 生成器と識別器の同期学習において、生成器は識別器を欺くような特定のパターン(モード)を生成するように学習 する傾向がある。このパターンは式(1)を最小化するが、生成器はデータセットの全分布をカバーすることはない。 Vanishing gradients(勾配消失): このような場合、ジェネレータの学習ステップでは、非常に低い勾配が逆伝播されるため、ジェネレータの学習がう まくいかない。 Instability(不安定): モデルのパラメータは変動し、一般に学習中は安定しない。ジェネレーターは非常に高品質な画像を出力するポイン トに到達することはほとんどない。
  19. ・2つの確率密度関数の間の距離は, ダイバージェンスと 呼ばれる。 ・その中で最も有名なものは KL(カルバックライブラー) ダイバージェンス JS(ジェンセン-シャノン) ダイバージェンス ・GAN では対照形な指標として

    JS(ジェンセン-シャノン) ダイバージェンスを用いる. GANの学習とJSダイバージェンスの関係から、GANの不 安定性が説明できると考えられる。 Vanishing gradients(勾配消失): (a) ゼロ平均のガウス分布である実画像分布Prと3種類のガウス分布(Pg1、Pg2、Pg3)。 (b) 平均が0から80の間にあるガウス分布PrとPgの間のJSダイバージェンス測定値をプロットしたもの 識別器が最適に近い場合、実際の分布Prから離れたPgで生 成器を学習しようとすると、勾配が非常に小さくなり、 学習が実行できなくなるのである(学習の初期)。
  20. 9.モデルスープ:複数の微調整されたモデルの重みを平均化することで、推論時間を増やすことなく精度を向上さ せることができる (原文: Model soups: averaging weights of multiple ne-tuned

    models improves accuracy without increasing inference time ) https://arxiv.org/abs/2203.05482v1 従来、モデルの精度を最大化するためには、(1)様々なハイパーパラメータで複数のモデルを訓練し、(2)保留さ れた検証集合で最も良い性能を示す個々のモデルを選び、残りを破棄する、というレシピがある。本論文では、大規 模な事前学習済みモデルの微調整という文脈で、この手順の第2段階を再検討する。微調整されたモデルは、しばし ば単一の低誤差ベイスンに位置するように見える。我々は、異なるハイパーパラメータ構成で微調整された複数のモ デルの重みを平均化することで、精度と頑健性が向上することを示す。従来のアンサンブルとは異なり、推論コスト やメモリコストをかけることなく、多くのモデルを平均化することができる。CLIP、ALIGN、JFTで事前学習した ViT-Gなどの大規模な事前学習済みモデルを微調整する場合、我々のスープレシピはImageNetのハイパーパラメー タスイープで最良のモデルよりも大幅に改善することができるのです。その結果、ViT-GはImageNetにおいて 90.94%のトップ1精度を達成し、新たな技術水準を示しました。さらに、このモデルスープのアプローチは、複数の 画像分類や自然言語処理タスクに拡張され、分布外性能を向上させ、新しい下流タスクのゼロショット性能を向上さ せることを示す。最後に、重み平均とロジットエンセンブルの性能の類似性を、損失の平坦性と予測値の信頼性に解 析的に関連付け、この関係を経験的に検証する。 目的:学習済みモデルをファインチューニングし各々のタスクに転移する際の精度・ロバスト性低下の問題解決 成果:アンサンブル学習と異なり推論時の計算コストが増加せず精度とロバスト性を高める手法(Model Soup)の提案 方法:異なるハイパーパラメータ下でファインチューニングしたモデルの最終層のパラメータを平均化する 固有名: Model soups 著者所属: University of Washington/Columbia University/Google Research/Meta AI Research/Tel Aviv University
  21. 背景: 一般的なモデルの高精度化では以下の手順でモデルの選択をする ①様々なハイパーパラメータ下でモデルを学習する ②検証データでモデルの精度を評価し、最良のモデルを選ぶ しかし、この選び方では以下の2つの問題点がある ①選択したモデルが必ずしも実際に取得したデータに対してもベストであるとは限らない (学習・検証・運用時のデータ間での分布の遷移がある可能性) ②ファインチューニングしたモデルでは転移した後、分布外のモデルに対し精度が低下する そこで3種類のModel Soup手法を提案する

    1.Uniform Soup:複数のモデルのファインチューニングした層のパラメータの平均値をとる 2.Greedy Soup:検証時の精度が低い順にモデルのファインチューニングした層のパラメータを足して平均を 取り、精度が向上したモデルのパラメータのみを残していく手法(AとBがあって、A> A+B → A) 3.Learned Soup:ミニバッチ最適化した重みづけをもとにモデルのパラメータを足し合わせていく手法(理論のみ) アンサンブルと違い計算コストは増加しない
  22. 目的: 表形式データでも精度の高いDeeplearning手法を提案 成果: 勾配ブ ースティング決定木(GBDT)に匹敵する性能を発揮 方法: 異なる3つの埋め込みモジュールを検討、これらを組み合わせることで大幅に性能改善 固有名: ー 著者所属:

    ー 10.表形式ディープラーニングにおける数値特徴のエンベッディングについて (原文: On Embeddings for Numerical Features in Tabular Deep Learning ) https://arxiv.org/abs/2203.05556v 最近、Transformerのようなディープアーキテクチャーが表形式のデータ問題で強い性能を示すようになった。従来 のモデル、例えばMLPとは異なり、これらのアーキテクチャは数値特徴のスカラー値を高次元埋め込みにマッピング してからメインバックボーンに混ぜ込んでいる。本研究では、数値特徴の埋め込みは表形式DLにおいて未開拓の自由 度であり、より強力なDLモデルの構築と、従来GBDTに適したいくつかのベンチマークにおいてGBDTと競合するこ とが可能であると論じる。まず、埋め込みモジュールを構築するための概念的に異なる2つのアプローチについて説 明する。最初のものはスカラー値の区分的線形エンコーディングに基づくものであり、2番目のものは周期的活性化 を利用するものである。次に、これらの2つのアプローチが、線形層やReLU活性化などの従来のブロックに基づく埋 め込みと比較して、大幅な性能向上をもたらすことを経験的に示す。また、重要な点として、数値特徴の埋め込みが Transformerだけでなく、多くのバックボーンに有効であることを示す。具体的には、適切な埋め込みを行った後、 単純なMLPのようなモデルは、注意ベースのアーキテクチャと同等の性能を発揮することができます。全体として、 我々は、表形式DLのさらなる改善のための良い可能性を持つ重要な設計側面として、数値特徴のための埋め込みを強 調します。
  23. 埋め込みモジュール ②区分線形エンコーディング →前処理のbinningに基づいている ③周波数活性化 →高次元の埋め込み空間へ特徴量を転送 ・多層パーセプトロン(MLP) ・Transformer ・ResNet のようなアーキテクチャ バックボーン

    入力構造化データ例 One hot encording カテゴリカル データ 数値データ 特徴量の表現を変えることで Deeplearnigの性能が向上したという 論文にインスパイアされた ☆ポイント 埋め込みモジュールを提案するということが 本論文で力を入れている点である バックボーンのアーキテクチャの探索には力を入れず、 異なるアーキテクチャでも性能の同等レベルに向上できる Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains 推論結果 ①単純な微分可能層 →単純な線形層+活性化関数で構成される 数値データ
  24. データセットの例: California Housing (CA):カリフォルニア州の住宅価格の表形式データセット 住宅価格(中央値)、所得(中央値)、築年数(中央値)、総部屋数、総寝室数、人口、総世帯数、緯度、経度 評価結果の表記について: 線形層+活性化関数 ・周期性は式 (8) で定義される。

    ・PLEq は、分位数によって動かされる PLE を表す。 ・PLEt は、ターゲットを考慮した PLE を示す。 ・Linear_ は、バイアスのない線形層を示す。 ・LReLU はリーキーReLUを表す。 ・AutoDisはGuoら(2021)で提案された。 二乗平均平方根誤差