Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI論文読み会11月

 AI論文読み会11月

AI論文読み会11月

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Research

Transcript

  1. 1. Deformable DETR: Deformable Transformers for End-to-End Object Detection 2.

    Rethinking Attention with Performers 3. Explaining Deep Neural Networks 4. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 5. Representation Learning via Invariant Causal Mechanisms 6. AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients 7. Neural Databases 8. Fourier Neural Operator for Parametric Partial Differential Equations 9. Auto Seg-Loss: Searching Metric Surrogates for Semantic Segmentation 10.Mind the Pad -- CNNs can Develop Blind Spots Top Recent 10
  2. 1. Fourier Neural Operator for Parametric Partial Differential Equations 2.

    Explaining Deep Neural Networks 3. EigenGame: PCA as a Nash Equilibrium 4. Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision 5. Interpreting Graph Neural Networks for NLP With Differentiable Edge Masking 6. Neural Databases 7. What Can We Do to Improve Peer Review in NLP? 8. It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners 9. Self-supervised Learning: Generative or Contrastive 10.Multi-agent Social Reinforcement Learning Improves Generalization Top Hype 10
  3. Deformable DETR: Deformable Transformers for End-to-End Object Detection 変形可能なDETR:エンドツーエンド物体検出のための変形可能なトランスフォーマー No.1

    DETR は、近年、物体検出のために多くの⼿作業で設計された部品を必要とせず、良好な性能を発揮 することを⽬的として提案されています。しかし,DETR は,画像特徴量マップを処理する際に Transformerを使⽤するため,収束が遅く,特徴量の空間分解能が限られてしまうという問題があり ました.これらの問題を解決するために、我々は変形可能な DETR を提案し、Attention moduleは参 照点を中⼼とした少数のサンプリングポイントにのみ注⽬する。変形可能DETRは、訓練エポック数 を10倍少なくすることで、DETRよりも優れた性能を達成することができました。COCOベンチマー クを⽤いた⼤規模な実験により、我々のアプローチの有効性が実証されました。コードを公開しま す。 →DETR改良したよ!
  4. Rethinking Attention with Performers パフォーマーによる注意⼒の再考 No.2 Performersを紹介する。Performersは、正則(softmax)フルランクスアテンショントランスフォー マーを証明可能な精度で推定することができるトランスアーキテクチャである。ソフトマックスアテ ンションカーネルを近似するために、パフォーマーズは新しいFast Attention

    Via positive Orthogonal Random Features approach (FAVOR+)を使⽤しています。FAVOR+は、softmaxを超えるカーネル化 可能な注意メカニズムを効率的にモデル化するためにも使⽤できる。この表現⼒は、通常の Transformerでは到達できない⼤規模なタスクで初めてsoftmaxと他のカーネルを正確に⽐較し、最適 な注⽬カーネルを調査するために⾮常に重要である。Performersは通常のTransformerと完全に互換 性のある線形アーキテクチャであり、注⽬⾏列の偏りのない、あるいはほぼ偏りのない推定、⼀様な 収束、低い推定分散などの理論的な保証がある。Performersを、ピクセル予測からテキストモデル、 タンパク質配列モデリングまでの豊富なタスクでテストした。他の効率的なスパースおよび密な注⽬ ⼿法との競合結果を示し、Performersが活⽤した新しい注⽬学習パラダイムの有効性を示す。 →Transformer改良したよ Google
  5. Explaining Deep Neural Networks ディープニューラルネットワークを説明する No.3 ディープニューラルネットワークは、コンピュータビジョン、⾃然⾔語処理、⾳声認識などの多様な 分野で画期的な成功を収めており、ますます普及が進んでいる。しかし、これらのモデルの意思決定 プロセスは、⼀般的にユーザには解釈できない。医療、⾦融、または法律などの様々な領域におい て、⼈⼯知能システムによる意思決定の背後にある理由を知ることは⾮常に重要である。そのため、

    最近、ニューラルモデルを説明するためのいくつかの⽅向性が模索されている。 本論⽂では、 ディープニューラルネットワークを説明するために、⼤きく2つの⽅向性を検討する。第⼀の⽅向性 は、すでに訓練されて固定化されたモデルを説明することを⽬的とした⽅法(ポストホック)と、テ キストのトークンや画像のスーパーピクセルなどの⼊⼒特徴を⽤いて説明する⽅法(特徴ベース)で ある。第⼆の⽅向性は、⾃然⾔語による説明を⽣成する⾃⼰説明型ニューラルモデル、すなわち、モ デルの予測に対する説明を⽣成するモジュールを内蔵したモデルからなる。 →卒論。哲学の。おもろない。
  6. An Image is Worth 16x16 Words: Transformers for Image Recognition

    at Scale 画像は16×16の⾔葉の価値がある。⼤規模画像認識のためのトランスフォーマー No.4 トランスフォーマーアーキテクチャは⾃然⾔語処理タスクのデファクトスタンダードとなっています が、コンピュータビジョンへの応⽤はまだ限られています。ビジョンでは、注⽬は畳み込みネット ワークと組み合わせて適⽤されるか、畳み込みネットワークの全体的な構造を維持したまま、畳み込 みネットワークの特定の構成要素を置き換えるために使⽤される。我々は、このようなCNNへの依 存は必要なく、画像パッチのシーケンスに直接適⽤される純粋な変換器が画像分類タスクにおいて⾮ 常に優れた性能を発揮することを示す。⼤量のデータで事前に学習し、複数の中規模または⼩規模の 画像認識ベンチマーク(ImageNet、CIFAR-100、VTABなど)に転送すると、Vision Transformer (ViT)は最先端の畳み込みネットワークと⽐較して優れた結果を得ることができ、学習に必要な計算 資源は⼤幅に少なくなります。 →Transformer画像認識につかっちゃった Google
  7. Representation Learning via Invariant Causal Mechanisms 不変因果機構による表現学習 No.5 ⾃⼰教師付き学習は、ラベル付けされていないデータのみを⽤いて表現を事前学習することで、コス トのかかる教師付きシグナルへの依存度を減らす戦略として登場している。これらの⼿法は、ヒュー

    リスティックな代理分類タスクとデータ増強を組み合わせ、⼤きな成功を収めているが、この成功に ついての理論的な理解はまだ限られている。この論⽂では、因果関係のフレームワークを⽤いて、⾃ ⼰教師付き表現学習を分析する。本論⽂では、事前学習中に使⽤する代理分類器に明示的な不変性制 約を与えることで、データ拡張がどのようにしてより効果的に利⽤できるかを示す。これに基づい て、我々は、不変性正則化器を⽤いた不変性予測により、増⼤の際の代理⽬標の不変性予測を強制す る、新しい⾃⼰学習⽬的である、不変因果メカニズムによる表現学習(ReLIC)を提案する。さらに、 因果性を⽤いて、⾃⼰教師付き学習法の⼀種である対⽐学習を⼀般化し、これらの⼿法の成功のため の代替的な理論的説明を提供する。経験的に、ReLICは、ImageNet上ではロバスト性と分布外⼀般 化の点で競合する⼿法を⼤幅に上回る性能を示し、Atari上ではこれらの⼿法を⼤幅に上回る性能を 示し、57ゲームのうち51ゲームで⼈間レベル以上の性能を達成しました。 →Representation learningを説明してさらに性能上げたよ Google
  8. AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients

    AdaBeliefオプティマイザ観測された勾配の信念によるステップサイズの適応 No.6 深層学習のための最も⼀般的なオプティマイザは、適応型⼿法(例:アダム)と加速型スキーム (例:運動量を伴う確率的勾配降下(SGD))に⼤別されます。畳み込みニューラルネットワーク (CNN)のような多くのモデルでは、適応的⼿法は通常、収束は速いが⼀般化はSGDに⽐べて悪く、⽣ 成的逆境ネットワーク(GAN)のような複雑な設定では、その安定性から適応的⼿法が⼀般的にデフォ ルトとなっている。AdaBeliefの直感は、現在の勾配⽅向の「信念」に応じてステップサイズを適応 させることである。ノイズの多い勾配の指数移動平均(EMA)を次の時間ステップでの勾配の予測と⾒ なし、観測された勾配が予測から⼤きく乖離している場合は、現在の観測を不信にして⼩さなステッ プをとり、観測された勾配が予測に近い場合は、それを信頼して⼤きなステップをとります。我々は ⼤規模な実験でAdaBeliefを検証し、画像分類や⾔語モデル化において、他の⼿法よりも収束が速 く、⾼精度であることを示した。特に、ImageNet上では、AdaBeliefはSGDと同等の精度を達成し た。さらに、Cifar10 上での GAN のトレーニングでは、AdaBelief は⾼い安定性を示し、調整された Adam オプティマイザと⽐較して⽣成されたサンプルの品質を向上させました。コードは https:// github.com/juntang-zhuang/Adabelief-Optimizer から⼊⼿可能です。 →新しいOptimizer作ったよ
  9. Neural Databases ニューラルデータベース No.7 近年、ニューラルネットワークは、⻑年のAI問題、特に⾃然⾔語テキストからの問い合わせへの回答において、 ⽬覚ましい性能向上を示してきた。これらの進歩は、データベース管理の基本的な前提である「データはあらか じめ定義されたスキーマのフィールドとして表現される」という前提を緩和できるところまでニューラルネット ワークを拡張できるかどうかという問題を提起している。 この論⽂では、この疑問に答えるための第⼀歩を提 示する。我々は、事前に定義されたスキーマを持たないデータベースシステムであるNeuralDBを説明し、更新

    とクエリは⾃然⾔語で与えられる。我々は、最新の⾃然⾔語処理法によって提供されるプリミティブをベースに したクエリ処理技術を開発する。 まず、事前に訓練された⾔語モデルを動⼒源とする最近のNLP変換器は、関 連する事実の正確なセットが与えられれば、選択-プロジェクト-結合の問い合わせに答えることができること を、コア部分で実証する。しかし、これらの変換器は⾃明なデータベース以外のデータベースには拡張できず、 集約クエリも実⾏できない。これらの知⾒に基づいて、我々は、複数のニューラルSPJ演算⼦を並列に実⾏する NeuralDBアーキテクチャを記述する。これらの演算⼦の結果は、必要に応じて集約演算⼦に与えられる。我々 は、Neural SPJ演算⼦のそれぞれに供給されるべき適切な事実のセットを作成する⽅法を学習するアルゴリズム を記述する。重要なことは、このアルゴリズムは、Neural SPJ演算⼦⾃体で学習できるということである。我々 は、NeuralDBとそのコンポーネントの精度を実験的に検証し、何千もの⽂を超えるクエリに⾮常に⾼い精度で 答えることができることを示している。 →新しい⾃然⾔語系データベース作ったよ。
  10. Fourier Neural Operator for Parametric Partial Differential Equations パラメトリック偏微分⽅程式のためのフーリエ神経演算⼦ No.8

    ニューラルネットワークの古典的な開発は、主に有限次元ユークリッド空間間のマッピングの学習に焦 点を当ててきた。最近では、これは関数空間間のマッピングを学習するニューラル演算⼦に⼀般化され ている。偏微分⽅程式(PDE)の場合、ニューラル演算⼦は、任意の関数パラメトリック依存性から 解への写像を直接学習する。このように、ニューラル演算⼦は、⽅程式の⼀つのインスタンスを解く古 典的な⼿法とは対照的に、PDEのファミリー全体を学習する。本研究では、フーリエ空間で積分カー ネルを直接パラメータ化することにより、新しいニューラル演算⼦を定式化し、表現⼒豊かで効率的な アーキテクチャを実現する。本研究では、Burgers⽅程式、Darcy流、Navier-Stokes⽅程式(乱流領域を 含む)の実験を⾏った。我々のフーリエニューラル演算⼦は、既存のニューラルネットワーク⼿法と⽐ 較して最先端の性能を示し、従来のPDEソルバーと⽐較して最⼤3桁の⾼速化を実現した。 →わからん フーリエ空間における積分カーネルの計算をニューラルネットワークで代替さ せる研究。Navier-Stokes⽅程式等の流体シミュレーションに適⽤した結果、 数値シミュレーション(FEM)に⽐較して最⼤1000倍以上の⾼速化を実現した。
  11. Auto Seg-Loss: Searching Metric Surrogates for Semantic Segmentation Auto Seg-Loss:セマンティックセグメンテーションのためのメトリックサロゲートの検索

    No.9 我々は、主流のセマンティックセグメンテーションメトリクスのためのサロゲートロスを検索するため の⼀般的なフレームワークを提案する。これは、個々のメトリクスに対して⼿動で設計された既存の損 失関数とは対照的である。探索されたサロゲートロスは、他のデータセットやネットワークに対しても ⼀般化できる。PASCAL VOCとCityscapesでの広範な実験により、我々のアプローチの有効性が実証 された。コードの公開を予定している。 →loss functionも⾃動化しよう。
  12. Mind the Pad -- CNNs can Develop Blind Spots Paddingに気をつけろ

    -- CNNが盲点をつくりうる No.10 畳み込みネットワークの特徴マップがどのように空間的なバイアスの影響を受けやすいかを示す。アー キテクチャの選択の組み合わせにより、特定の場所での活性化が系統的に⾼くなったり弱くなったりす る。このバイアスの主な原因はパディング機構である。畳み込み演算のいくつかの側⾯に依存して、こ のメカニズムはパディングを不均等に適⽤し、学習された重みに⾮対称性をもたらします。本研究で は、このようなバイアスが、⼩さな物体検出などの特定のタスクにどのように有害であるかを実証す る。我々は、空間バイアスを緩和するソリューションを提案し、それがモデルの精度をどのように向上 させることができるかを実証する。 →Paddingの影響って考えたことある? Facebook
  13. Fourier Neural Operator for Parametric Partial Differential Equations パラメトリック偏微分⽅程式のためのフーリエ神経演算⼦ No.1

    ニューラルネットワークの古典的な開発は、主に有限次元ユークリッド空間間のマッピングの学習に焦 点を当ててきた。最近では、これは関数空間間のマッピングを学習するニューラル演算⼦に⼀般化され ている。偏微分⽅程式(PDE)の場合、ニューラル演算⼦は、任意の関数パラメトリック依存性から 解への写像を直接学習する。このように、ニューラル演算⼦は、⽅程式の⼀つのインスタンスを解く古 典的な⼿法とは対照的に、PDEのファミリー全体を学習する。本研究では、フーリエ空間で積分カー ネルを直接パラメータ化することにより、新しいニューラル演算⼦を定式化し、表現⼒豊かで効率的な アーキテクチャを実現する。本研究では、Burgers⽅程式、Darcy流、Navier-Stokes⽅程式(乱流領域を 含む)の実験を⾏った。我々のフーリエニューラル演算⼦は、既存のニューラルネットワーク⼿法と⽐ 較して最先端の性能を示し、従来のPDEソルバーと⽐較して最⼤3桁の⾼速化を実現した。
  14. Explaining Deep Neural Networks ディープニューラルネットワークを説明する No.2 ディープニューラルネットワークは、コンピュータビジョン、⾃然⾔語処理、⾳声認識などの多様な 分野で画期的な成功を収めており、ますます普及が進んでいる。しかし、これらのモデルの意思決定 プロセスは、⼀般的にユーザには解釈できない。医療、⾦融、または法律などの様々な領域におい て、⼈⼯知能システムによる意思決定の背後にある理由を知ることは⾮常に重要である。そのため、

    最近、ニューラルモデルを説明するためのいくつかの⽅向性が模索されている。 本論⽂では、 ディープニューラルネットワークを説明するために、⼤きく2つの⽅向性を検討する。第⼀の⽅向性 は、すでに訓練されて固定化されたモデルを説明することを⽬的とした⽅法(ポストホック)と、テ キストのトークンや画像のスーパーピクセルなどの⼊⼒特徴を⽤いて説明する⽅法(特徴ベース)で ある。第⼆の⽅向性は、⾃然⾔語による説明を⽣成する⾃⼰説明型ニューラルモデル、すなわち、モ デルの予測に対する説明を⽣成するモジュールを内蔵したモデルからなる。
  15. EigenGame: PCA as a Nash Equilibrium EigenGame: ナッシュ均衡としてのPCA No.3 本研究では、主成分分析(PCA)を、それぞれの近似固有ベクトルが⾃分の効⽤関数を最⼤化すること

    を⽬標とするプレイヤーによって制御される競争ゲームとして捉えた新しい⾒解を提示する。この PCAゲームの特性と、勾配に基づく更新の挙動を分析する。Ojaのルールの要素と⼀般化されたグラ ム・シュミット直交化を組み合わせた結果のアルゴリズムは、⾃然に分散化されており、メッセージ パッシングによる並列化が可能である。我々は、⼤規模な画像データセットとニューラルネットワー ク活性化の実験を⾏い、アルゴリズムのスケーラビリティを実証した。また、PCAを微分可能な ゲームとして捉えることで、アルゴリズムのさらなる発展と洞察にどのようにつながるかを議論す る。 PCAを微分可能なゲームとして捉える新しい概念・モデル提唱。 Google
  16. Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision Vokenization: ⽂脈に沿った視覚的根拠に基づいたスーパービジョンによる⾔語理解の向上

    No.4 ⼈間は、聞く、話す、書く、読む、そしてマルチモーダルな現実世界との相互作⽤を介して⾔語を学 習する。既存の⾔語予備訓練フレームワークでは、テキストのみの⾃⼰監視の有効性が示されている が、本論⽂では視覚監視型⾔語モデルのアイデアを探求する。その結果、視覚的に根拠のある⾔語 データと純粋な⾔語コーパスの間では、その⼤きさや分布に⼤きな乖離があることが、この研究を妨 げる主な原因であることがわかった。そこで、我々は、⾔語のみのデータを対象に、⾔語トークンと 関連する画像(これを "vokens "と呼ぶ)を⽂脈的にマッピングすることで、マルチモーダルアライ メントを⾔語データに外挿する "vokenization "という⼿法を開発した。この "vokenizer "は⽐較的⼩ さな画像キャプションデータセットで学習され、その後、⼤規模な⾔語コーパスのためのvokenを⽣ 成するために適⽤される。これらの⽂脈で⽣成されたvokensを⽤いて学習した結果、我々の視覚教 師付き⾔語モデルは、GLUE, SQuAD, SWAGなどの複数の純粋な⾔語タスクにおいて、⾃⼰教師付 きの代替モデルに⽐べて⼀貫した改善を示した。コードと事前学習済みモデルは https://github.com/ airsplay/vokenization で公開されています。
  17. Interpreting Graph Neural Networks for NLP With Differentiable Edge Masking

    微分可能なエッジマスキングを⽤いたNLPのためのグラフニューラルネットワークの解釈 No.5 グラフニューラルネットワーク(GNN)は、構造的帰納的バイアスをNLPモデルに統合するための ⼀般的なアプローチとなっている。しかし、GNNの解釈、特にグラフのどの部分(例えば、構⽂⽊ や共参照構造)が予測に寄与しているかを理解することについては、これまでほとんど研究がなされ てこなかった。本研究では、不要なエッジを識別するGNNの予測を解釈するためのポストホック⼿ 法を紹介する。訓練されたGNNモデルが与えられた場合、我々は、すべての層のすべてのエッジに ついて、そのエッジを削除することができるかどうかを予測する単純な分類器を学習する。我々は、 このような分類器が完全に微分可能な⽅法で学習できることを実証し、確率的なゲートを採⽤し、期 待される L_0ノルムを⽤いてスパース度を促進する。我々は、GNNモデルを2つのタスク(質問回答 と意味的役割のラベリング)について分析するための帰属⽅法として我々の技術を使⽤しており、こ れらのモデルにおける情報の流れについての洞察を提供している。我々は、モデルの性能を低下させ ることなく、⼤部分のエッジを削除することができ、残りのエッジはモデルの予測を解釈するために 分析することができることを示す。 →GNNの説明モデル
  18. Neural Databases ニューラルデータベース No.6 近年、ニューラルネットワークは、⻑年のAI問題、特に⾃然⾔語テキストからの問い合わせへの回答において、 ⽬覚ましい性能向上を示してきた。これらの進歩は、データベース管理の基本的な前提である「データはあらか じめ定義されたスキーマのフィールドとして表現される」という前提を緩和できるところまでニューラルネット ワークを拡張できるかどうかという問題を提起している。 この論⽂では、この疑問に答えるための第⼀歩を提 示する。我々は、事前に定義されたスキーマを持たないデータベースシステムであるNeuralDBを説明し、更新

    とクエリは⾃然⾔語で与えられる。我々は、最新の⾃然⾔語処理法によって提供されるプリミティブをベースに したクエリ処理技術を開発する。 まず、事前に訓練された⾔語モデルを動⼒源とする最近のNLP変換器は、関 連する事実の正確なセットが与えられれば、選択-プロジェクト-結合の問い合わせに答えることができること を、コア部分で実証する。しかし、これらの変換器は⾃明なデータベース以外のデータベースには拡張できず、 集約クエリも実⾏できない。これらの知⾒に基づいて、我々は、複数のニューラルSPJ演算⼦を並列に実⾏する NeuralDBアーキテクチャを記述する。これらの演算⼦の結果は、必要に応じて集約演算⼦に与えられる。我々 は、Neural SPJ演算⼦のそれぞれに供給されるべき適切な事実のセットを作成する⽅法を学習するアルゴリズム を記述する。重要なことは、このアルゴリズムは、Neural SPJ演算⼦⾃体で学習できるということである。我々 は、NeuralDBとそのコンポーネントの精度を実験的に検証し、何千もの⽂を超えるクエリに⾮常に⾼い精度で 答えることができることを示している。
  19. What Can We Do to Improve Peer Review in NLP?

    NLPでピアレビューを改善するためにできることは? No.7 査読は、学会に提出された論⽂の質を判断するための最良のツールであるが、それはますます疑わしいものに なってきている。この問題の⼀端は、査読者とエリアチェアマンが、リンゴとオレンジの⽐較を余儀なくされる ような、定義の不⼗分なタスクに直⾯していることにあると主張しています。いくつかの⽅法が考えられます が、NLPコミュニティで⼀貫して実施するためのインセンティブとメカニズムを作ることが重要な問題です。 →身のない論⽂。
  20. It's Not Just Size That Matters: Small Language Models Are

    Also Few-Shot Learners 重要なのはサイズだけではない。⼩さな⾔語モデルもまた、少数精鋭の学習者である No.8 数千億個のパラメータにスケーリングした場合、GPT-3(Brown et al., 2020)のような事前訓練された⾔語モデル は、困難な⾃然⾔語理解ベンチマークにおいて顕著な数発の性能を達成する。本研究では、パラメータ数が数桁 ⼩さい⾔語モデルでもGPT-3と同様の性能が得られることを示す。これは、テキスト⼊⼒を何らかの形のタスク 記述を含むクロース問題に変換し、勾配ベースの最適化を組み合わせることで達成された。我々の発⾒に基づい て、我々は、⼩さな⾔語モデルを⽤いた⾃然⾔語理解を成功させるために必要ないくつかの重要な要素を特定し た。 →⼯夫して⼩さなモデル作ったよ。 筆者らのもともと作ってたPET/iPET methodを使ったALBERTでGPT-3に勝つ。
  21. Self-supervised Learning: Generative or Contrastive ⾃⼰教師付き学習.⽣成的または対照的 No.9 深層教師付き学習は、過去10年間で⼤きな成功を収めてきました。しかし、⼿動ラベルへの依存性や攻撃に対す る脆弱性などの⽋点があり、より良い解決策を模索することが求められています。代替⼿段として、⾃⼰教師付 き学習は、ここ数年で表現学習の性能が⾶躍的に向上したため、多くの研究者を魅了しています。⾃⼰教師付き

    表現学習は、⼊⼒データ⾃体を監督として活⽤し、ほぼすべてのタイプの下流タスクに利益をもたらします。本 調査では、コンピュータビジョン、⾃然⾔語処理、グラフ学習における表現学習のための新しい⾃⼰教師付き学 習⼿法を紹介する。既存の経験的⼿法を包括的にレビューし、その⽬的に応じて、⽣成的、対照的、⽣成的対照 的(敵対的)の3つの主要なカテゴリーに分類する。さらに、⾃⼰教師付き学習がどのように機能するかについ てのより深い考察を提供するために、関連する理論的な分析作業を調査する。最後に、未解決の問題点と今後の ⽅向性について簡単に議論する。調査の概要スライドを⽤意しています。 →Generative or Contrastiveのレビュー。今年のまとめって感じ。
  22. Multi-agent Social Reinforcement Learning Improves Generalization マルチエージェント社会強化学習が⼀般化を向上させる No.10 社会的学習は、⼈間や動物の知能の重要な要素です。社会学習者は、環境の専⾨家の⾏動から⼿がか りを得ることで、洗練された⾏動を身につけ、新しい状況に迅速に適応することができる。本論⽂で

    は、マルチエージェント環境における独⽴強化学習(RL)エージェントが、他のエージェントからの⼿ がかりを利⽤して、社会学習を利⽤してパフォーマンスを向上させることができるかどうかを調査す る。その結果、バニラモデルを持たないRLエージェントは、個⼈の探索にコストがかかる環境で あっても、ほとんどの場合、社会学習を利⽤しないことがわかった。この⽋陥の理由を分析し、モデ ルベースの補助損失を導⼊することで、困難な探索課題を解くために専⾨家からの⼿がかりを活⽤す るようにエージェントを訓練できることを示す。これらのエージェントによって学習された⼀般化さ れた社会学習⽅針によって、エージェントは訓練した専⾨家を上回る性能を発揮するだけでなく、専 ⾨家のいる新しい環境に配備された場合には、単独学習者よりも優れたゼロショット転送性能を達成 することができる。⼀⽅、社会学習に依存した学習をしていないエージェントは、⼀般化が悪く、転 送タスクでは成功しない。さらに、マルチエージェントと単独学習を混在させることで、専⾨家がい ない場合でも、社会学習を利⽤して単独学習したエージェントよりも優れたパフォーマンスを発揮す るエージェントを得ることができることを発⾒した。このことは、社会学習がエージェントのタスク そのものの表現⼒を向上させることに役⽴っていることを示している。我々の結果は、社会学習が RLエージェントのタスクのパフォーマンスを向上させるだけでなく、新しい環境への⼀般化を向上 させることを可能にすることを示している。 Google →強化学習に社会学習を