Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DeepLearning勉強会6月 Arxivまとめ

DeepLearning勉強会6月 Arxivまとめ

DeepLearning勉強会6月 Arxivまとめ

Transcript

  1. ・⽬的 最先端のDeep learningの技術のUpdate ・⽅法 Arxivのここ1ヶ⽉の最新論⽂の概要をざっと⽬を通し、その時の発表者が気に なった論⽂を1本ピックアップし、それについて解説。 その話をツマミにしつ つ、Deep learningの応⽤についてざっくばらんに議論します。 ・タイムライン

    19:00-19:05 趣旨説明 19:05-20:00 Arxiv1ヶ⽉まとめ発表 20:00-20:30 質疑応答・意⾒交換 ・その他  発表者を募集しています(⼤阪市⼤から講演費が⽀払われます)。1時間程度で 1ヶ⽉Arxivまとめ。  医療xDeep learningでうちの研究室と仕事をしたいエンジニア・医療者も募 集しています。 ・Arxiv AI系の論⽂がほとんど出てるopen journal ・後援 ⼤阪市⽴⼤学⼤学院医学系研究科 放射線診断学・IVR学 ⼈⼯知能研究室
  2. Top Recent ① 説明可能なディープラーニング:未開始者のためのフィールドガイド (原⽂: Explainable Deep Learning: A Field

    Guide for the Uninitiated) ディープニューラルネットワーク(DNN)は、多くの学習タスクにおいて⼈間レベルのパフォーマンスを達成する ために不可⽋な機械学習ツールです。しかし、そのブラックボックス的な性質から、⼊⼒データのどの側⾯がネッ トワークの決定を駆動するのかを理解することは本質的に困難です。⼈間が出⼒されたDNNに基づいて実⾏可能な 意思決定を⾏う必要がある様々な現実世界のシナリオがあります。このような意思決定⽀援システムは、法律、法 執⾏などの重要な領域で⾒られることがあります。⾼レベルの意思決定を⾏う⼈間が、DNNの意思決定が、意思決 定⽀援システムの展開の⽂脈で適切なデータ特徴の組み合わせによって駆動されていること、および⾏われた意思 決定が法的または倫理的に擁護可能であることを確認できることが重要です。DNN技術が信じられないほどのペー スで開発されているため、DNNの意思決定プロセスを説明するための新しい⽅法の開発と研究は、活発な研究分野 に花開いている。説明可能な深層学習の研究を始めようとしている実務家は、この分野の直交する⽅向性の多さに 怯えているかもしれません。この複雑さは、深層学習システムの動作を説明できるとは何を意味するのか、システ ムの「説明する能⼒」を評価するとは何を意味するのかを定義する際に存在する⼀般的な混乱によって、さらに悪 化している。この問題を緩和するために、この記事では、ディープラーニングの説明能⼒についての「フィールド ガイド」を提供します。このフィールドガイドでは、i)研究者が説明可能性研究で強化する深層学習システムの特 徴について説明し、ii)説明可能性を他の関連する深層学習研究分野の⽂脈に置き、iii)説明可能な深層学習に貢献 する基礎的な⼿法の空間を定義する3つの単純な次元を紹介しています。このガイドは、この分野に乗り出したば かりの⽅にもわかりやすい出発点として設計されています。) ぼちぼちわかりやすいレビュー(まとめ論⽂)でした。
  3. Top Recent ② シンセサイザ:トランスモデルにおける⾃⼰アテンションを再考する (原⽂: Synthesizer: Rethinking Self-Attention in Transformer

    Models) Dot product self-attentionは、最先端のトランスモデルの中⼼であり、不可⽋であることが知られています。しか し、本当に必要なのでしょうか?本論⽂では、トランスモデルの性能に対するドット積ベースの⾃⼰注意機構の真 の重要性と貢献度を調査する。⼤規模な実験により、(1)ランダムな整列⾏列は驚くほど競争⼒のある性能を発揮 すること、(2)トークン-トークン(クエリ-キー)相互作⽤から注⽬度の重みを学習することは、結局のところそれ ほど重要ではないことを発⾒した。この⽬的のために、我々は、トークン-トークン相互作⽤を⽤いずに合成的な 注⽬度重みを学習するモデルであるSynthesizerを提案する。実験結果は、MT (EnDe, EnFr)、⾔語モデリング (LM1B)、抽象的要約 (CNN/Dailymail)、対話⽣成 (PersonaChat)、マルチタスク⾔語理解 (GLUE, SuperGLUE)など の様々なタスクにおいて、SynthesizerがバニラのTransformerモデルに対抗できることを示している。 Attentionは単純なSynthesizerに置換可能では? 1
  4. 2 Attentionとは 画像 ⾔語 CNN ※実際の実装は, 枝分かれさして 「CNN2層+sigmoid」みたいな感じ 悪性 CNN

    or RNN この マンモ は タスク: マンモからの良悪性分類 タスク: ⽂章からの良悪性分類 … … … …
  5. 2 Self-Attentionとは 悪性 CNN or RNN これ は … ⾔語

    タスク: ⽂章からの良悪性分類 … … … … で ない 画像 タスク: 胸部Xp結節の良悪性分類
  6. 2 Self-Attentionとは 悪性 CNN or RNN これ は … ⾔語

    タスク: ⽂章からの良悪性分類 … … … … で ない 画像 タスク: 胸部Xp結節の良悪性分類
  7. Top Recent ③ オフライン強化学習:オープンな問題に関するチュートリアル、レビュー、視点 (原⽂: Offline Reinforcement Learning: Tutorial, Review,

    and Perspectives on Open Problems) このチュートリアル記事では、オフライン強化学習アルゴリズムの研究を始めるために必要な概念的なツールを読 者に提供することを⽬的としています: 以前に収集したデータを利⽤する強化学習アルゴリズムで、追加のオンラ インデータ収集は必要ありません。オフライン強化学習アルゴリズムは、⼤規模なデータセットを強⼒な意思決定 エンジンに変換することを可能にする⼤きな可能性を秘めています。効果的なオフライン強化学習⼿法は、利⽤可 能なデータから最⼤限の有⽤性を持つポリシーを抽出することができ、それにより、ヘルスケアや教育からロボッ ト⼯学まで、幅広い意思決定領域の⾃動化を可能にします。しかし、現在のアルゴリズムの限界がこれを困難にし ている。我々は読者にこれらの課題、特に最新の深層強化学習法の⽂脈での理解を提供することを⽬的とし、これ らの課題を緩和するために最近の研究で探求されてきたいくつかの潜在的な解決策を、最近の応⽤例とともに記述 し、この分野での未解決の問題に対する展望について議論する。 ぼちぼちわかりやすいレビュー(まとめ論⽂)でした。 1
  8. Top Recent ③ ヘルスケアでオフライン強化学習を使⽤することは、いくつかのユニークな課題を提起します(Gottesman et al.,2018)。安全性は⼤きな懸念事項であり、オンラインでの探索の可能性を⼤きく排除します。データセットはまた、 軽微なケースでは治療を必要とすることはほとんどないため、重⼤な転帰に⼤きく偏る可能性があり(Gottesman et al.,2019)、ナイーブなエージェントを誤った結論に導く可能性があり、例えば、どのような薬物治療も、そうでなけれ ば健康な個体に処⽅されていないだけで死亡を引き起こす可能性があるというようなことです。MIMIC-IIIデータセッ

    ト(Johnson et al., 2016)は、ICUからの約60Kの医療記録を収録しており、ヘルスケア治療におけるデータ駆動型の研 究を可能にする上で影響⼒を持っている。このデータセット上のQ-learning⼿法は、敗⾎症の治療(Raghuら、2017) や⼈⼯呼吸器の使⽤の最適化(Prasadら、2017)などの問題に適⽤されている。Wangら(2018)はMIMIC-III上でア クター批判法を適⽤して薬剤推奨を決定している。図6:リアルタイムてんかん治療システム、オフライン強化学習を 使⽤して訓練する(Guezら、2008)。ICUの設定以外では、オフラインRLのアプリケーションには、てんかん発作を 軽減するための最適な刺激頻度を決定するために、マウスの脳内の発作活動の記録から学習することが含まれていま す(Guezら、2008年)。オフラインRLは、⻑期的な治療計画の最適化にも使⽤されてきた。Shortreedら(2011) は、統合失調症治療の最適化のためにオフラインのフィットしたQ-iterationを使⽤しており、Nieら(2019)は、医療 治療の適切なタイミングを安全に決定するために⼆重ロバスト推定器を使⽤しており、Tsengら(2017)は、肺癌治療 のためにモデルベースのアプローチを使⽤している。このような課題を処理できるオフラインRLを慎重に適⽤するこ とで、医療提供者は、患者のケアを最適化し、最終的に転帰を改善するための強⼒な⽀援ツールを提供できるかもし れない 2 医療のとこだけ抜粋
  9. Top Recent ④ ⾃⼰教師付き世界モデルを通して探索する計画 (原⽂: Planning to Explore via Self-Supervised

    World Models) 強化学習は複雑なタスクを解くことを可能にするが、学習はタスク固有のものになりがちであり、サンプル効率が 課題となっている。我々は、⾃⼰監視型強化学習エージェントであるPlan2Exploreを提案する。このエージェント は、⾃⼰監視型探索の新しいアプローチと、探索中に知る必要のない新しいタスクへの迅速な適応によって、これ らの課題に取り組む。探索時には、エージェントが既に到達した後に観測の新規性を遡及的に計算する先⾏⼿法と は異なり、我々のエージェントは計画性を利⽤して将来の新規性を探索することで効率的に⾏動する。探索後、 エージェントはゼロショットまたは数ショットの⽅法で複数の下流タスクに迅速に適応する。本研究では、⾼次元 画像を⼊⼒とした困難な制御タスクについて評価を⾏った。訓練監督やタスク固有の相互作⽤がなくても、 Plan2Exploreは先⾏する⾃⼰教師付き探索⼿法を上回り、実際、報酬にアクセスできるオラクルの性能とほぼ⼀致 しています。ビデオとコードは https://ramanans1.github.io/plan2explore/ を参照してください。 1 少数の教師データから新たなタスクを効果的に獲得する強化学習。
  10. Top Recent ⑤ トランスフォーマーによるエンドツーエンドの物体検出 (原⽂: End-to-End Object Detection with Transformers)

    本研究では、物体検出を直接集合予測問題として捉える新しい⼿法を提案する。我々のアプローチは、検出パイプ ラインを合理化し、⾮最⼤抑制処理やアンカー⽣成のような、タスクに関する我々の事前知識を明示的にエンコー ドするための多くの⼿作業で設計されたコンポーネントの必要性を効果的に排除する。DEtection TRansformer(DETR)と呼ばれる新しいフレームワークの主な構成要素は、⼆部⼀致を介してユニークな予測を 強制的に⾏うセットベースのグローバルロスと、トランスエンコーダー/デコーダーアーキテクチャである。学習 されたオブジェクトクエリの固定された⼩さなセットが与えられると、DETRは、オブジェクトとグローバル画像 コンテキストの関係について理由付けを⾏い、予測の最終セットを直接並列に出⼒します。この新しいモデルは概 念的にシンプルで、他の多くの最新の検出器とは異なり、専⽤のライブラリを必要としません。DETR は、困難な COCOCO オブジェクト検出データセットにおいて、確⽴された⾼度に最適化された Faster RCNN ベースライン と同等の精度とランタイム性能を実証しています。さらに、DETR は、汎⽤化が容易で、統⼀的な⽅法でパノプ ティックセグメンテーションを⽣成することができます。DETR が競合するベースラインを⼤幅に凌駕することを 示した.訓練コードと事前訓練モデルは https://github.com/facebookresearch/detr から⼊⼿可能です。 1 Object detectionにtransformer(attention)を取り⼊れた研究。
  11. Top Recent ⑥ ⼀貫したビデオ深度推定 (原⽂: Consistent Video Depth Estimation) 我々は、単眼映像内の全ピクセルに対して、密で幾何学的に⼀貫した奥⾏きを再構成するアルゴリズムを提示す

    る。我々は、従来の構造-運動再構成を利⽤して、ビデオ内のピクセルに幾何学的制約を確⽴する。古典的な再構 成におけるアドホックなプリオールとは異なり、学習ベースのプリオール、すなわち単⼀画像の深度推定のために 訓練された畳み込みニューラルネットワークを使⽤しています。テスト時には、このネットワークを、特定の⼊⼒ 映像の幾何学的制約を満たすように微調整し、制約の少ない映像の部分でもっともらしい奥⾏きの詳細を合成する 能⼒を維持します。定量的検証により、我々の⼿法が従来の単眼再構成⼿法よりも⾼い精度と⾼いレベルの幾何学 的⼀貫性を達成していることを示しています。視覚的にも、我々の結果はより安定しているように⾒えます。我々 のアルゴリズムは、適度な動的な動きを持つ⼿で撮影された困難な⼊⼒映像を扱うことができます。再構成の品質 が向上したことで、シーンの再構成や⾼度なビデオベースの視覚効果など、いくつかのアプリケーションが可能に なりました。 1 ビデオからの深度推定
  12. Top Recent ⑥ 2 https://www.youtube.com/watch?v=5Tia2oblJAg ちなみに、気になったので読んだ。 How Do Neural Networks

    See Depth in Single Images? • 画像における物体の垂直位置を根拠に推定している。 • 物体領域の影をみて推定している。 DLによる深度推定は基本的に、
  13. Top Recent ⑦ データの複数のビュー間の対⽐学習は、最近、⾃⼰教師付き表現学習の分野で最先端の性能を達成した。しかし、 その成功にもかかわらず、異なるビュー選択の影響についてはあまり研究されていない。本論⽂では、実証分析を ⽤いて、ビュー選択の重要性をよりよく理解し、タスクに関連する情報はそのままに、ビュー間のmutual information (MI) を減らすべきであると主張する。この仮説を検証するために、教師なし・半教師付きフレーム ワークを考案し、MIの低減を⽬指して効果的なビューを学習する。また、MIを減らすための⽅法としてdata

    augmentationを検討し、データの増強を増やすことでMIが減少し、下流の分類精度が向上することを示す。 また、副産物として、ImageNet分類のための教師なし事前学習において、最新の精度を達成しました (ResNet-50を⽤いた場合、トップ1リニアリードオフが73%となりました)。さらに、我々のモデルをPASCAL のVOCオブジェクト検出やCOCOインスタンスのセグメンテーションに適⽤することで、⼀貫して教師付きプレト レーニングを上回る精度を達成した。コード:http://github.com/HobbitLong/PyContrast 1 Contrastive learningのより良い⼿法の提案 Mutual informationを減らそうよ よりよいContrastive learningのためのViewの検討 (原⽂: What makes for good views for contrastive learning)
  14. Top Recent ⑦ 2 ちなみに、Contrastive learningってなんなん? Advancing Self-Supervised and Semi-Supervised

    Learning with SimCLR 教師なし学習でベース作っとけば、少量の教師あり学習で⾼い精度を出せる。 まとめると、random croppingとrandom color distortionが重要 ※先⽉もあった → Hintonが共著!!!
  15. Top Recent ⑧ Hypersphereにおける整列と均⼀性による Contrastive Learning の理解 (原⽂: Understanding Contrastive

    Representation Learning through Alignment and Uniformity on the Recentrsphere) Contrastive Learning は、実際には顕著な成功を収めている。本研究では,対照的損失に関連する2つの重要な特 性を明らかにする.ハイパースフィア上の(1)正のペアからの特徴の近接性(Alignment)、(2)(正規化された)特徴 の誘導分布の⼀様性(Uniformity)である。対照的損失がこれらの特性を漸近的に最適化することを証明し、下流の タスクへの正の効果を分析する。経験的に、各特性を定量化するための最適化可能なメトリックを導⼊する。標準 的な視覚と⾔語のデータセットを⽤いた広範な実験により、両メトリクスと下流タスクの性能が強く⼀致している ことが確認された。驚くべきことに、これら2つのメトリクスを直接最適化することで、対照的学習よりも下流タ スクにおいて同等以上の性能を持つ表現が得られることがわかった。プロジェクトページ:https://ssnl.github.io/ Recentrsphere コード:https://github.com/SsnL/align_uniform 1 Contrastive learningのより良い⼿法の提案 Alignment lossとUniformity lossを導⼊しよう
  16. Top Recent ⑨ ランク1因⼦を⽤いた効率的でスケーラブルなベイズニューラルネット (原⽂: Efficient and Scalable Bayesian Neural

    Nets with Rank-1 Factors) ベイズ型ニューラルネットワーク(BNN)は、最新のディープラーニングのロバスト性と不確実性の定量化を改 善する上で有望な成功を収めている。しかし、⼀般的には、スケールでのアンダーフィッティングとパラメータ効 率の悪さに悩まされています。⼀⽅、不確実性定量化の代替⼿段として、ディープアンサンブルが登場しました が、特定の問題ではBNNを上回る性能を発揮しますが、効率性の問題にも悩まされています。これら2つのアプ ローチの⻑所をどのように組み合わせ、共通の問題を修正するかは不明です。この課題に取り組むために、我々は BNNのランク1のパラメータ化を提案します。また、複数のモードを捕捉するための混合近似後置法の使⽤を再検 討し、典型的な混合物とは異なり、このアプローチではメモリの増加が著しく⼩さくなることを認める(例えば、 サイズ10のResNet-50混合物では0.4%の増加しか認められない)。我々は,学習を改善するための事前学習,変 分的事後学習,⽅法の選択について系統的な実証的研究を⾏う.ImageNet上のResNet-50、CIFAR-10/100上の Wide ResNet 28-10、およびMIMIC-III上のRNNについて、ランク-1 BNNは、テストセットおよび分布外の変種に ついて、対数尤度、精度、および較正において最先端の性能を達成する。 1 BNNをより改善しよう。
  17. Top Recent ⑨ ランク1因⼦を⽤いた効率的でスケーラブルなベイズニューラルネット (原⽂: Efficient and Scalable Bayesian Neural

    Nets with Rank-1 Factors) ベイズ型ニューラルネットワーク(BNN)は、最新のディープラーニングのロバスト性と不確実性の定量化を改 善する上で有望な成功を収めている。しかし、⼀般的には、スケールでのアンダーフィッティングとパラメータ効 率の悪さに悩まされています。⼀⽅、不確実性定量化の代替⼿段として、ディープアンサンブルが登場しました が、特定の問題ではBNNを上回る性能を発揮しますが、効率性の問題にも悩まされています。これら2つのアプ ローチの⻑所をどのように組み合わせ、共通の問題を修正するかは不明です。この課題に取り組むために、我々は BNNのランク1のパラメータ化を提案します。また、複数のモードを捕捉するための混合近似後置法の使⽤を再検 討し、典型的な混合物とは異なり、このアプローチではメモリの増加が著しく⼩さくなることを認める(例えば、 サイズ10のResNet-50混合物では0.4%の増加しか認められない)。我々は,学習を改善するための事前学習,変 分的事後学習,⽅法の選択について系統的な実証的研究を⾏う.ImageNet上のResNet-50、CIFAR-10/100上の Wide ResNet 28-10、およびMIMIC-III上のRNNについて、ランク-1 BNNは、テストセットおよび分布外の変種に ついて、対数尤度、精度、および較正において最先端の性能を達成する。 1 BNNをより改善しよう。
  18. Top Recent ⑩ 拡張データを活⽤した強化学習 (原⽂: Reinforcement Learning with Augmented Data)

    視覚観測からの学習は強化学習(RL)の基本的な問題であるが、困難な問題でもある。アルゴリズムの進歩と畳み込 みニューラルネットワークの組み合わせは成功の秘訣であることが証明されていますが、現在の⽅法は2つの⾯で まだ不⾜しています。(a)学習のサンプル効率と(b)新しい環境への⼀般化である。この⽬的のために、我々はRAD: Reinforcement Learning with Augmented Dataを紹介します。これは、あらゆるRLアルゴリズムを強化することが できるシンプルなプラグアンドプレイモジュールです。ランダムクロップ、カラージッター、パッチカットアウ ト、ランダムコンボリューションなどのデータ拡張により、単純なRLアルゴリズムが、データ効率、⼀般化、 ウォールクロック速度の点で、⼀般的なベンチマークで複雑な最先端の⼿法と⼀致し、さらにはそれを上回ること ができることを示しています。データの多様性だけで、強化学習⼿法を変更することなく、エージェントが⾼次元 観測からの意味のある情報に集中できることがわかりました。DeepMind Control Suiteでは、RADが15の環境にお いてデータ効率と性能の点で最先端であることを示しています。さらに、いくつかのOpenAI ProcGenベンチマー クにおいて、RADがテスト時間の⼀般化を⼤幅に改善できることを実証しています。最後に、当社のカスタマイズ されたデータ増強モジュールにより、競合するRL技術と⽐較して、より⾼速なウォールクロック速度を実現して います。RADモジュールとトレーニングコードは https://www.github.com/MishaLaskin/rad から⼊⼿可能です。 1 強化学習のdata augmentation
  19. Top Hype ① TTNet: 卓球のリアルタイム時間・空間映像解析 (原⽂: TTNet: Real-time temporal and

    spatial video analysis of table tennis) 本研究では、⾼解像度卓球動画のリアルタイム処理を⽬的としたニューラルネットワークTTNetを提案し、時間的 データ(イベントスポッティング)と空間的データ(ボール検出とセマンティックセグメンテーション)の両⽅を 提供する。このアプローチは、⾃動参照システムによるスコア更新を推論するための核となる情報を提供する。ま た、マルチタスクデータセットOpenTTGamesを公開し、イベント、セマンティックセグメンテーションマスク、 ボール座標をラベル付けした120fpsの卓球ゲームの動画を⽤いて、主に素早いイベントのスポッティングと⼩さな 物体の追跡を⽬的としたマルチタスクアプローチの評価を⾏った。TTNetはゲームイベントのスポッティングにお いて97.0%の精度を示し,ボール検出においては2ピクセルRMSEで97.5%の精度を示した.提案するネットワー クは、ダウンスケールされたフルHD映像を、1台のコンシューマーグレードGPUを搭載したマシン上で、1⼊⼒テ ンソルあたり6ms以下の推論時間で処理することができます。このように、本研究では、スポーツスカウトによる ⼿動データ収集の代替、審判の意思決定⽀援、試合プロセスに関する追加情報収集などの可能性を持つ、リアルタ イムマルチタスク型深層学習アプリケーションの開発に貢献している。 1 TTNetを開発。データセットも。 specificなmultipleタスクを、end-to-endで実装している点が⾯⽩い。実⽤的。
  20. Top Hype ② 説明可能なディープラーニング:未開始者のためのフィールドガイド (原⽂: Explainable Deep Learning: A Field

    Guide for the Uninitiated) ディープニューラルネットワーク(DNN)は、多くの学習タスクにおいて⼈間レベルのパフォーマンスを達成する ために不可⽋な機械学習ツールです。しかし、そのブラックボックス的な性質から、⼊⼒データのどの側⾯がネッ トワークの決定を駆動するのかを理解することは本質的に困難です。⼈間が出⼒されたDNNに基づいて実⾏可能な 意思決定を⾏う必要がある様々な現実世界のシナリオがあります。このような意思決定⽀援システムは、法律、法 執⾏などの重要な領域で⾒られることがあります。⾼レベルの意思決定を⾏う⼈間が、DNNの意思決定が、意思決 定⽀援システムの展開の⽂脈で適切なデータ特徴の組み合わせによって駆動されていること、および⾏われた意思 決定が法的または倫理的に擁護可能であることを確認できることが重要です。DNN技術が信じられないほどのペー スで開発されているため、DNNの意思決定プロセスを説明するための新しい⽅法の開発と研究は、活発な研究分野 に花開いている。説明可能な深層学習の研究を始めようとしている実務家は、この分野の直交する⽅向性の多さに 怯えているかもしれません。この複雑さは、深層学習システムの動作を説明できるとは何を意味するのか、システ ムの「説明する能⼒」を評価するとは何を意味するのかを定義する際に存在する⼀般的な混乱によって、さらに悪 化している。この問題を緩和するために、この記事では、ディープラーニングの説明能⼒についての「フィールド ガイド」を提供します。このフィールドガイドでは、i)研究者が説明可能性研究で強化する深層学習システムの特 徴について説明し、ii)説明可能性を他の関連する深層学習研究分野の⽂脈に置き、iii)説明可能な深層学習に貢献 する基礎的な⼿法の空間を定義する3つの単純な次元を紹介しています。このガイドは、この分野に乗り出したば かりの⽅にもわかりやすい出発点として設計されています。) ぼちぼちわかりやすいレビュー(まとめ論⽂)でした。 重複
  21. 本研究では、物体検出を直接集合予測問題として捉える新しい⼿法を提案する。我々のアプローチは、検出パイプ ラインを合理化し、⾮最⼤抑制処理やアンカー⽣成のような、タスクに関する我々の事前知識を明示的にエンコー ドするための多くの⼿作業で設計されたコンポーネントの必要性を効果的に排除する。DEtection TRansformer(DETR)と呼ばれる新しいフレームワークの主な構成要素は、⼆部⼀致を介してユニークな予測を 強制的に⾏うセットベースのグローバルロスと、トランスエンコーダー/デコーダーアーキテクチャである。学習 されたオブジェクトクエリの固定された⼩さなセットが与えられると、DETRは、オブジェクトとグローバル画像 コンテキストの関係について理由付けを⾏い、予測の最終セットを直接並列に出⼒します。この新しいモデルは概 念的にシンプルで、他の多くの最新の検出器とは異なり、専⽤のライブラリを必要としません。DETR は、困難な COCOCO

    オブジェクト検出データセットにおいて、確⽴された⾼度に最適化された Faster RCNN ベースライン と同等の精度とランタイム性能を実証しています。さらに、DETR は、汎⽤化が容易で、統⼀的な⽅法でパノプ ティックセグメンテーションを⽣成することができます。DETR が競合するベースラインを⼤幅に凌駕することを 示した.訓練コードと事前訓練モデルは https://github.com/facebookresearch/detr から⼊⼿可能です。 Object detectionにtransformer(attention)を取り⼊れた研究。 トランスフォーマーによるエンドツーエンドの物体検出 (原⽂: End-to-End Object Detection with Transformers) Top Hype ③ 重複
  22. ⼀貫したビデオ深度推定 (原⽂: Consistent Video Depth Estimation) 我々は、単眼映像内の全ピクセルに対して、密で幾何学的に⼀貫した奥⾏きを再構成するアルゴリズムを提示す る。我々は、従来の構造-運動再構成を利⽤して、ビデオ内のピクセルに幾何学的制約を確⽴する。古典的な再構 成におけるアドホックなプリオールとは異なり、学習ベースのプリオール、すなわち単⼀画像の深度推定のために 訓練された畳み込みニューラルネットワークを使⽤しています。テスト時には、このネットワークを、特定の⼊⼒

    映像の幾何学的制約を満たすように微調整し、制約の少ない映像の部分でもっともらしい奥⾏きの詳細を合成する 能⼒を維持します。定量的検証により、我々の⼿法が従来の単眼再構成⼿法よりも⾼い精度と⾼いレベルの幾何学 的⼀貫性を達成していることを示しています。視覚的にも、我々の結果はより安定しているように⾒えます。我々 のアルゴリズムは、適度な動的な動きを持つ⼿で撮影された困難な⼊⼒映像を扱うことができます。再構成の品質 が向上したことで、シーンの再構成や⾼度なビデオベースの視覚効果など、いくつかのアプリケーションが可能に なりました。 ビデオからの深度推定 Top Hype ⑤ 重複
  23. シンセサイザ:トランスモデルにおける⾃⼰アテンションを再考する (原⽂: Synthesizer: Rethinking Self-Attention in Transformer Models) Dot product

    self-attentionは、最先端のトランスモデルの中⼼であり、不可⽋であることが知られています。しか し、本当に必要なのでしょうか?本論⽂では、トランスモデルの性能に対するドット積ベースの⾃⼰注意機構の真 の重要性と貢献度を調査する。⼤規模な実験により、(1)ランダムな整列⾏列は驚くほど競争⼒のある性能を発揮 すること、(2)トークン-トークン(クエリ-キー)相互作⽤から注⽬度の重みを学習することは、結局のところそれ ほど重要ではないことを発⾒した。この⽬的のために、我々は、トークン-トークン相互作⽤を⽤いずに合成的な 注⽬度重みを学習するモデルであるSynthesizerを提案する。実験結果は、MT (EnDe, EnFr)、⾔語モデリング (LM1B)、抽象的要約 (CNN/Dailymail)、対話⽣成 (PersonaChat)、マルチタスク⾔語理解 (GLUE, SuperGLUE)など の様々なタスクにおいて、SynthesizerがバニラのTransformerモデルに対抗できることを示している。 Attentionは単純なSynthesizerに置換可能では? Top Hype ⑥ 重複
  24. Top Hype ⑦ Latent Adversarial Generatorによる⾼解像度画像の作成 (原⽂: Creating High Resolution

    Images with a Latent Adversarial Generator) 現実的な画像を⽣成することは難しく、最近では多くの定式化が提案されています。しかし、ある特定のクラスの 画像を⽣成することに限定すると、このタスクはより扱いやすくなる。すなわち、⾃然画像の多様体から任意の画 像をサンプルとして⽣成するのではなく、⾃然画像の特定の「部分空間」から、同じ部分空間の低解像度画像を⽤ いて画像をサンプルとして⽣成することを提案する。我々が扱う問題は、単⼀画像の超解像問題の定式化に近いも のですが、実際にはかなり異なっています。単⼀画像超解像問題は、⽐較的低解像度の画像から最も基底真実に近 い画像を予測する問題である。我々は、Latent Adversarial Generator (LAG)と呼ばれる新しい⼿法を⽤いて、⾮常 に⼩さな⼊⼒を与えられた⾼解像度画像のサンプルを⽣成することを提案します。我々の⽣成的サンプリングフ レームワークでは、ネットワークが⽣成すべきサンプルのクラスを指示するために、(おそらく⾮常に低解像度 の)⼊⼒のみを使⽤します。このように、我々のアルゴリズムの出⼒は、⼊⼒に関連するユニークな画像ではな く、⾃然画像の多様体からサンプリングされた関連画像の可能性があるものです。我々の⼿法は,知覚損失を⽤い て敵の潜在空間のみで学習する. LAG開発。 ← Goodfellow!! 1
  25. Top Hype ⑦ 2 いや、Conditional GANやん。 ・We model the input

    images as a set of possibilities rather than a single choice. This in effect models the manifold of (low-resolution) input images. →「あらたなConditional GANの形です」とのこと。 潜在空間使うことでばらつきすくないよと。
  26. Top Hype ⑧ AxCell: 機械学習論⽂からの結果の⾃動抽出 (原⽂: AxCell: Automatic Extraction of

    Results from Machine Learning Papers) 近年の論⽂数の爆発的な増加に伴い、機械学習の進歩を追跡することはますます困難になってきている。本論⽂で は、論⽂から結果を抽出するための⾃動機械学習パイプラインAxCellを紹介する。AxCellはテーブルセグメンテー ションサブタスクを含むいくつかの新しいコンポーネントを使⽤して、抽出を助ける関連する構造知識を学習す る。既存の⼿法と⽐較した場合、我々のアプローチは結果抽出のための最新の状態を⼤幅に改善する。また、結果 抽出のためのモデルを学習するための構造化された注釈付きデータセットと、このタスクでのモデルの性能を評価 するためのデータセットを公開する。最後に、我々のアプローチの実⾏可能性を示し、本番の半⾃動結果抽出に使 ⽤できることを示し、我々の改良により、このタスクが初めて実⽤的になることを示唆しています。コードは GitHubで公開されています。 AxCellを開発。うまくworkすれば使うのあり。 1
  27. Top Hype ⑩ ⾔語モデルは少⼈数学習者 (原⽂: Language Models are Few-Shot Learners)

    最近の研究では、⼤規模なテキストのコーパスで事前学習を⾏った後、特定のタスクで微調整を⾏うことで、多く のNLPタスクやベンチマークで⼤きな成果が得られていることが実証されている。アーキテクチャ的にはタスクに とらわれないのが⼀般的ですが、この⽅法では数千から数万の例題のタスク固有の微調整データセットが必要とな ります。対照的に、⼈間は⼀般的に、新しい⾔語タスクを数個の例や簡単な命令から実⾏することができますが、 これは現在のNLPシステムではいまだに困難なことです。ここで我々は、⾔語モデルをスケールアップすること で、タスクに依存しない、数ショットの性能を⼤幅に向上させ、時には先⾏する最先端の微調整アプローチに匹敵 する性能に達することを示している。具体的には、1,750億個のパラメータを持つ⾃⼰回帰的⾔語モデルである GPT-3を学習させ、その性能を数ショットの設定でテストした。すべてのタスクにおいて、GPT-3は勾配の更新や 微調整を⼀切⾏わずに適⽤され、タスクと数ショットのデモはモデルとのテキストインタラクションのみで指定さ れた。GPT-3は、翻訳、質問応答、クロージングなどの多くのNLPデータセットに加えて、単語のスクランブル解 除、⽂中の新しい単語の使⽤、3桁の演算など、その場での推論や領域適応を必要とするいくつかのタスクにおい ても⾼い性能を達成している。同時に、GPT-3の数発学習が未だに苦戦しているデータや、⼤規模なウェブコーパ ス上での学習に関連して⽅法論的な問題を抱えているデータをいくつか挙げた。最後に、GPT-3は⼈間が書いた記 事と⼈間が書いた記事を区別するのが難しいニュース記事のサンプルを⽣成することができることを発⾒した。本 研究では、この発⾒とGPT-3の⼀般的な社会的影響について議論する。 GPT-3を再調整した。