AI論文読み会10月:Arxivまとめ

AI 最新技術 Update 会 10 ⽉⼤阪市⽴⼤学医学部附属病院中央放射線部⽚⼭豊
2020/10/07

⾃⼰紹介 • ⽚⼭豊 (かたやまゆたか) • 仕事 • 診療放射線技師
• 核医学，MR，医療情報 • 研究テーマ • 画質改善を⽬的とした画像処理 • スパースコーディング ⇒ 深層学習 • 超解像の医⽤画像への応⽤ • ⼆次元画像から三次元形状の復元 • 放射線画像の画像評価

Agenda • Arxiv sanity (www.arxiv-sanity.com) からピックアップした過去⼀ヶ⽉間の⼈気だった論⽂を紹介 • 2020/9/25 にサーベイ
1. top recent [Last month] の上位 10 個 2. top hype [Last month] の上位 10 個 3. 気になった論⽂ 2 本

top recent (2020/09/25) ① ディープニューラルネットワークにおける個々のユニットの役割の理解 (原⽂: Understanding the Role of
Individual Units in a Deep Neural Network) ② 効率的な変圧器調査 (原⽂: Efficient Transformers: A Survey) ③ テキスト⽣成のための現代的な⽅法 (原⽂: Modern Methods for Text Generation) ④ ディープニューラルネットワークを⽤いた継続学習の全体像．忘れられた教訓とアクティブでオープンワールドの学習への橋渡し (原⽂: A Wholistic View of Continual Learning with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning) ⑤ ExGAN: 極端なサンプルの逆襲的⽣成 (原⽂: ExGAN: Adversarial Generation of Extreme Samples) ⑥ フローエッジガイド動画完成 (原⽂: Flow-edge Guided Video Completion) ⑦ ベイズパーセプトロン：完全ベイズニューラルネットワークを⽬指して (原⽂: Bayesian Perceptron: Towards fully Bayesian Neural Networks) ⑧ ワンショット 3D 写真 (原⽂: One Shot 3D Photography) ⑨ MEAL V2: バニラ ResNet-50 をトリックなしで ImageNet 上で 80% 以上の Top-1 精度にブースト (原⽂: MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet without Tricks) ⑩ 地に⾜のついた⾔語学習を速くゆっくりと (原⽂: Grounded Language Learning Fast and Slow)

① ディープニューラルネットワークにおける個々のユニットの役割の理解 (原⽂: Understanding the Role of Individual Units in
a Deep Neural Network) • ディープニューラルネットワークは，⼤規模なデータセットで複雑なタスクを解決する階層的な表現を⾒つけることを得意としている． • ⼈間はどのようにしてこれらの学習された表現を理解することができるのだろうか？ • 本研究では，画像分類や画像⽣成ネットワーク内の個々の隠れたユニットの意味を体系的に特定するための解析フレームワークであるネットワーク解剖を提⽰する． 1. シーン分類で訓練された畳み込みニューラルネットワークを解析し，多様なオブジェクト概念にマッチするユニットを発⾒する． • シーンクラスの分類に重要な役割を果たす多くのオブジェクトクラスをネットワークが学習しているという証拠が得られる． 2. シーンを⽣成するために訓練された Generative adversarial network (GAN) を同様の解析⼿法を⽤いて解析する． • ⼩さなユニットのセットが活性化または⾮活性化されたときに⾏われた変化を分析することより，オブジェクトが⽂脈に適応しながら，出⼒シーンから追加・削除されることを発⾒した． 3. 解析フレームワークを，敵対的攻撃の理解とセマンティック画像編集に適⽤する． http://arxiv.org/abs/2009.05041v2 DNN の個々のユニットを統計的に分析することで明⽰的に “⽊” などの概念を与えなくてもそれらを学習しているユニットの存在を発⾒ GAN では各々の概念を司るユニットを操作することで⽣成画像を変化させることに成功気になった論⽂

② 効率的な変圧器調査 (原⽂: Efficient Transformers: A Survey) • トランスフォーマーのモデルアーキテクチャは，⾔語・視覚・強化学習などの様々な分野でその有効性が認められ，
最近⾮常に注⽬を集めている． • ⾃然⾔語処理の分野では，トランスフォーマーは現代のディープラーニングスタックに⽋かせないものとなっている． • 最近では，Reformer，Linformer，Performer，Longformer など，⽬もくらむほどの数の “X-former” モデルが提案されている． • 熱⼼な研究者がこの慌ただしい動きをナビゲートするのに役⽴つことを⽬的として，本論⽂では，最近の効率性を重視した “X-former” モデルの⼤規模かつ思慮深い選択を特徴づけ，複数の領域にまたがる既存の作業とモデルの整理された包括的な概要を提供する． http://arxiv.org/abs/2009.06732v2 Google の研究⾃然⾔語処理を中⼼に近年広がってきているトランスフォーマーモデルの改善についてのサーベイ論⽂

執筆時点 (2020 年 8 ⽉頃) から過去6ヶ⽉の間に，効率性に焦点を当てた新しいモデルが約 12 種類提案されている．本稿では，改善観点ごとにトランスフォーマーがまとめられている． •
Axial Transformer (Ho et al., 2019) • Big Bird (Zaheer et al., 2020) • Compressive Transformer (Rae et al., 2018) • ETC (Ainslie et al., 2020) • Image Transformer (Parmar et al., 2018) • Linear Transformers (Katharopoulos et al., 2020) • Linformer (Wang et al., 2020b) • Longformer (Beltagy et al., 2020) • Memory Compressed (Liu et al., 2018) • Performer (Choromanski et al., 2020) • Reformer (Choromanski et al., 2020) • Routing Transformer (Roy et al., 2020) • Set Transformer (Lee et al., 2019) • Sinkhorn Transformer (Tay et al., 2020b) • Sparse Transformer (Child et al., 2019) • Synthesizer (Tay et al., 2020a) • Transformer-XL (Dai et al., 2019)

③ テキスト⽣成のための現代的な⽅法 (原⽂: Modern Methods for Text Generation) • 合成テキスト⽣成は難しく，成功例は限られている．
• トランスフォーマーと呼ばれる新しいアーキテクチャにより，機械学習モデルが翻訳や要約などのより良い逐次データを理解できるようになった． • トランスフォーマーをコアに使⽤した BERT と GPT-2 は，テキスト分類・翻訳・⾃然⾔語推論などのタスクで優れた性能を⽰している． • 本稿では，両アルゴリズムを分析し，テキスト⽣成タスクでの出⼒品質を⽐較する． • トランスフォーマーモデルの 2 つの変種 (BERT，GPT-2) の性能は，RNNを⽤いた以前のアプローチを凌駕している．しかし，⾔語ごと (BERT，GPT-2) にモデルを事前学習する必要性が⾼まっている． http://arxiv.org/abs/2009.04968v1 • ロシア国⽴研究⼤学⾼等経済学院の研究 • 並列計算や⻑期依存の学習に対して優れた結果が得られる BERT や GPT-2 の様なトランスフォーマベースのモデルが今後増加する． • 事前訓練を⾏うための最善のアプローチがわからない． • 今後は新しい事前トレーニング⼿法およびより⼤きなモデルが登場する可能性が⾼い．

④ ディープニューラルネットワークを⽤いた継続学習の全体像．忘れられた教訓とアクティブでオープンワールドの学習への橋渡し (原⽂: A Wholistic View of Continual Learning
with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning) • 現在の深層学習研究はベンチマーク評価が主流である． • 専⽤のテストセットで経験的に良好な結果が得られれば，その⼿法は好ましいものとみなされる． • この考え⽅は，ベンチマークデータの連続的なセットが研究されている継続学習の分野にもシームレスに反映されている． • (継続学習の) 中⼼的な課題は反復的なパラメータ更新により，以前に取得した表現が壊滅的に忘却しないように保護することだが，個々の⼿法の⽐較は，現実世界でのアプリケーションとは切り離して扱われ，⼀般的には蓄積されたテストセットの性能を監視することで判断されるクローズドワールドの仮定が依然として優勢であり，モデルが訓練に使⽤されたのと同じ分布に由来するデータに遭遇することが保証されていることを前提としている． http://arxiv.org/abs/2009.01797v2 (クローズドワールド: 限られた数のオブジェクトが存在すると仮定された空間) 1/3

with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning) • ニューラルネットワークは未知のインスタンスに対して過信した誤った予測を⾏い，破損したデータに直⾯して故障することがよく知られており，⼤きな課題となっている． • 本研究では，観測されたデータセットの外で統計的に乖離したデータを識別 (オープンセット認識)，そして期待される性能向上が最⼤になるようにデータを段階的に照会する能動学習の隣接分野からの注⽬すべき教訓が，ディープラーニング時代にはしばしば⾒落とされていると主張． • これらの⾒落とされた教訓に基づいて，我々はディープニューラルネットワークでの継続学習，能動学習，オープンセット認識を橋渡しする統合的な視点を提案する． http://arxiv.org/abs/2009.01797v2 2/3

with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning) • 我々の結果は，これが個々のパラダイムに利益をもたらすだけでなく，共通のフレームワークにおける⾃然な相乗効果を強調していることを⽰している． • 我々は経験的に，従来提案されていた⼿法が失敗していたところにロバストなオープンワールドアプリケーションを⽰しながら，壊滅的な忘却の緩和，能動学習でのデータクエリ，タスクの順序の選択などの改善を実証している． • 従来提案されていた⼿法では失敗していた堅牢なオープンワールドアプリケーションを⽰しながら，壊滅的な忘却の緩和し，能動学習でのデータクエリ，タスクの順序を選択するときの改善を経験的に⽰す． http://arxiv.org/abs/2009.01797v2 ヨハン・ヴォルフガング・ゲーテ⼤学フランクフルト・アム・マイン (ドイツの公⽴⼤学) の研究継続学習，オープンセット，能動学習 (Active Learning) の包括的レビューこれらを統合する重要性を主張，ベースラインとなる⼿法を提案破滅的忘却 (Catastrophic Forgetting) 機械学習で新たなタスクを学習すると，過去に学習したタスクに対する性能が著しく低下する．継続学習ではその弱点を改善．オープンワールド (Open World) コンピュータゲーム⽤語 (英語) 舞台となる仮想世界を⾃由に動き回って探索・攻略できるように設計されたレベルデザインを指す⾔葉 ex: Minecraft (Microsoft) 3/3

知識蒸留に基づく正則化アプローチと貪欲なヘディング⼿順によって組み⽴てられた例題のリハーサルを組み合わせたもの継続学習では，追加されたばかりのクラスがまだ正しく予測されていないため，これらの予測が意味をなさないものであっても，古いタスクの出⼒を維持するために正則化することを期待して，既存のクラスのソフトターゲットは，新たに到着したデータを使⽤して計算される．エンコーダベースの⽣涯学習は，⾃動エンコーダ再構成に蒸留を適⽤することを教師なし学習シナリオに適⽤する．

⑤ ExGAN: 極端なサンプルの逆襲的⽣成 (原⽂: ExGAN: Adversarial Generation of Extreme Samples)
• 極端な事象から⽣じるリスクを軽減することは，⾃然災害，⾦融危機，伝染病などのモデル化など多くのアプリケーションで基本的な⽬標となっている． • このリスクを管理するためには，広範囲の極端なシナリオの理解や⽣成が重要なステップ． • Generative Adversarial Networks (GAN) に基づく既存のアプローチは，現実的 (典型的) なサンプルの⽣成には優れているが，極端なサンプルの⽣成には向かない． • 本稿では，現実的なサンプルと極端なサンプルを⽣成するための GAN ベースのアプローチである ExGAN を提案する． • 学習分布の極値を原理的にモデル化するために，分布の極値をモデル化するための確率論的アプローチである極限値理論 (EVT) を利⽤している． • 実⽤性のために，我々のフレームワークでは “ユーザーが希望する極限度の尺度” と “サンプル化したい極限度の確率” の両⽅を指定することができる． • 実際の⽶国降⽔データを⽤いた実験では，視覚的な検査と定量的な測定に基づいて，効率的な⽅法で現実的なサンプルを⽣成することが⽰されている．更に，ExGAN を⽤いた極端なサンプルの⽣成は，ベースラインアプローチで必要とされる指数関数的な時間とは対照的に (極限確率に関して) ⼀定の時間で⾏うことができる． http://arxiv.org/abs/2009.08454v1 シンガポール国⽴⼤学とインド⼯科⼤学ボンベイの研究

ユーザーが指定した極限基準に基づいて，現実的で極限的なサンプルを⽣成 • 左：既存の GAN ベース (DCGAN) のアプローチは，低降⽔量 (緑) か
ら中程度 (⾚) の降⽔量を持つ典型的な降⽔パターンを⽣成 • 右：ExGAN によって⽣成された極端なサンプルは，極端な (紫⾊) の降⾬量を持ち，実際の洪⽔に似た現実的な空間パターンを⽣成通常 GAN は典型的なデータのみを学習して⽣成するが， ExGAN は低確率で出現するデータをコントロールしながら⽣成する． GAN で⽣成したサンプルの中で極端なものだけをデータセットに加えてデータを偏らせた上で，それを使って極端度を条件付きにした GAN でデータを⽣成する．気象データにおいて，上⼿く⽣成できることを確認した．分布シフトを⽤いて、データ分布の極端尾部における学習データの不⾜を緩和し，極限値理論に基づく条件⽣成を⽤いて，任意の極値確率でデータを⽣成する．

実際の降⾬量と⽣成した降⾬量の⽐較 ExGAN を⽤いて⽣成されたサンプル (下段-ⅲ)，(下段-ⅳ) は元のデータセットの極端なサンプルに類似している． (ⅰ)，(ⅱ) 元のデータセットから得られた正規サンプルの中程度の降⾬量 (ⅲ)，(ⅳ) DCGAN
を⽤いて作成したサンプル (ⅰ)，(ⅱ) 元のデータセットから得られた極端なサンプルの⾼い降⾬量 (ⅲ)，(ⅳ) ExGAN を⽤いて作成したサンプル

⑥ フローエッジガイド動画完成 (原⽂: Flow-edge Guided Video Completion) • 新しいフローベースのビデオ補完アルゴリズムの提⽰． •
これまでのフロー補完⼿法は，動きの境界のシャープさを保持できないことが多かった． • 提案⼿法では，最初に動きのエッジを抽出して補完し，それを⽤いてシャープなエッジを持つ部分的に滑らかなフロー補完を導く． • 既存⼿法では，隣接するフレーム間の局所的なフロー接続の間で⾊を伝播させている．しかし、動きの境界が不可解な障壁を形成しているため，この⽅法ではビデオ内のすべての⽋落領域に到達することができない． • 提案⼿法は，時間的に離れたフレームに⾮局所的なフロー接続を導⼊することで，この問題を緩和し，動きの境界を越えて映像コンテンツが伝播することを可能にする． • 提案⼿法を DAVIS データセットで検証した． • 視覚的にも定量的にも，提案⼿法が最先端のアルゴリズムと⽐較して優れていることを⽰している． http://arxiv.org/abs/2009.01835v1 バージニア⼯科⼤学と Facebook の研究 (DAVIS データセット: Video Object のセグメンテーション評価に⼀般的なデータセット)

• フローエッジガイドによる映像補完 • 提案⼿法であるフローベースの動画補完⼿法は，従来の⼿法 (C: Deep Flow-Guided Video Inpainting
⇒ DFC-Net) よりもシャープな動きの境界を合成し，⾮局所的なフロー接続を利⽤して動きの境界を越えてコンテンツを伝播させることが可能．

DFC-Net • DFC-S という名前の 3 つの同様のサブネットワークで構成 • 最初のサブネットワークは⼊⼒として連続フレームを受け取り，⽐較的粗いスケールで中間フレームのフローを推定 •
2 番⽬と 3 番⽬のサブネットワークでは最初のサブネットワークで推定したデータを供給して精度を向上

• (a) ⼊⼒は “カラー映像” と “どの部分を合成すべきかを⽰すバイナリマスク” である． • (b) 隣接・⾮隣接フレーム間の前⽅・後⽅フローを計算し，フローエッジを抽出して完成する．
完成したエッジを⽤いてピースウィススムースなフロー補完を⾏う． ⇒ 時間的に遠いフレームを使った Flow 計算で⾒えない部分を取得し，⽋損部エッジ検出して補完する • (c) フローの軌跡をたどって，各⽋落ピクセルの候補ピクセルのセットを計算する．各候補について，信頼度スコアと⼆値有効性の指標を推定する． • (d) 信頼度加重平均を⽤いて，各⽋損ピクセルについて勾配領域の候補を融合させる． ⇒ 勾配を⽤いた再構成で継ぎ⽬を防ぐ • (e) 結果は，⽋落ピクセルがなくなるまで次の反復処理に渡される． • 先⾏研究より定量的に優れており，ビデオから⼈を消すこともできる．

Image Inpainting https://www.nvidia.com/research/inpainting/ より引⽤ http://labs.eecs.tottori-u.ac.jp/sd/Member/oyamada/OpenCV/html/py_tutorials/py_photo/py_inpainting/py_inpainting.html

⑦ ベイズパーセプトロン：完全ベイズニューラルネットワークを⽬指して (原⽂: Bayesian Perceptron: Towards fully Bayesian Neural Networks)
• ⼈⼯ニューラルネットワーク (NN) は，機械学習のデファクトスタンダードとなっている． • NN によって，多くのアプリケーションで⾼度な⾮線形変換を学習することができる．しかし，NN は通常，対応する不確実性を体系的に定量化することなく，点推定値を提供するだけである． • 本稿では完全ベイズ型 NN への新しいアプローチが提案されている． • パーセプトロンの重みと予測値はガウスのランダム変数と考えられる．シグモイドや ReLU のような⼀般的な活性化関数を⽤いてパーセプトロンの出⼒を予測し，重みを学習するための解析的な式が提供される． • 提案⼿法は計算量の多い勾配計算を必要とせず，逐次学習を可能にする． http://arxiv.org/abs/2009.01730v2 シュトゥットガルト⼤学 (ドイツの優れた 9 つの⼯科⼤学連合「TU9」のひとつ) の研究古典的なパーセプトロンを確率的に拡張したベイズパーセプトロンの紹介．ベイジアンパーセプトロンは出⼒として確率分布を計算でき，予測の確実性を⽰すことができる．ベイズパーセプトロンのパラメータ (重み) はベイズ推論によって学習され反復的な勾配降下は不要．学習は逐次的に⾏われるため，オンライン学習やリアルタイムアプリケーションに適している．

逐次学習 (オンライン学習) • 深層学習では⼀括学習 (batch learning) が⼀般的 • データが⼀括して与えられ，そこからパラメータの決定などを学習 •
逐次学習 (sequential learning，オンライン学習) は，⾔葉の通りデータは⼀つずつ逐次的に与えられ，データが与えられるたびにパラメータを更新 • ⻑所 • 全てのデータを⼀時的に蓄積しなくて良いので，少ないメモリで⼤規模なデータを扱える • データが増加したときに，増加した分だけ学習し直せば良いので，全部計算し直す⼀括学習より計算は少ない • メリット • 1 回あたりの学習コストが低い • 学習データを全て蓄えておかなくても良い • データの変化に対応しやすい • 短所 • 実⽤的には，学習の早さと，正しい解への収束性のトレードオフがあり，パラメータの更新の係数の設定はなかなか難しい． • デメリット • 外れ値やノイズに影響されてしまう • 新たなデータによる影響を強く受けてしまう

⑧ ワンショット 3D 写真 (原⽂: One Shot 3D Photography) •
3D 写真は，撮影した瞬間をより深く体験できる新しいメディアである． • 固定視点のステレオペアではなく視点を移動させることで⽣じる視差を表⽰する写真を 3D 写真と呼ぶ． • 3D 写真は従来の写真のように時間的には静⽌しているが，携帯電話やデスクトップの画⾯上ではインタラクティブな視差を伴って表⽰され，バーチャルリアリティ機器ではステレオも含めて表⽰される． 1. モバイルデバイス⽤に最適化された新しい単眼深度推定ネットワークを使⽤して， 2D ⼊⼒画像から深度を推定 2. 最先端の⼿法と同等の性能を持ちながら，レイテンシとピークメモリ消費量が少なく，使⽤するパラメータも桁違いに少ない 3. 得られた深度はレイヤー化された深度画像に持ち上げられ，視差領域で新しいジオメトリが合成 4. モバイルデバイス⽤に最適化されたインペインティングネットワークを使⽤して視差領域でもカラーテクスチャと構造を layered depth image (LDI) 上で直接合成 5. 結果をメッシュベースの表現に変換し，ローエンドのデバイスやネットワーク接続の悪い環境でも効率的に送信・レンダリングを実⾏ • この処理はモバイルデバイス上で数秒で完了し，結果は即座に閲覧・共有することができる． • 提案⼿法を検証するために広範な定量的評価を⾏い，現在の最先端技術と⽐較している． http://arxiv.org/abs/2008.12298v2 気になった論⽂ Facebook の研究単眼の 8-bit 画像から三次元形状の復元を⾏う

⑨ MEAL V2: バニラ ResNet-50 をトリックなしで ImageNet 上で 80% 以上の
Top-1 精度にブースト (原⽂: MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet) • Vanilla ResNet-50 の精度を 80% 以上の Top-1 精度に向上可能なシンプルで効果的な⼿法の提案． • 提案⼿法は，最近提案された Multi-Model Ensemble via Adversarial Learning (MEAL)，すなわち判別器を介したアンサンブル知識蒸留に基づいている． • “類似度損失と判別器を最終出⼒のみに採⽤” し，“全教師アンサンブルからのソフトマックス確率の平均値を蒸留のためのより強⼒な監督として⽤いることでさらに単純化” している． • 提案⼿法の重要な観点の⼀つは，蒸留過程でワンホット/ハードラベルを使⽤してはならないということである． • このようなシンプルなフレームワークが既存の⼿法 (アーキテクチャの変更，ImageNet以外の外部学習データ，autoaug/randaug，余弦学習率， mixup/cutmix学習，ラベルスムージングなどの⼀般的な⼿法) を⼀切使⽤することなく，最先端の結果を得ることができることを⽰した． • ImageNet dataset では，Vanilla ResNet-50 で 224×224 の単⼀クロップを⽤いて，80.67% の top-1 精度を達成しており，同じネットワーク構造の下では，従来の⼿法を⼤きく凌駕する結果となった． • この結果は，知識蒸留を⽤いた ResNet-50 の新たな強⼒なベースラインと⾔える． • 我々の知る限りでは，アーキテクチャの変更や追加のトレーニングデータなしに， Vanilla ResNet-50 の ImageNet 上での精度を 80% 以上まで向上できたのは初めてである． http://arxiv.org/abs/2009.08453v1 カーネギー・メロン⼤学 (アメリカ合衆国の私⽴研究⼤学) の研究 MEAL: 蒸留された知識を敵対学習で伝達するアンサンブル法

蒸留 (distillation): モデル圧縮⼿法の⼀つ • 通常の教師あり学習で得た⼤きいモデル (教師モデル) を，教師モデルとは別のより軽量なモデル (⽣徒モデル) の
学習に利⽤する⽅法 • ⼤きいモデルに匹敵する精度を持つ⼩さいモデルの作成を期待 • ⼀度学習したモデルの知識 (予測結果) を別の⼩さいモデルに継承⼤きいモデルの推論結果⼊⼒画像教師モデルの出⼒を正解ラベルの代わりに使⽤⽣徒モデル教師モデル⼩さいモデルの推論結果⼊⼒画像

⑩ 地に⾜のついた⾔語学習を速くゆっくりと (原⽂: Grounded Language Learning Fast and Slow) •
最近の研究では，従来の教師あり学習で訓練された⼤規模なテキストベースのニューラル⾔語モデルのワンショット学習の驚くべき傾向を獲得することが⽰されている． • シミュレートされた 3D の世界に配置され，新しいデュアルコーディング外部メモリを備えたエージェントが，従来の強化学習アルゴリズムでトレーニングされたときと同様のワンショット単語学習を⽰す． • 継続的な視覚認識と⾔語プロンプトを介して新しい物体を⼀度だけ紹介した後，エージェントは物体を再認識し，指⽰通りにそれを操作することができる． • その際，単語 (名称) の適切な参照元に関する短期的な知識とエピソードをまたいで獲得した⻑期的な語彙 (Vocabulary) 的・運動的知識 (何かを⾏う) をシームレスに統合する． http://arxiv.org/abs/2009.01719v3 Google (DeepMind) のメタ学習の研究

ワンショット学習 • コンピュータが経験したことを学習し，概念の階層を通じて世界を理解する機械学習の⽅法 • 何千ものサンプルを学習する従来の機械学習モデルに対して，⼀つまたはごく少量のトレーニングサンプルをアルゴリズムに学習させる⽅法 • ラベル無しで潜在的なクラスを分けるような表現を学習
• ⼀つのラベルありデータがあれば特徴空間上で周りにあるデータのラベルを推定できる

ワンショット学習夫末天⼤夫 • 画⾯左側の “夫” と同じ⽂字を選ぶ時，何を基準に判断するのか？
• 教師あり学習で特定の⽂字を判別できるようにするには，各⽂字のデータを沢⼭⽤意し，他の⽂字との差を学習する必要がある． • ⼈間は初めて⾒る⽂字でもその他の⽂字から分別可能であり，このようにたった⼀つの事例だけで，他のデータを分類させる課題をワンショット学習と呼ぶ．

⑩ 地に⾜のついた⾔語学習を速くゆっくりと (原⽂: Grounded Language Learning Fast and Slow) •
本研究では，ある特定の訓練条件の下で特定の記憶書き込みメカニズムを⽤いて，エージェントのワンショットの単語 - 物体結合が同じシェイプネットのカテゴリ内の新規の例題に⼀般化し，物体の数が不慣れな環境でも効果的であることを発⾒した．更に，⼆重符号化記憶が内発的な動機付けの信号として利⽤され，後の命令実⾏に役⽴ちそうな物体の名前を探すようにエージェントを刺激することができることを⽰した． • これらの結果から，ディープニューラルネットワークがメタ学習，エピソード記憶，明⽰的にマルチモーダルな環境を利⽤して，⼈間の認知発達の基本的な柱である「ファストマッピング」を説明することができ，⼈間のユーザーと対話するエージェントの潜在的な能⼒を変⾰することが実証された． http://arxiv.org/abs/2009.01719v3 ⼤規模⾔語資料による事前学習を⾏った⾔語モデルは One-Shot (Few-Shot) Learning が可能発達⼼理学には Fast-Mapping と⾔う 1 回の観察だけで新しい単語を未知のオブジェクトと結びつける考え⽅がある⼈の⾔語習得にも事前学習は重要な役割を持っていると考えられているこの学習システムを DNN に取り⼊れられたい

1. 発⾒: エージェントがオブジェクトを⾒て, 名前を知らされる “This is a dax”, “This is
a blicket” 2. 命令: オブジェクトの位置が変更され, オブジェクトをピックアップする指⽰が出る “Pick up a blicket”

著者によるデモ結論モダリティ固有のメモリを持つことの利点 • クエリが⾼速になる • 環境の状態の novelty を個別に推定できる •
メモリ全体の統計のノンパラメトリックな計算を容易にできる根本的にはエピソード記憶システムは最終的には迅速な知識の統合に不可⽋かも知れない今後の課題 • エージェントの範囲を広げたい • 様々なモダリティの応答を最適な⽅法で組み合わせる能⼒

top hypo (2020/09/25) ① Relay: ディープラーニングのための⾼レベルコンパイラ (原⽂: Relay: A High-Level
Compiler for Deep Learning) ② ハードウェア宝くじ (原⽂: The Hardware Lottery) ③ フローエッジガイド動画完成 (原⽂: Flow-edge Guided Video Completion) ⇒ Recent #.6 ④ AI を発掘する「発掘AI」。ギャラリーの中の象 (原⽂: Excavating "Excavating AI": The Elephant in the Gallery) ⑤ ディープニューラルネットワークを⽤いた継続学習の全体像。忘れられた教訓とアクティブでオープンな世界の学習への橋渡し (原⽂: A Wholistic View of Continual Learning with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning) ⇒ Recent #.4 ⑥ Brain2Word．⾔語⽣成のためのデコード脳活動 (原⽂: Brain2Word: Decoding Brain Activity for Language Generation) ⑦ テキスト⽣成のための現代的な⽅法 (原⽂: Modern Methods for Text Generation) ⇒ Recent #.3 ⑧ 効率的な変圧器調査 (原⽂: Efficient Transformers: A Survey) ⇒ Recent #.2 ⑨ 地に⾜のついた⾔語学習を速くゆっくりと (原⽂: Grounded Language Learning Fast and Slow) ⇒ Recent #.10 ⑩ ⾃動定理証明のための⽣成的⾔語モデリング (原⽂: Generative Language Modeling for Automated Theorem Proving)

① Relay: ディープラーニングのための⾼レベルコンパイラ (原⽂: Relay: A High-Level Compiler for Deep
Learning) • ディープラーニング (DL) モデルを記述，コンパイル，最適化するためのフレームワークは，近年，コンピュータビジョンや⾃然⾔語処理などの分野での進歩を可能にしてきた．しかし，これらのフレームワークを拡張して，急速に多様化する DL モデルやハードウェアプラットフォームに対応するには，表現⼒，コンパイル性，移植性など，トレードオフの難しさがある． • 本稿では，DL⽤の新しいコンパイラフレームワークである Relay を紹介する． • Relay の機能的で静的型付けされた中間表現 (IR) は，既存の DL IR を統合・⼀般化し，最先端のモデルを表現する． • Relay の表現⼒の⾼い IR を導⼊するには，ドメイン固有の最適化を慎重に設計する必要があるが，これは Relay の拡張メカニズムによって対応されている． • これらの拡張メカニズムを利⽤して，Relay は様々なハードウェア・プラットフォームをターゲットとすることができる統⼀されたコンパイラをサポートしている． • 今回の評価では，幅広いクラスのモデルやデバイス (CPU，GPU，新興アクセラレータ) に対して Relay が競争⼒のある性能を発揮することを実証している． • Relay のデザインは，統⼀された IR が性能を犠牲にすることなく，表現⼒，構成性，移植性を提供できることを実証している． http://arxiv.org/abs/1904.08368v2 ワシントン⼤学 (アメリカ合衆国の州⽴⼤学) の研究 Relay と⾔う新しいフレームワークの紹介ハードウェア，ソフトウェアに対する拡張性の⾼い DL コンパイラの中間表現が可能

フレームワークとコンパイラ深層学習のフレームワーク深層学習のコンパイラ 2008.01 Theano (Univ. of Montreal) 2013.09 Caffe
(Univ. of Montreal) 2015.03 Keras (Google) 2015.04 CNTK (Microsoft) 2015.04 mxnet (DMLC) 2015.06 Chainer (Preferred Networks) 2015.11 TensorFlow (Google) 2017.01 PyTorch (Facebook) 2017.04 Caffe2 (Facebook) 2016.11 nGraph (Intel Nervana) 2016.11 TensorFlow XLA (Google) 2017.08 TVM (Univ. of Washington) 2017.10 PlaidML (Vertex.ai) 2017.11 DLVM (Illinois Univ.) 2018.02 Tensor Comprehension (Facebook) 2018.04 TIRAMISU (MIT) 2018.05 Glow (Facebook) 2018.08 ONNC (Skymizer) ユーザが作成した機械学習モデルをもとに，機械学習の演算に特化したハードウェアへ最適な実⾏コードを出⼒する「機械学習向けコンパイラ」が注⽬されている．

中間表現 (intermediate representation) • “コンピュータがデータをクロスプラットフォームで扱うため” や “その他多数の⽬的のために使⽤されるデータ構造の表現” である． • 中間表現を⽤いたデータの抽象化は
コンピューティング分野では⼀般的な⼿法である． • 異なるプラットフォームで同等の情報を保持するデータを異なるフォーマットで扱う場合に，データを中間表現で表現することで複数フォーマットへの変換処理を効率化することを⼿助けできる． • 中間表現はテキストデータやバイナリデータなど，任意のデータ構造をとる． • MicrosoftとFacebookが提唱している Open Neural Network Exchange (ONNX) も中間表現の⼀つ． Wikipedia より引⽤

②ハードウェア宝くじ (原⽂: The Hardware Lottery) • ハードウェア，システム，アルゴリズムの研究コミュニティには，歴史的に異なるインセンティブ構造があり，互いに明⽰的に関与しようとする動機が変動してきた． • ハードウェアとソフトウェアが，どの研究アイデアが成功するか
(失敗するか) を頻繁に決定してきたことを考えると，このような歴史的な扱いは奇妙である． • 本論⽂では，研究アイデアが他の研究の⽅向性より優れているためではなく，利⽤可能なソフトウェアとハードウェアに適しているため，そのアイディアが勝った場合を説明するためにハードウェア抽選という⽤語を紹介する． • 初期のコンピュータ科学の歴史の中で，ハードウェア抽選が成功したアイデアを失敗と⾒なすことで，研究の進展を遅らせることになることを例⽰している． • このような教訓は，研究アイデアの道を踏み外すためのコストがますます⾼くなっている分野に特化したハードウェアの出現を考えると，特に顕著なものとなる． • コンピューティングの進歩から得られる利益は，特定の研究の⽅向性がファストレーンに移⾏する⼀⽅で，他の研究の進歩はさらに妨げられているということで，更に不均等になる可能性が⾼いと仮定している． http://arxiv.org/abs/2009.06489v2 Google の研究今後ハードウェア抽選を回避するため今あるハードウェアやソフトウェアを利⽤することで⽣じる機会費⽤の定量化を容易にする必要がある．

失われた 10 年ハードウェア宝くじの落選がもたらした被害の顕著な例 • ディープニューラルネットワークの認識の遅れ • ディープニューラルネットワークを機能させるためのアルゴリズムの殆どは数⼗年前に導⼊ •
バックプロパゲーション (1963 年，1976 年，1988 年) • ディープコンベンショナルニューラルネットワーク (1979 年) • 両者の組み合わせが提案 (1989 年) • コンベンショナルニューラルネットワークが有望な研究の⽅向性として広く受け⼊れられたのは 30 年後

Software Lottery • “Prolog” と “LISP” が 90 年代半ばまで AI
コミュニティで強く⽀持されていた 2 つの⾔語． • “Prolog” と “LISP” は推論やエキスパートシステムの中核的な構成要素である論理式を扱うのに特に適していた． • 1992 年に MATLAB が登場するまで，ディープニューラルネットワークのような接続主義的な考えを扱う研究者にとって明確に適した⾔語はなかった． Demuth, H. and Beale, M. Neural network tool- box for use with matlab - user guide verion 3.0, 1993.

③ フローエッジガイド動画完成 (原⽂: Flow-edge Guided Video Completion) • 新しいフローベースのビデオ補完アルゴリズムの提⽰． •
これまでのフロー補完⼿法は，動きの境界のシャープさを保持できないことが多かった． • 提案⼿法では，最初に動きのエッジを抽出して補完し，それを⽤いてシャープなエッジを持つ部分的に滑らかなフロー補完を導く． • 既存⼿法では，隣接するフレーム間の局所的なフロー接続の間で⾊を伝播させている．しかし、動きの境界が不可解な障壁を形成しているため，この⽅法ではビデオ内のすべての⽋落領域に到達することができない． • 提案⼿法は，時間的に離れたフレームに⾮局所的なフロー接続を導⼊することで，この問題を緩和し，動きの境界を越えて映像コンテンツが伝播することを可能にする． • 提案⼿法を DAVIS データセットで検証した． • 視覚的にも定量的にも，提案⼿法が最先端のアルゴリズムと⽐較して優れていることを⽰している． http://arxiv.org/abs/2009.01835v1 バージニア⼯科⼤学と Facebook の研究 Top recent ⑥

④ AI を発掘する「発掘AI」。ギャラリーの中の象 (原⽂: Excavating "Excavating AI": The Elephant in
the Gallery) • ケイト・クロフォードとトレバー・パグレンによる展覧会 “Training Humans ”と “Making Faces ”の批評と，付随するエッセイ “Excavating AI: the politics of images in machine learning training sets ” を解説． • 画像セットに関する⾔説には事実誤認と誤解を招くような記述が含まれている． • 本解説では，これらの懸念事項を説明し、詳しく説明することで，⽋陥のあるアプローチが主張者の⽬的を損なっていることを⽰している． • このコメントが，芸術的な⽬的のためのヒューマンデータの利⽤に関する⽣産的な対話に貢献することを期待している． http://arxiv.org/abs/2009.01215v2 ⽴命館⼤学の研究

「Training Humans」展 • 2019 年 9 ⽉から 2020 年 2
⽉までミラノ・オッセルヴァトリオで開催 • 現代美術家のトレバー・パグレンとメディア研究者のケイト・クロフォード (Kate Crawford and Trevor Paglen: C&P) は，コンピュータビジョンシステムのトレーニングに使⽤される⼈間の顔の画像のコレクションを展⽰した． • 問題点 • C&Pは，インフォームドコンセントなしに個⼈の画像を公開することで，倫理的な⼆重基準を採⽤した． • JAFFE, CK, FERETの 3 つのデータセットのうち，明確に定められた利⽤規約を尊重していなかった． • 画像セットに関する C&P の談話には事実誤認と誤解を招くような記述が含まれている． • 本解説では，これらの懸念事項を説明することで，⽋陥のあるアプローチが C&P の⽬的を損なうことを指摘． • このコメントが，芸術的な⽬的のためのヒトデータの利⽤についての⽣産的な対話に貢献することを期待している．

「Making Faces」展 • 2020 年 1 ⽉にパリで開催された「パリ・オートクチュール」のイベント開幕に合わせて開催 •
プラダ財団のホームページでは，この展覧会を探究していると説明 • “⼈間がどのようにして訓練データセットを通して表現され，解釈され，コード化されるのか” ，そして “技術システムがどのようにしてこの素材を収穫し，ラベルを付け，使⽤するのか” と⾔う 2 つの根本的な問題を提起

PRADA https://www.prada.com/jp/ja/pradasphere/special-projects/2020/prada-mode-paris.html

⑤ ディープニューラルネットワークを⽤いた継続学習の全体像。忘れられた教訓とアクティブでオープンな世界の学習への橋渡し (原⽂: A Wholistic View of Continual Learning
with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning) • 現在の深層学習研究はベンチマーク評価が主流である。 • ある⼿法は、専⽤のテストセットで経験的に良好な結果が得られれば、その⼿法は好ましいものとみなされる。 • この考え⽅は、ベンチマークデータの連続的なセットが研究されている継続的学習の分野にもシームレスに反映されています。 • 中⼼的な課題は、反復的なパラメータ更新により、以前に取得した表現が壊滅的に忘れ去られないように保護することです。 • しかし、個々の⼿法の⽐較は、現実世界でのアプリケーションとは切り離して扱われ、⼀般的には蓄積されたテストセットの性能を監視することで判断されます。 • クローズドワールドの仮定が依然として優勢です。 • これは、配備の間、モデルが訓練に使⽤されたのと同じ分布に由来するデータに遭遇することが保証されていることを前提としています。 • ニューラルネットワークは未知のインスタンスに対して過信した誤った予測を⾏い、破損したデータに直⾯して故障することがよく知られているため、このことは⼤きな課題となっています。 • 本研究では、オープンセット認識、観測されたデータセットの外で統計的に乖離したデータを識別すること、そして、期待される性能向上が最⼤になるようにデータを増分的に照会するアクティブラーニングの隣接分野からの注⽬すべき教訓が、ディープラーニング時代にはしばしば⾒落とされていることを論じている。 • これらの忘れられた教訓に基づいて、我々はディープニューラルネットワークにおける継続学習、能動学習、オープンセット認識を橋渡しする統合的な視点を提案する。 • 我々の結果は、これが個々のパラダイムに利益をもたらすだけでなく、共通のフレームワークにおける⾃然な相乗効果を強調していることを⽰している。我々は経験的に、従来提案されていた⼿法が失敗していたところにロバストなオープンワールドアプリケーションを⽰しながら、壊滅的な忘却の緩和、アクティブ学習でのデータの問い合わせ、タスクの順序の選択などの改善を実証している。 http://arxiv.org/abs/2009.01797v2 継続学習，オープンセット，能動学習 (Active Learning) の包括的レビューこれらを統合する重要性を主張，ベースラインとなる⼿法を提案 Top recent ④

⑥ Brain2Word．⾔語⽣成のためのデコード脳活動 (原⽂: Brain2Word: Decoding Brain Activity for Language Generation)
• 脳の活動とそれを発⽣させた刺激との対応付けのプロセスとして理解されている脳のデコーディングは，近年活発な研究分野となっている． • ⾔語刺激の場合，最近の研究では，fMRI スキャンを対象者が読んでいる単語の埋め込みにデコードすることが可能であることが⽰されている．しかし，このような単語の埋め込みは，脳の解読というよりは，⾃然⾔語処理のために設計されたものである． • 本稿では，fMRI スキャンを固定語彙内の対応する単語にマッピングして，直接分類することを提案する． • これまでの研究とは異なり，我々はまだ⾒たことのない被験者のスキャンを⽤いて評価を⾏う． • この⽅がより現実的であることを主張し，未⾒の被験者からの fMRI データを解読できるモデルを提案する． • 本モデルは，難度の⾼い課題において，5.22% の Top-1 精度と 13.59% の Top-5 精度を達成し，競合するすべてのベースラインを⼤幅に上回る結果を得た． • GPT-2 モデルでは，解読された単語を⾔語⽣成のガイドとして利⽤している． ⇒ GPT-2 を脳のスキャンデータを⽤いて条件付けし脳の活動が⾔語⽣成を誘導することを実証． http://arxiv.org/abs/2009.04765v1 スイス連邦⼯科⼤学チューリッヒ校 (スイス連邦の国⽴⼤学) の研究

• スイス連邦⼯科⼤学チューリッヒ校 (スイス連邦の国⽴⼤学) の研究 • ⽂書を読んでる⼈の fMRI を単語埋め込み (word embeddings)
に変換し⽣成された単語埋め込みを GPT-2 を活⽤し⽂書⽣成 ⇒ ⾳声障害を持つ個⼈のコミュニケーションを⽀援することができる • 完全に機能するシステムを実現するまでには， • まだまだ課題が多いが脳活動をコヒーレントなテキストに変換するための第⼀歩である改良されたデコーダのアーキテクチャ⻘⾊の台形は密な層オレンジ⾊の⻑⽅形は特徴マップ⿊の実線は連結特徴マップの形状と異なる正則化項が適⽤されるポイントが指定されている条件付き⾔語⽣成モデルのアーキテクチャ分類デコーダは⾔語⽣成モデル (GPT-2) のアンカーポイントを⾒つける．

⑦ テキスト⽣成のための現代的な⽅法 (原⽂: Modern Methods for Text Generation) • 合成テキスト⽣成は難しく，成功例は限られている．
• トランスフォーマーと呼ばれる新しいアーキテクチャにより，機械学習モデルが翻訳や要約などのより良い逐次データを理解できるようになった． • トランスフォーマーをコアに使⽤した BERT と GPT-2 は，テキスト分類・翻訳・⾃然⾔語推論 (Natural Language Inference: NLI)タスクなどのタスクで優れた性能を⽰している． • 本稿では，両アルゴリズムを分析し，テキスト⽣成タスクにおける出⼒品質を⽐較する． • トランスフォーマーモデルの 2 つの変種 (BERT，GPT-2) は，RNNを⽤いた以前のアプローチを凌駕している．しかし，⾔語ごと (BERT，GPT-2，他のモデル) にモデルを事前学習する必要性が⾼まっている． http://arxiv.org/abs/2009.04968v1 • ロシア国⽴研究⼤学⾼等経済学院の研究 • 並列計算や⻑期依存の学習に対して優れた結果が得られる BERT や GPT-2 の様なトランスフォーマベースのモデルが今後増加する． • 事前訓練を⾏うための最善のアプローチがわからない． • 今後は新しい事前トレーニング⼿法およびより⼤きなモデルが登場する可能性が⾼い． Top recent ③

⑧ 効率的な変圧器調査 (原⽂: Efficient Transformers: A Survey) • トランスフォーマーのモデルアーキテクチャは，⾔語・視覚．強化学習などの様々な分野でその有効性が認められ，
最近⾮常に注⽬を集めている． • ⾃然⾔語処理の分野では，トランスフォーマーは現代のディープラーニングスタックに⽋かせないものとなっている． • 最近では，Reformer，Linformer，Performer，Longformer など，⽬もくらむほどの数の “X-former” モデルが提案されている． • 熱⼼な研究者がこの慌ただしい動きをナビゲートするのに役⽴つことを⽬的として，本論⽂では，最近の効率性を重視した “X-former” モデルの⼤規模かつ思慮深い選択を特徴づけ，複数の領域にまたがる既存の作業とモデルの整理された包括的な概要を提供する． http://arxiv.org/abs/2009.06732v2 Google の研究⾃然⾔語処理を中⼼に近年広がってきているトランスフォーマーモデルの改善についてのサーベイ論⽂ Top recent ②

⑨ 地に⾜のついた⾔語学習を速くゆっくりと (原⽂: Grounded Language Learning Fast and Slow) •
最近の研究では，従来の教師あり学習で訓練された⼤規模なテキストベースのニューラル⾔語モデル少数のワンショット学習の驚くべき傾向を獲得することが⽰されている． • シミュレートされたた 3D の世界に配置され，新しいデュアルコーディング外部メモリを備えた具体化されたエージェントが，従来の強化学習アルゴリズムでトレーニングされたときに同様のワンショット単語学習を⽰す． • 継続的な視覚認識と⾔語プロンプトを介して新しい物体を⼀度だけ紹介した後，エージェントは物体を再認識し，指⽰通りにそれを操作することができる． • その際，単語 (名称) の適切な参照元に関する短期的な知識とエピソードをまたいで獲得した⻑期的な語彙的・運動的知識 (何かを⾏う) をシームレスに統合する． • 本研究では，ある特定の訓練条件の下で特定の記憶書き込みメカニズムを⽤いて，エージェントのワンショットの単語ー物体結合が同じシェイプネットのカテゴリ内の新規の例題に⼀般化し，物体の数が不慣れな環境でも効果的であることを発⾒した．更に，⼆重符号化記憶が内発的な動機付けの信号として利⽤され，後の命令実⾏に役⽴ちそうな物体の名前を探すようにエージェントを刺激することができることを⽰した． • これらの結果から，ディープニューラルネットワークがメタ学習，エピソード記憶，明⽰的にマルチモーダルな環境を利⽤して，⼈間の認知発達の基本的な柱である「ファストマッピング」を説明することができ，⼈間のユーザーと対話するエージェントの潜在的な能⼒を変⾰することが実証された． http://arxiv.org/abs/2009.01719v3 Google の研究ファストマッピング: 1 回の暴露後に新しい単語を⾒慣れない物体に結合させる Top recent ⑩

⑩ ⾃動定理証明のための⽣成的⾔語モデリング (原⽂: Generative Language Modeling for Automated Theorem Proving)
• トランスフォーマベースの⾔語モデルの⾃動定理証明への応⽤を探求している． • ⼈間に⽐べて⾃動化された定理証明者の⼤きな限界である数学⽤語の⽣成が，⾔語モデルからの⽣成によって解決される可能性があるという可能性に動機づけられている． • 本稿では，Metamath 形式化⾔語のための⾃動証明・証明アシスタント GPT-f を発表し，性能を解析する． • GPT-f は新しい短い証明を発⾒し，Metamath のメインライブラリに受け⼊れられた． http://arxiv.org/abs/2009.03393v1 OpenAI の研究 Metamath: 数学的な証明をアーカイブ，検証，および研究するための正式な⾔語および関連するコンピュータープログラム

証明検索 • ⾃動定理証明を⾔語モデルで⾏う研究 • 証明探索は，ルートゴールから始まり，各ゴールに対して複数の戦術が探索される証明ツリーを維持することで構成される． • ゴールは累積的な優先度によって拡張される． •
A=C を証明したい場合 A=B → B=C と順番に証明する必要があるが⾔語モデルにより⼿順をスキップし推定 • 最終的に最も証明確率が⾼いルートを採⽤ • 事前学習によりブースト可能

気になった 1 本ワンショット 3D 写真 (原⽂: One Shot 3D
Photography) • 3D 写真は，撮影した瞬間をより深く体験できる新しいメディアである． • 固定視点のステレオペアではなく視点を移動させることで⽣じる視差を表⽰する写真を 3D 写真と呼ぶ． • 3D 写真は従来の写真のように時間的には静⽌しているが，携帯電話やデスクトップの画⾯上ではインタラクティブな視差を伴って表⽰され，バーチャルリアリティ機器ではステレオも含めて表⽰される． 1. モバイルデバイス⽤に最適化された新しい単眼深度推定ネットワークを使⽤して， 2D ⼊⼒画像から深度を推定 2. 最先端の⼿法と同等の性能を持ちながら，レイテンシとピークメモリ消費量が少なく，使⽤するパラメータも桁違いに少ない 3. 得られた深度はレイヤー化された深度画像に持ち上げられ，視差領域で新しいジオメトリが合成 4. モバイルデバイス⽤に最適化されたインペインティングネットワークを使⽤して視差領域でもカラーテクスチャと構造を layered depth image (LDI) 上で直接合成 5. 結果をメッシュベースの表現に変換し，ローエンドのデバイスやネットワーク接続の悪い環境でも効率的に送信・レンダリングを実⾏ • この処理はモバイルデバイス上で数秒で完了し，結果は即座に閲覧・共有することができる． • 提案⼿法を検証するために広範な定量的評価を⾏い，現在の最先端技術と⽐較している． http://arxiv.org/abs/2008.12298v2 気になった論⽂ Facebook の研究単眼の 8-bit 画像から三次元形状の復元を⾏う

実現出来ること • 1 枚の携帯電話の写真から 3D 写真を作成するシステム 1. 1 枚の携帯電話の写真を⼊⼒ 2.
2D ⼊⼒から奥⾏きを推定する学習ベースのアルゴリズム 3. ジオメトリを 3D にリフティングして視差領域で拡張する従来のアルゴリズム 4. テクスチャ・インペイント 5. 最終的なメッシュベースの表現 6. 結果画像 • モバイルデバイスで利⽤可能な限られた計算およびメモリリソースを最適化 • リアルタイムで新しい視点を⽣成することが可能

3D 写真 • 視点の動きによって⽣じる視差を表⽰することができる表現のことを指す． • ステレオペアでは，撮影時に眼球間視差が組み込まれているのに対し，3D 写真では，視差を表⽰することができる． •
時間的には静⽌したままだが，3D 写真をインタラクティブに探索することができる． • 視点を変更できる機能は，「フラット」なモバイルやデスクトップの画⾯では魅⼒的である． • バーチャルリアリティでは，頭の動きによる視差にステレオ表⽰を加えることで，真に現実的な体験が可能となる．

Datasets • Datasets: MegaDepth Datasets • 無加⼯のデータを使⽤すると空に背景に配置できないネットワークになる •
PSPNet [Zhao et al. 2017] を利⽤して， MegaDepthデータセットの空の領域を特定 • 学習 • サイズ 32 のミニバッチ • β1 = 0.5、β2 = 0.999の Adam Optimizer を使⽤ • 100 epoch で実⾏

PSPNet (Pyramid Scene Parsing Network)とは • PSPNet は CVPR 2017
で発表された Pyramid Scene Parsing Networkで提案された Semantic Segmentation の⼿法 • PSPNet では，Encoder に⼤規模データで学習済み (ResNet101)の特徴抽出層を利⽤ • EncoderとDecoder の間に Pyramid Pooling Module を追加

要点 ⇒ モバイルデバイスに最適化された 3D 撮影 • 3D 撮影をより実⽤的なアプローチで実現するシステムを提案 • 1
回の撮影で完了し，特別なハードウェアを必要としない ⇒ 単眼の 8bit 画像 • モバイルデバイスでの使⽤に最適化 ⇒ 撮影後数秒時結果を出⼒ • light detection and ranging (LiDAR) とは異なり結果は低容量 • 画像を⼊⼒とし，学習ベースの⼿法を⽤いて，シーンの奥⾏きと視差領域の内容を推定深度推定ネットワークの概略図灰⾊のTRブロック: ダウンサンプリング/アップサンプリングパス⻘⾊のTRブロック: 空間分解能を維持

著者によるデモ

気になった 1 本ディープニューラルネットワークにおける個々のユニットの役割の理解 (原⽂: Understanding the Role of Individual
Units in a Deep Neural Network) • ディープニューラルネットワークは，⼤規模なデータセットで複雑なタスクを解決する階層的な表現を⾒つけることを得意としている． • ⼈間はどのようにしてこれらの学習された表現を理解することができるのだろうか？ • 本研究では，画像分類や画像⽣成ネットワーク内の個々の隠れたユニットの意味を体系的に特定するための解析フレームワークであるネットワーク解剖を提⽰する． 1. シーン分類で訓練された畳み込みニューラルネットワークを解析し，多様なオブジェクト概念にマッチするユニットを発⾒する． • シーンクラスの分類に重要な役割を果たす多くのオブジェクトクラスをネットワークが学習しているという証拠が得られる． 2. シーンを⽣成するために訓練された Generative adversarial network (GAN) を同様の解析⼿法を⽤いて解析する． • ⼩さなユニットのセットが活性化または⾮活性化されたときに⾏われた変化を分析することより，オブジェクトが⽂脈に適応しながら，出⼒シーンから追加・削除されることを発⾒した． 3. 解析フレームワークを，敵対的攻撃の理解とセマンティック画像編集に適⽤する． http://arxiv.org/abs/2009.05041v2 DNN の個々のユニットを統計的に分析することで明⽰的に “⽊” などの概念を与えなくてもそれらを学習しているユニットの存在を発⾒ GAN では各々の概念を司るユニットを操作することで⽣成画像を変化させることに成功気になった論⽂

VGG-16 Image Classifier と Progressive GAN Generator で検証

VGG-16 シーン分類器における単⼀ユニットの物体検出器の出現ネットワークのすべての層を⽐較するとほとんどの物体検出器が最後の畳み込み層で出現している conv5_3ユニットを個別に削除したとき分類精度に最も⼤きなダメージを与えた

Progressive Growing of GANs ⽣成器内での物体・部分特定ユニットの出現 PGGAN（Progressive Growing of GANs）段階的にネットワーク層を増加させ追加した層の影響を
学習に度合に応じて⽐重を変化ミニバッチ標準偏差を活⽤した多様性の向上マルチスケールによるワッサースタイン計量を⽤いた統計的類似度の使⽤ネットワークの layer 5 に物体固有の part のピークがある Layer 5 には object よりも part が多くの視覚的な概念が⽰されている

GAN⽣成器内のユニットを変更・削除⽊のユニットを削減すると樹⽊にもに影響を与える樹⽊の後ろにある構造体は⾒えるようになるドアユニットを変更させると描かれるドアの位置，形状，サイズ，スタイルは変更されたユニットの位置によって異なる

敵対的攻撃の可視化 • テスト画像はスキー場と正しくラベル付け • Adversarial perturbations (逆説的摂動) を加えると視覚的には区別がつかないがベッドルームに分類 • 元の画像に⼩さな摂動を加えることで元の画像と視覚的に区別がつかないが誤分類される画像となる
• スキー場と分類するのに重要なユニットの “snow”，“mountain”，“house”，“tree” の検出を減らし，ベッドルームと分類するのに重要なユニットの “bed”，“head”，“sofa” の検出器の活性化が⾼まる

GAN ニューロンを操作して絵を描く • 元の尖塔の代わりに指定された場所にドームが追加された修正画像 • 20 個のドームユニットを変更することでユーザーの⾼度な意図が表現されると，出⼒シーンがリアルになるようにオブジェクトをどのように配置するかというピクセルレベルの詳細を⾃動的に処理を⾏う．

結論 • 個々のユニットを系統的に分析することで，ディープネットワークのブラックボックス内部についての洞察を得ることができると結論づけている． • ディープネットワークのユニットを観察し，操作することで，ネットワークが学習した知識の構造を理解し，⼈間がこれらの強⼒なモデルと相互作⽤するのを助けるシステムを構築することが可能になる．

DeepL (無料版) による翻訳を利⽤させて頂きました． https://www.deepl.com/

AI論文読み会10月:Arxivまとめ

AI論文読み会10月:Arxivまとめ

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Technology

Featured

Transcript