$30 off During Our Annual Pro Sale. View Details »

AI最新論文読み会12月.pdf

 AI最新論文読み会12月.pdf

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Education

Transcript

  1. AI 最新論⽂読み会 12 ⽉
    ⼤阪市⽴⼤学医学部附属病院
    中央放射線部
    ⽚⼭ 豊
    2021/12/01

    View Slide

  2. ⾃⼰紹介
    • ⽚⼭ 豊 (かたやま ゆたか)
    • 仕事
    • 診療放射線技師
    • 核医学,MR,医療情報
    • 研究テーマ
    • 画質改善を⽬的とした画像処理
    • 超解像
    • 画質評価
    • ⾮参照画質メトリクス

    View Slide

  3. Agenda
    • Arxiv sanity (www.arxiv-sanity.com) から
    ピックアップした過去⼀ヶ⽉間の⼈気だった論⽂を紹介
    • 2021/11/20 にサーベイ
    1. 気になった論⽂ 1 本
    2. top recent [Last month] の上位 10 個
    3. top hype [Last month] の上位 10 個

    View Slide

  4. top recent (2021/11/20)
    1. マスクド・オートエンコーダーはスケーラブルな視覚学習器である (原⽂: Masked
    Autoencoders Are Scalable Vision Learners) ⇒ Vision Transformer (ViT)
    Facebook AI Research
    2. ビジュアルトランスフォーマーの調査 (原⽂: A Survey of Visual Transformers)
    3. ニューラルレンダリングの進歩 (原⽂: Advances in Neural Rendering)
    4. トランスフォーマーはCNNよりもロバストか? (原⽂: Are Transformers More Robust Than
    CNNs?)
    5. グラデーションだけではない (原⽂: Gradients are Not All You Need)
    6. エンコーダー・デコーダー・アーキテクチャーの仕組みを理解する (原⽂: Understanding How
    Encoder-Decoder Architectures Attend)
    7. データ拡張によるロバスト性の向上 (原⽂: Data Augmentation Can Improve Robustness)
    8. 予想されるGANの収束の速さ (原⽂: Projected GANs Converge Faster)
    9. パレット: イメージからイメージへの拡散モデル (原⽂: Palette: Image-to-Image Diffusion
    Models) ⇦ Pickup
    10. ニューラルネットワーク表現の類似性とマッチング (原⽂: Similarity and Matching of Neural
    Network Representations)
    • Transformer
    • GAN
    • Survey

    View Slide

  5. top hypo (2021/11/20)
    1. 掛け算のない⾏列の掛け算 (原⽂: Multiplying Matrices Without Multiplying)
    2. Implicit MLE: Backpropagating through Discrete Exponential Family Distributions (原⽂: Implicit MLE:
    Backpropagating Through Discrete Exponential Family Distributions)
    3. Laplace Redux -- エフォートレス・ベイジアン・ディープ・ラーニング (原⽂: Laplace Redux -- Effortless
    Bayesian Deep Learning)
    4. グラデーションだけではない (原⽂: Gradients are Not All You Need) top recent #.5
    5. パレットイメージからイメージへの拡散モデル (原⽂: Palette: Image-to-Image Diffusion Models) top recent #.9
    6. Audacityのための深層学習ツール.研究者がアーティストのツールキットを拡張するのに役⽴つ (原⽂: Deep
    Learning Tools for Audacity: Helping Researchers Expand the Artistʻs Toolkit) 11 ⽉ Top Hypo #.8
    7. そろそろ時間だ:野⽣でのアナログ時計の読み⽅ (原⽂: It's About Time: Analog Clock Reading in the Wild)
    8. StyleAlign:アライメントされたStyleGANモデルの分析と応⽤ (原⽂: StyleAlign: Analysis and Applications of
    Aligned StyleGAN Models) 11 ⽉ Top Hypo #.7
    9. マスクド・オートエンコーダーはスケーラブルな視覚学習器である (原⽂: Masked Autoencoders Are Scalable
    Vision Learners) top recent #.1
    10. 深層強化学習における⼀般化の調査 (原⽂: A Survey of Generalisation in Deep Reinforcement Learning)
    • Transformer
    • GAN
    • Survey
    • Math

    View Slide

  6. Pickup

    View Slide

  7. 9. パレット: イメージからイメージへの拡散モデル
    (原⽂: Palette: Image-to-Image Diffusion Models)
    • http://arxiv.org/abs/2111.05826v1
    • 本論⽂では,条件付き拡散モデルを⽤いた画像間翻訳のためのシンプルで汎⽤的なフレームワーク
    である Palette を紹介する.
    • Palette は,4 つの困難な画像間翻訳タスク(⾊付け,インペインティング,アンクロッピング,
    JPEG解凍)において,強⼒な GAN および回帰ベースラインを凌駕し,新しい技術⽔準を確⽴した.
    • これは,タスク固有のハイパーパラメータの調整やアーキテクチャのカスタマイズ,補助的な損失
    を伴わずに達成されており,望ましい⼀般性と柔軟性を⽰しています.
    • また,L2損失とL1損失の使い分けがサンプルの多様性に与える影響を明らかにし,アーキテク
    チャの実証的な研究を通じて⾃⼰注意の重要性を⽰しています.
    • さらに,ImageNet に基づく統⼀的な評価プロトコルを提唱し,様々なベースラインについて,
    FID,Inception Score,事前に学習した ResNet-50 の分類精度,参照画像に対する知覚的距離な
    どのサンプル品質スコアを報告しています.この標準化された評価プロトコルは,画像間翻訳の研
    究を進める上で重要な役割を果たすことが期待されます.
    • 最後に,3 つのタスク(カラー化,インペインティング,JPEG解凍)で訓練された単⼀のジェネ
    ラリスト Palette モデルが,タスクごとのスペシャリストモデルと同等以上の性能を発揮すること
    を⽰している.
    top recent #.9

    View Slide

  8. • Computer Vision や画像処理の多
    くの課題 (超解像,カラー化,イ
    ンペインティングや,セグメン
    テーションや固有画像の推定など
    の画素単位の画像理解タスク)
    は,画像間の変換として定式化す
    ることができます.
    • 上記タスクの多くは,複数の出⼒
    画像が1つの ⼊⼒と⼀致するとい
    う複雑な逆問題です.
    • Image-to-Image Transfer のアプ
    ローチは,画像の⾼次元空間にお
    けるマルチモーダルな分布を捉え
    ることができる深層⽣成モデルを
    ⽤いて,⼊⼒を与えられた出⼒画
    像の条件付き分布を学習すること
    です.

    View Slide

  9. 解決すべき課題
    • GAN は⾼精度の画像が⽣成でき,適⽤範囲が広く,効率的なサ
    ンプリングをサポートすることから,多くの Image-to-Image
    Transfer タスクで選択される.
    • GANは訓練するのが難しく,しばしば出⼒分布でモードを落と
    すことがあります.
    • Autoregressive Models,VAE,Normalizing Flows などの他の
    ⽣成モデルは,特定のアプリケーションで成功を収めている
    が,GANと同じレベルのサンプル品質と⼀般的な適⽤性を確⽴
    していない.

    View Slide

  10. 本論⽂の課題
    • Diffusion model を使った Image-to-Image translation の汎⽤フ
    レームワーク “Palette” の適⽤性を評価.
    • 評価タスクは “Colorization”,“Inpainting”,“Uncropping”,“JPEG
    decompression” の 4 つ.
    • 既存の GAN を使った⼿法などよりも⾼い性能を達成.
    • タスク固有の調整や最適化が不要で,様々なタスクに使⽤可能.
    • ICLR のレビュー
    • 論⽂と⽅法は⽬新しいものではありません.
    • 現在の形式は,学習⽅法と理論の美しさを楽しむ ICLR にはあまり適してい
    ない可能性があります.

    View Slide

  11. Colorization

    View Slide

  12. Inpainting

    View Slide

  13. Uncropping

    View Slide

  14. JPEG decompression

    View Slide

  15. 画像評価
    • Image-to-Image Transfer を評価することは困難である.
    • Colorization に関する先⾏研究では,
    モデル⽐較のために FID スコアと⼈間の評価に依存している.
    • Inpainting や Uncropping などのタスクは,
    定性的な評価に⼤きく依存しています.
    • JPEG decompression などの多くのタスクでは,
    PSNR や SSIM などの参照ベースのピクセルレベルの
    類似性スコアを使⽤するのが⼀般的でした.
    • 多くのタスクでは,
    評価のための標準化されたデータセットがないことが注⽬.
    ⇒ ⼿法固有の異なるテストセットが評価に使⽤

    View Slide

  16. 画像評価
    • 本研究では,ImageNet の規模,多様性,公開性を考慮して,inpainting,
    Uncropping,JPEG decompression の
    統⼀的な評価プロトコルを提案する.
    • Inpainting とUncropping については,既存の研究では主に
    Places2 Datasets を⽤いて評価している.
    ⇒ Larsson らが提案した ImageNet ctest 10k split を,
    ⇒ ImageNet 上の全ての画像間翻訳タスクのベンチマーク⽤
    ⇒ 標準サブセットとして使⽤することを提唱します.
    • ⼈間による評価に加えて,画像の品質と多様性の両⽅を捉えることが
    できる⾃動化された評価基準を使⽤することを提唱しています.
    • PSNR と SSIM は,ぼやけた回帰出⼒を好むため,
    ⼈間の判断とはうまく相関しないことが観察されています.
    • PSNR や SSIM のようなピクセルレベルの測定基準は,難しいタスクでは
    品質の信頼できる測定基準ではないため,使⽤しないことにした.

    View Slide

  17. 画像評価
    • 画像全体が平均的に良いと好評価 ⇒ ボケた画像の評価値が⾼い
    • PSNR の値と画質の関係を⽰したガイドラインがあるが
    画像により求められる画質が異なるため,相対的指標

    View Slide

  18. 知覚品質
    • ECCV 2018 PRIM Workshop で開催された
    超解像コンペティションでは
    知覚品質と歪みのトレードオフ問題を踏まえて,
    従来の評価⼿法 (PSNR,SSIM) とは異なる
    新しいメトリクスが導⼊
    Perceptual score = 1/2((10 - Ma et al.) + NIQE)
    • Ma et al.
    3 つの低レベルの統計的特徴から 2 ステージの回帰モデルを構築することでスコアを算出する仕組み
    • NIQE ⇒ ⾮参照型メトリクスの⼀種
    モデルを学習させるために使⽤されるイメージデータベースから取得された特徴と
    測定したいイメージから計算された natural scene statistic: NSS ベースの特徴の間の距離を測定
    • ⾮参照型メトリクスは⽬標画像がなくとも画質評価が可能

    View Slide

  19. ⾮参照画質メトリクスの種類
    • ⼊⼒画像の統計的な特徴量を使⽤して画質評価
    ⇒ スコアが⼩さいほど知覚品質が良好
    • Blind/Referenceless Image Spatial Quality Evaluator (BRISQUE)
    • 既知の歪んだ画像から natural scene statistic (NSS) 特徴量を抽出し,
    サポートベクター回帰を使⽤して画質スコアを予測
    • 教師あり⼿法のため学習済みモデルが必要
    • Natural Image Quality Evaluator (NIQE)
    • モデル学習に使⽤されるデータベースから取得された特徴と
    測定したい画像から計算された NSS 特徴との距離を測定する⼿法
    • 教師あり⼿法のため学習済みモデルが必要
    • Perception based Image Quality Evaluator (PIQE)
    • PIQE はブロック単位の歪みを推定し,知覚される歪みのある
    ブロックの局所分散を測定して画質スコアを計算
    • 教師なし⼿法のため学習済みモデルを必要としない
    ⇒ 名称に⾮参照 (Non-Reference) とあるが学習した画像と得られた画像を⽐較している

    View Slide

  20. 画像評価
    • Image-to-Image Transfer の評価には,4 つの定量的な尺度を使⽤.
    • Inception Score (IS), Fréchet Inception Distance (FID) ,
    事前に学習させたResNet-50 分類器の分類精度 (Classification Accuracy: CA) ,
    および知覚的距離 (PD),すなわち Inception-v1 特徴空間におけるユークリッド
    距離の単純な測定値です.また,複数のモデル出⼒間の SSIM 値,⽬視検査,
    ヒストグラムプロットにより,サンプルの多様性を評価しました.
    • サンプルの多様性は難しく,既存の多くの GAN ベースの⼿法の
    主な制限事項となっています.
    • Image-to-Image Transfer モデルの最終的な評価は,⼈間による評価です.
    • ⼈間がモデルの出⼒を参照画像から識別できるかどうかということです.
    • 2 択の強制選択 (2AFC) 試験を⽤いて,参照画像に対するモデル出⼒の
    知覚的品質を評価しました.
    ⇒「カメラからの画像はどれだと思いますか」という質問に対して,
    モデル出⼒を基準画像よりも選択する⼈間の評価者の割合である
    愚者率でまとめました.

    View Slide

  21. 視覚評価の結果

    View Slide

  22. 画像評価
    •画像は⼈間が⽬で⾒る
    ⇒ 視覚評価は避けて通れない.

    View Slide

  23. Top Recent

    View Slide

  24. 1. マスクド・オートエンコーダーはスケーラブルな視覚学習器である
    (原⽂: Masked Autoencoders Are Scalable Vision Learners)
    • http://arxiv.org/abs/2111.06377v1
    • 本論⽂では,マスクドオートエンコーダ (MAE) が Computer Vision のためのスケーラブ
    ルな⾃⼰教師付き学習器であることを⽰している.我々の MAE のアプローチはシンプル
    で,⼊⼒画像のランダムなパッチをマスクし,失われたピクセルを再構築するというも
    のです.MAE は 2 つのコアデザインに基づいています.
    • ⾮対称なエンコーダ・デコーダアーキテクチャを開発しました.これは,マスクトーク
    ンを含まないパッチの可視サブセットのみを操作するエンコーダと,潜在表現とマスク
    トークンから元の画像を再構成する軽量デコーダを備えています.
    • ⼊⼒画像の 75 % などの⾼い割合をマスクすることで,⾃明ではない有意義な⾃⼰監視タ
    スクが得られることを発⾒しました.
    • この 2 つの設計を組み合わせることで,⼤規模なモデルを効率的かつ効果的に学習する
    ことができ,学習の⾼速化 (3 倍以上) と精度の向上を実現しました.
    • 例えば,ViT-Huge モデルは,ImageNet-1K データのみを使⽤する⼿法の中で最⾼の精
    度(87.8%)を達成しています.下流のタスクにおける転送性能は,教師付きの事前学習
    を上回り,有望なスケーリング動作を⽰している.
    • ⽬的: マスクドオートエンコーダの⾔語と視覚での違い
    • ⽅法: 画像をパッチに分けマスクし復元
    • 結果: 学習の⾼速化が実現し,視覚領域でも⾃⼰教師付き学習が有⽤

    View Slide

  25. 事前学習
    • 事前学習
    • ⼊⼒の⼤部分 (75 % など) がマスクされる
    • ⾒えている部分だけを encode し,マス
    クされたままの部分と合わせたものか
    ら,画像全体を decode する
    • ⼤規模なモデルを 3 倍⾼速に学習させ
    る半教師ありの⼿法.画像からランダ
    ムにサンプルしたパッチを Encoder に
    ⼊⼒し,Decoder は潜在表現と⾜りな
    い部分の Mask から元の画像を復元す
    る.ViT-huge で ImageNeT-1k で
    87.8 % を達成.
    \DINO,MoCo v3など既存の⾃⼰教師あり学習⼿法より⾼い性能を発揮する.

    View Slide

  26. ⾔語と視覚
    • ⾔語と視覚では情報密度が異なる.
    • ⾔語
    • ⾔語は⼈間が⽣成した信号であり,⾮常に意味的で情報密度の⾼いものです.
    • ⼀⽂に数個しかない単語の⽋落を予測するモデルを学習する場合,このタスクは⾼
    度な⾔語理解を必要とするように⾒えます.
    • 画像
    • ⼀⽅,画像は,空間的な冗⻑性が⾼い信号です.
    • ⽋けたパッチは,隣接するパッチで再カバーすることができますが,
    パーツ,オブジェクト,シーンに関する⾼度な理解はほとんど必要ありません.
    • この違いを克服し有⽤な特徴の学習を促進するために,
    Computer Vision では,⾮常に多くのランダムなパッチをマスクする
    単純な⼿法が有効であることを⽰している.
    • 提案⼿法は冗⻑性を⼤幅に減らし,低レベルの画像統計を超えた
    全体的な理解を必要とする,挑戦的な⾃⼰監督タスクを⽣み出します.

    View Slide

  27. 図2. ImageNet 検証画像での結果例。
    マスキングされた画像(左)、MAE再構成(中)、グランドトゥルース(右)を⽰している。
    マスキング率は80%で、196個のパッチのうち39個しか残っていない。
    可視パッチでは損失が計算されないため、可視パッチでのモデル出⼒は質的に悪い。
    視覚的な品質を向上させるために、可視パッチで出⼒をオーバーレイすることができる。
    我々は意図的にこれを⾏わないようにして、⼿法の動作をより包括的に⽰すことができるようにしている。

    View Slide

  28. 図3. イメージネットで学習した MAE を⽤いた COCO 検証画像の結果例(モデルの重みは図2と同じ)。
    上の2つの例では、グランドトゥルースとは異なるものの、意味的には妥当な再構成がなされていることがわかる。

    View Slide

  29. 結論
    • 本研究では,イメージネットと伝達学習において,NLP の技術と同様の
    シンプルな⾃⼰教師付き⼿法であるオートエンコーダーが
    スケーラブルな利点をもたらすことを観察しました.
    • 視覚における⾃⼰教師付き学習は,NLP と同様の軌道に乗っている.
    • 画像と⾔語は性質の異なる信号であり,この違いには注意が必要.
    • 画像は光を記録したものであり,⾔葉のように意味的に分解されていな
    い.
    • オブジェクトを取り除くのではなく,意味的なセグメントを
    形成していない可能性の⾼いランダムなパッチを再移動させます.
    • MAE はピクセルを再構成しますが,これは意味的な本質ではないが,
    MAE は複雑で全体的な再構成を⾏っていることから,
    MAE は数多くの視覚的概念を学習していると考えられる.
    • MAE の中に隠された豊かな表現があるために起こる現象だと考えられ
    る.

    View Slide

  30. 2. ビジュアルトランスフォーマーの調査
    (原⽂: A Survey of Visual Transformers)
    • http://arxiv.org/abs/2111.06091v2
    • 注意⼒に基づくエンコーダ・デコーダアーキテクチャである Transformer は,⾃然⾔語処理の分野
    に⾰命をもたらしました.この⼤きな成果に触発されて,最近ではTransformer に類似したアーキ
    テクチャをComputer Vision (CV) 分野に適応させる先駆的な研究が⾏われており,様々な CV タ
    スクでその有効性が実証されています.ImageNet,COCO,ADE20k などの複数のベンチマーク
    において,競争⼒のあるモデリング能⼒を持つ Visual Transformer は,最新の Convolution
    Neural Networks (CNN) と⽐較して素晴らしい性能を達成しています.
    • 本論⽂では,CV の 3 つの基本的なタスク (分類,検出,セグメンテーション) に対して,100 種類
    以上の Visual Transformer を包括的にレビューし,その動機,構造,使⽤シナリオに応じてこれ
    らの⼿法を整理する分類法を提案しています.
    • 学習環境や対象とするタスクが異なるため,ベンチマークだけではなく,様々な構成で評価を⾏
    い,直感的に⽐較できるようにしました.
    • 視覚的な Transformer と逐次的な Transformer の間のギャップを埋めるためのスラック⾼レベル
    意味埋め込みなど,Transformer を数多くのアーキテクチャから際⽴たせることができるかもしれ
    ない,本質的でありながらも利⽤されていない⼀連の側⾯を明らかにすることができました.
    • 3 つの有望な将来の研究の⽅向性を提案し,さらなる投資を促します.
    • ⽬的: Visual Transformer の Survey 論⽂

    View Slide

  31. Survey
    • 画像分野における Transformer のサーベイ.
    • 同様のサーベイとしては下記がある
    • Transformers in Vision: A Survey
    (https://arxiv.org/abs/2101.01169v2)
    • Transformer は,⼊⼒シーケンス要素間の⻑い依存関係をモデリングし,シーケ
    ンスの並列処理をサポートします. 変圧器は設計に最⼩限の誘導バイアスを必
    要とし,⾃然にセット関数として適しています.
    • 本調査は,Computer Vision 分野における Transformer Model の概要を概観する
    ことを⽬的としている.
    • A Survey on Visual Transformer
    (https://arxiv.org/abs/2012.12556v3)
    • Transformer は,主に⾃⼰認識機構に基づく Deep Neural Network の⼀種であ
    る. 本稿では,これら Visual Transformer Model を異なるタスクに分類し,その
    利点と⽋点を分析して検討する.

    View Slide

  32. Transformers in Vision: A Survey
    A Survey on Visual Transformer
    A Survey of Visual Transformers

    View Slide

  33. 3. ニューラルレンダリングの進歩
    (原⽂: Advances in Neural Rendering)
    • http://arxiv.org/abs/2111.05849v1
    • フォトリアリスティックな画像や映像を合成することは,コンピュータグラフィックスの中核であり,何⼗年にもわ
    たって研究されてきた.従来,シーンの合成画像は,ラスタライズやレイトレーシングなどのレンダリングアルゴリズ
    ムを⽤いて⽣成されていました.これらのアルゴリズムでは,ジオメトリやマテリアルの特性を具体的に定義して⼊⼒
    します.これらの⼊⼒は,実際のシーンとレンダリングされるものを定義し,シーン表現と呼ばれます (シーンは 1 つ
    または複数のオブジェクトで構成されます).シーン表現の例としては,テクスチャを伴った三⾓形のメッシュ (アー
    ティストが作成したものなど),点群 (深度センサーからのものなど),ボリュームグリッド (CT Scan からのものな
    ど),暗黙の表⾯関数 (切り捨てられた符号付き距離フィールドなど) などがあります.このようなシーン表現を,微分
    可能なレンダリング・ロスを⽤いて観測データから再構成することを,インバース・グラフィックスまたはインバー
    ス・レンダリングといいます.
    • ニューラルレンダリングはこれと密接に関連しており,古典的なコンピュータグラフィックスと機械学習のアイデアを
    組み合わせて,実世界の観測結果から画像を合成するアルゴリズムを開発している.ニューラルレンダリングは,フォ
    トリアリスティックな画像・映像コンテンツを合成するという⽬標に向けた⾶躍的な進歩です.近年,この分野では,
    学習可能なコンポーネントをレンダリングパイプラインに注⼊するさまざまな⽅法を⽰す何百もの論⽂が発表され,⼤
    きな進歩を遂げています.このニューラルレンダリングの最新情報では,古典的なレンダリング原理と,学習された
    3D シーン表現 (現在はニューラルシーン表現と呼ばれています) を組み合わせる⼿法に焦点を当てています.これらの
    ⼿法の主な利点は,設計上 3D ⼀貫性があることであり,撮影されたシーンの新しい視点合成などのアプリケーション
    を可能にします.静的なシーンを扱う⼿法に加えて,⾮剛体的に変形するオブジェクトをモデル化するためのニューラ
    ル・シーン表現を取り上げます.
    • ⽬的: ニューラルレンダリングの Survey 論⽂

    View Slide

  34. ニューラルレンダリング
    • 2020 年頃から Computer Graphics や Computer Vision で
    Representing Scenes as Neural Radiance Fields for View
    Synthesis (NeRF) が注⽬されている.
    • NeRF はレンダリング⽅程式を逆問題として解く⼿法.
    • レンダリング⽅程式を放射輸送⽅程式に戻して,
    再帰する積分⽅程式で使われるベクトル場を
    ニューラルネットワークとして表し,微分可レンダリングと
    確率的勾配降下法 (SGD) で最適化問題として解く⼿法.

    View Slide

  35. 従来のコンピュータグラフィックスでは,シーンの⾼品質で制御可能な画像を⽣成することができますが,
    シーンの物理的なパラメータ,例えばカメラのパラメータ,照明,オブジェクトの材質などは
    すべて⼊⼒として提供される必要があります.
    実世界のシーンで制御可能な画像を⽣成しようとすると,
    画像や映像などの既存の観測データからこれらの物理的特性を推定する必要があります.
    この推定作業は逆レンダリングと呼ばれ,特にフォトリアリスティックな合成を⽬的とする場合には⾮常に困難です.
    これに対し,ニューラルレンダリングは,シーンをコンパクトに表現することができる
    急速に発展している分野であり,ニューラルネットワークを活⽤することで,
    既存の観測データからレンダリングを学習することができます.

    View Slide

  36. Neural Rendering
    • NeRF: Representing Scenes as Neural Radiance Fields for
    View Synthesis
    NeRF はカリフォルニア⼤学バークレー校の研究者らが 2020 年 3 ⽉に発表した研究です.
    Radiance Fields は直訳すれば「輝度場」で,論⽂の趣旨に沿っていえば,
    空間上の各座標に⾊と密度を対応付けるベクトル場になります.
    ここで密度というのはその点の不透明度,つまりそこに何かしらの物体が存在することを⽰す指標です.
    したがって物体が存在する座標の密度が⾼くなるような Radiance Fields を得ることができれば,
    三次元空間の形状を表現できたことになります.
    このベクトル場をニューラルネットワークで近似するというのが NeRF のアイディアです.
    座標と何らかの値を対応付ける関数を考える点で,陰関数表現と似ています.

    View Slide

  37. シーンの表現
    何⼗年もの間,CG の分野では,点群,polygon,Surface,Mesh,Volume など,様々な原始的な検討されてきました.
    CG の分野では,これらの表現は明確に定義されていますが,
    ニューラルレンダリングに関する現在の⽂献では,Surface とVolume について,しばしば混乱が⾒られます.
    ⼀般的には,体積表現は表⾯を表現することができますが,その逆はできません.
    体積表現は,密度,不透明度,占有率などの体積特性を保存しますが,⾊や輝度などの多次元特性も保存できます.
    ボリューム表現とは対照的に,サーフェイス表現は,オブジェクトの表⾯に関する特性を保存します.
    表⾯表現,体積表現ともに,連続した部分と離散した部分があります.
    連続的な表現は,解析的な勾配を与えることができるので,ニューラルレンダリングアプローチにとって特に興味深いものです.

    View Slide

  38. 総括
    • ニューラルレンダリング技術の最新動向を紹介しました.
    • ここで取り上げた⼿法は,学習⽤の⼊⼒として 2 次元の観察結
    果に基づいて 3 次元のニューラルシーン表現を学習し,
    さまざまなシーンパラメータを制御してフォトリアリスティッ
    クな画像を合成することができるものである.
    • ニューラルレンダリングの分野は,ここ数年で急速に発展して
    おり,現在も急速に成⻑しています.
    • その⽤途は,剛体および⾮剛体シーンの⾃由視点映像から,
    • 形状や素材の編集,再照明,⼈間のアバター⽣成など,多岐に
    わたります.

    View Slide

  39. 4. トランスフォーマーはCNNよりもロバストか?
    (原⽂: Are Transformers More Robust Than CNNs?)
    • http://arxiv.org/abs/2111.05464v1
    • Transformerは,視覚認識のための強⼒なツールとして登場しました.最近の研究では,幅広いビ
    ジュアルベンチマークで競争⼒のある性能を⽰すだけでなく,Transformer は Convolutions
    Neural Networks (CNN) よりもはるかにロバストであると主張しています.しかし,驚くべきこ
    とに,これらの結論は,Transformer と CNN が異なるスケールで⽐較され,異なる学習フレーム
    ワークで適⽤されるという,不公平な実験設定から導き出されていることがわかった.
    • 本論⽂では,ロバスト性の評価に焦点を当て,Transformer と CNN を初めて公平かつ詳細に⽐較
    することを⽬的としています.
    • 我々の統⼀されたトレーニングセットアップにより,敵対的なロバストネスを測定する際に
    Transformer が CNN よりも優れているというこれまでの考えにまず疑問を投げかける.さらに驚
    くべきことに,Transformer の学習レシピを適切に採⽤すれば,CNN は敵対的攻撃に対する防御
    において Transformer と同等のロバスト性を簡単に実現できることがわかった.配布されていな
    いサンプルでの⼀般化に関しては,外部の⼤規模データセットでの事前学習は,Transformer が
    CNN よりも優れた性能を達成するための基本的な要求ではないことを⽰している.更にこのよう
    な強⼒な⼀般化は,他のトレーニングセットアップによるものではなく,Transformer の⾃⼰注意
    的なアーキテクチャ⾃体が⼤きく寄与していることが⽰唆されています.この研究が,
    TransformerとCNNのロバスト性の理解とベンチマークに役⽴つことを期待しています.
    • ⽬的: Transformer (ViT) と CNN (ResNet-50) の⽐較
    • ⽅法: 敵対的なサンプルに対するロバスト性と,分布外のサンプルに対するロバスト性
    • 結果: 学習データやデータ拡張など学習⽅法を揃えると,敵対的攻撃に対する頑健性は同等
    外れ値のデータでは Transformer が強い

    View Slide

  40. • CNN
    • ResNet-50 (約 2,500 万個のパラメータを持つ) をデフォルトの CNN アーキテク
    チャとして選んだ.
    • ImageNet 上で CNN を学習するには,[15, 31]の標準的なレシピに従う.初期学習
    率を0.1に設定し,30番⽬,60番⽬,90番⽬のエポックで学習率を10倍に下げます.
    • Transformer
    • Vision Transformer (ViT) は,⾃然⾔語処理から Computer Vision へのトランス
    フォーマーの導⼊に成功し,いくつかのビジュアルベンチマークにおいて CNN と⽐
    較して優れた性能を達成しています.
    • 外部データなしで ImageNet 上で ViT の学習に成功した DeiT の学習レシピに従い,
    デフォルトの Transformer アーキテクチャとして DeiT-S (約 2,200 万個のパラメー
    タを持つ) を設定しました.
    • 具体的には,AdamW を⽤いて全ての Transform を学習し,初期学習率を 5e-4 に設
    定し,cosine learning rate scheduler を⽤いて学習率を下げ,重み減衰の他に,3
    つのデータ補強戦略 (RandAug,MixUp,CutMix) を採⽤して学習を正則化してい
    ます (そうしないと,DeiT-S はオーバーフィッティングにより ImageNetの 精度を
    著しく低下させてしまいます).
    • トランスフォーマーは CNN より頑健と⾔われていたが,学習データや
    データ拡張など学習⽅法を揃えると,CNN は Transformer 並みの敵対的
    攻撃に対する頑健性を獲得できる.しかし,ImageNet-A,-Cのような外
    れ値のデータでは Transformer が強かった.
    [15] PriyaGoyal,PiotrDollár,RossGirshick,PieterNoordhuis,LukaszWesolowski,AapoKyrola,Andrew Tulloch, Yangqing Jia, and Kaiming He. Accurate,
    large minibatch sgd: Training imagenet in 1 hour. arXiv preprint arXiv:1706.02677, 2017.
    [31] Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, and Piotr Dollár. Designing network design spaces. In CVPR, 2020.

    View Slide

  41. RandAugment
    • Google から提案されている最適な
    データ拡張を探索する⼿法
    • RandAugment は⾮常に単純なアルゴリズム
    • RandAugment は “n”,“m” と⾔う
    2 つのパラメータで制御されている
    • nはデータ拡張を何回⾏うか
    • mはどれくらいの強さで拡張を⾏うか
    • 画像データを取り出すたびに,
    n 個のデータ拡張操作をランダムで取り出し,
    m の⼤きさで加える
    • 右図は論⽂の Figure 1
    • 1 段⽬が⼤きさ 9 で 2 回拡張した画像
    • 2 段⽬が⼤きさ 17 で 2 回拡張させた画像
    • 3 段⽬が⼤きさ 2 8で 2 回拡張させた画像
    Cubuk, E. D., Zoph, B., Shlens, J., & Le, Q. V. (2020).
    Randaugment: Practical automated data augmentation with a reduced search space.
    In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (pp. 702-703).

    View Slide

  42. MixUp/CutMix
    • 複数の画像を組み合わせた Data Augmentations
    • MixUp: 2 枚の画像をラベル共々ブレンド
    • CutMix: 複数の画像の⼀部を切り取って
    繋ぎ合わせて 1枚の⼊⼒画像にする
    • 学習データ同⼠をラベルごと繋ぎ合わせることで学習効率の低下を
    防ぎつつ,⼊⼒領域のドロップアウトと同等の効果を得る⼀⽅,
    局所的な⼊⼒信号を維持することで物体検出にも使える
    オーグメンテーション
    ⇒ 画像分類・物体検出の何でも
    MixUp や Cutoutよりも⾼い精度をマーク
    [1710.09412] mixup: Beyond Empirical Risk Minimization
    [1905.04899] CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features

    View Slide

  43. 5. グラデーションだけではない
    (原⽂: Gradients are Not All You Need)
    • http://arxiv.org/abs/2111.05803v1
    • 微分可能なプログラミング技術は,コミュニティで広く使われてお
    り,過去数⼗年の機械学習ルネッサンスの原因となっています.こ
    れらの⼿法は強⼒ですが,限界もあります.このレポートでは,リ
    カレント・ニューラル・ネットワークや数値物理シミュレーション
    から学習済みオプティマイザーのトレーニングに⾄るまで,様々な
    微分可能な状況で現れる,カオスに基づく⼀般的な故障モードにつ
    いて説明します.我々は,この失敗を研究対象のシステムのヤコビ
    アンのスペクトルにたどり着き,この失敗が微分ベースの最適化ア
    ルゴリズムを台無しにすると実務者が予想する場合の基準を提供し
    ます.
    • ⽬的: 反復微分可能なシステムを扱う際に⽣じる潜在的な問題の⼀つであるカオスについて議論する.
    • ⽅法: Rigid Body Physics,Meta-learning,Molecular Dynamics で検討
    • 結果: リカレントプロセスによる勾配の計算には多くの問題があるが,多くの素晴らしい結果が得られている.

    View Slide

  44. カオス理論
    • ⼒学系の⼀部に⾒られる,
    数的誤差により予測できないとされている
    複雑な様⼦を⽰す現象を扱う理論である.
    • カオス⼒学とも⾔う.
    • ここで⾔う予測できないとは,決してランダムではない.
    その振る舞いは決定論的法則に従うものの,積分法による解が
    得られないため,その未来 (および過去) の振る舞いを知るには
    数値解析を⽤いざるを得ない.しかし,初期値鋭敏性ゆえに,
    ある時点における無限の精度の情報が必要であるうえ,
    (コンピュータでは無限桁を扱えないため必然的に発⽣する) 数値解
    析の過程での誤差によっても,得られる値と真の値とのずれが
    増幅される.そのため予測が事実上不可能という意味である.
    カオス性を持つローレンツ⽅程式の解軌道

    View Slide

  45. 6. エンコーダー・デコーダー・アーキテクチャーの仕組みを理解する
    (原⽂: Understanding How Encoder-Decoder Architectures Attend)
    • http://arxiv.org/abs/2110.15253v1
    • 注意を伴うエンコーダ-デコーダネットワークは,多くのシーケンス対シーケンスのタス
    クを解決する強⼒な⽅法であることが証明されている.これらのネットワークでは,注
    ⽬がエンコーダとデコーダの状態を整えるため,ネットワークの動作を可視化するため
    によく使われる.しかし,ネットワークが適切なアテンション・マトリクスを⽣成する
    ためのメカニズムはまだ解明されていない.さらに,これらのメカニズムが,エンコー
    ダとデコーダに使⽤される特定のアーキテクチャ (リカレント,フィードフォワードな
    ど) に応じてどのように変化するのかもよくわかっていない.本研究では,エンコーダと
    デコーダのネットワークが,異なる配列対配列のタスクをどのように解決するかを調査
    する.本研究では,シーケンス上の隠れた状態を,時間的 (⼊⼒に依存しない) 成分と⼊
    ⼒駆動的 (シーケンスの位置に依存しない) 成分に分解する⽅法を紹介する.これにより,
    注意マトリクスがどのように形成されるかが明らかになった.つまり,タスクの要求に
    応じて,ネットワークは時間的成分と⼊⼒駆動成分のいずれかに強く依存することにな
    る.これらの結果は,時間成分の形成⽅法が異なるにもかかわらず,リカレント・アー
    キテクチャとフィードフォワード・アーキテクチャの両⽅に当てはまる.今回の結果は,
    注意⼒に基づくエンコーダー・デコーダーネットワークの内部構造について,新たな知
    ⾒を与えるものである.
    • ⽬的: エンコーダとデコーダのネットワークが,異なる配列対配列のタスクをどのように解決するかを調査する.
    • ⽅法: sequence-to-sequence タスクにおける3つの異なるエンコーダ・デコーダ・アーキテクチャを分析する
    • 結果: Transformer と類似している Attention-Only Architecture の分析は Transformer の動作メカニズムを⽰唆している.

    View Slide

  46. sequence-to-sequence (Seq2Seq)
    • Seq2Seq は 2014 年に Google により発表
    • Encoder と Decoder に別れている
    • Seq2Seq は RNN を利⽤しているため時系列データに強い
    ⇒ 翻訳や⾳声認識の分野で使われている

    View Slide

  47. 7. データ拡張によるロバスト性の向上
    (原⽂: Data Augmentation Can Improve Robustness)
    • http://arxiv.org/abs/2111.05328v1
    • ロバストテストの精度が学習中に低下し始める現象である
    ロバストオーバーフィッティングに悩まされている逆問題.
    • 本論⽂では,⼀般的なデータ補強スキームを⽤いて
    ロバストオーバーフィッティングを低減することに焦点を当てる.
    • その結果,従来の知⾒とは異なり,モデルの重みの平均化と組み合わせることで,
    データ補強がロバストテストの精度を⼤幅に向上させることを実証した
    • 様々な補強技術を⽐較し,空間合成技術が敵対的な学習に最も効果的であることを確認した.
    • 最後に,CIFAR-10 において,ϵ=8/255 と ϵ=128/255 のℓ∞とℓ2 ノルムで囲まれた摂動に対し
    て,我々の⼿法を評価した.
    • その結果,ロバスト精度において,これまでの最先端の⼿法と⽐較して,絶対値で +2.93% と
    +2.16% の⼤きな改善が⾒られた.特に,サイズ ϵ=8/255 のℓ∞ノルムで囲まれた摂動に対して,
    本モデルは外部データを⼀切使⽤せずに 60.07 % のロバスト精度を達成した.また,CIFAR-100,
    SVHN,TinyImageNet などの他のアーキテクチャやデータセットを⽤いた場合にも,
    本⼿法は⼤幅な性能向上を実現している.
    • ⽬的: Adversarial Training における過剰適合を防ぐ
    • ⽅法: MixUpについての仮説を検証した後,他の拡張機能がロバストな精度の維持に役⽴つかどうか,
    またモデルの重み平均化と組み合わせてロバスト性を向上させることができるかどうかを調査します.
    • 結論: 以前の研究では敵対的にロバストなモデルをトレーニングするためにデータ拡張⼿法を試したが成功しなかった
    データ拡張とモデルの重み平均を組み合わせるとロバスト性が⼤幅に向上することを⽰します.

    View Slide

  48. 8. 予想されるGANの収束の速さ
    (原⽂: Projected GANs Converge Faster)
    • http://arxiv.org/abs/2111.01007v1
    • Generative Adversarial Networks (GAN) は,⾼品質な画像を⽣成しま
    すが,学習が困難です.GAN の学習には,慎重な正則化,膨⼤な計算,
    そして⾼価なハイパーパラメータの掃引が必要です.我々は,⽣成された
    サンプルと実在するサンプルを,事前に学習された固定の特徴空間に投影
    することで,これらの問題を⼤きく前進させた.識別器は,事前に学習さ
    れたモデルのより深い層からの特徴を完全には利⽤できないという発⾒に
    触発され,チャンネルや解像度を超えて特徴を混合する,より効果的な戦
    略を提案します.我々の Projected GAN は,画質,サンプル効率,収束
    速度を向上させます.さらに,メガピクセルまでの解像度に対応し,22
    のベンチマークデータで最先端の Fréchet Inception Distance (FID) を向
    上させた.重要なのは,Projected GAN は,これまで最低だった FID と
    最⼤ 40 倍の速さで⼀致し,同じ計算資源を使った場合,壁時計の時間を
    5 ⽇から 3 時間未満に短縮したことです.
    • Projected GAN は従来の GAN の学習に⽐べて最⼤ 40 倍近く⾼速化.
    • 直接画像を識別するのでなく,学習済みの画像分類器(⼩さい EfficientNet が最も有効)の特徴マップを対象に,
    異なる解像度毎に多くの特徴を使うようランダムな射影を適⽤した後,それぞれ識別器を適⽤.

    View Slide

  49. Training Time

    View Slide

  50. Dataset Size
    FastGan
    StyleGAN2-ADA
    Projected GAN

    View Slide

  51. 9. パレットイメージからイメージへの拡散モデル
    (原⽂: Palette: Image-to-Image Diffusion Models)
    • http://arxiv.org/abs/2111.05826v1
    • 本論⽂では,条件付き拡散モデルを⽤いた画像間翻訳のためのシンプルで汎⽤的なフ
    レームワークであるPaletteを紹介する.Paletteは,4つの困難な画像間翻訳タスク(⾊
    付け,インペインティング,アンクロッピング,JPEG解凍)において,強⼒なGANおよ
    び回帰ベースラインを凌駕し,新しい技術⽔準を確⽴した.これは,タスク固有のハイ
    パーパラメータの調整やアーキテクチャのカスタマイズ,補助的な損失を伴わずに達成
    されており,望ましい⼀般性と柔軟性を⽰しています.また,L2損失とL1損失の使い分
    けがサンプルの多様性に与える影響を明らかにし,アーキテクチャの実証的な研究を通
    じて⾃⼰注意の重要性を⽰しています.さらに,ImageNetに基づく統⼀的な評価プロト
    コルを提唱し,様々なベースラインについて,FID,Inception Score,事前に学習した
    ResNet-50の分類精度,参照画像に対する知覚的距離などのサンプル品質スコアを報告
    しています.この標準化された評価プロトコルは,画像間翻訳の研究を進める上で重要
    な役割を果たすことが期待されます.最後に,3つのタスク(カラー化,インペインティ
    ング,JPEG解凍)で訓練された単⼀のジェネラリストPaletteモデルが,タスクごとのス
    ペシャリストモデルと同等以上の性能を発揮することを⽰している.

    View Slide

  52. 10. ニューラルネットワーク表現の類似性とマッチング
    (原⽂: Similarity and Matching of Neural Network Representations)
    • http://arxiv.org/abs/2110.14633v1
    • 私たちは,「Dr. Frankenstein」と呼ばれるツールセットを⽤いて,
    ディープニューラルネットワークにおける表現の類似性を分析しています.
    • このツールセットでは,2 つの学習済みニューラルネットワークの任意の層の
    活性化を,スティッチング層で結合することで⼀致させることを⽬指している.
    • その結果,同じアーキテクチャで初期化が異なる深層畳み込みニューラルネットワークの
    内部表現は,単⼀のアフィンなスティッチング層であっても,
    驚くほど⾼い精度で⼀致することを実証した.
    • 本研究では,いくつかの可能なクラスの線形変換からスティッチング層を選択し,
    その性能と特性を調べました.
    • 表現のマッチングのタスクは,類似性の概念と密接に関連しています.
    • また,このツールセットを⽤いて,ニューラルネットワーク表現の類似性指標に関する
    現在の研究の流れに,タスク上のパフォーマンスという新しい視点を提供します.
    • ⽬的: ニューラルネットワークの表現の類似性を “⼀致性” という概念を⽤いて研究
    • ⽅法: 畳み込みネットワークの表現の⼀致性をいくつかの実験で実証し,タスクのパフォーマンスに関するスティッチング変換の特性を分析した.
    • 結果: まだ開拓されていない類似性と⾔う新しい視点を提供しました.また,⼀般的な類似性概念の弱点を指摘しました.

    View Slide

  53. Top Hypo

    View Slide

  54. 1. 掛け算のない⾏列の掛け算
    (原⽂: Multiplying Matrices Without Multiplying)
    • http://arxiv.org/abs/2106.10860v1
    • ⾏列の乗算は,機械学習で最も基本的で計算量の多い操作の⼀つです.
    • ⾏列の乗算を効率的に近似するための研究が盛んに⾏われています.
    • 本研究では,既存の⼿法を⼤幅に上回る,このタスクのための
    学習ベースのアルゴリズムを紹介します.
    • 様々な分野の数百の⾏列を⽤いた実験によると,正確な⾏列積よりも
    100 倍,現在の近似法よりも 10 倍⾼速に実⾏できることがわかった.
    • また,1 つの⾏列が事前に分かっている場合には,本⼿法は乗算加算がゼロで済むという興味深い
    特性を持っています.
    • これらの結果は,本⼿法の中核となるハッシュ化,平均化,およびバイトシャッフルの混合操作が,
    最近の研究やハードウェアへの投資の焦点となっているスパーシファイド,ファクタライズ,およ
    びスカラ量⼦化された⾏列積よりも,機械学習のための有望な構成要素となりうることを⽰唆して
    いる.
    • ⽬的: ⾏列の掛け算を⾼速化する研究.
    • ⽅法: ベクトルを分割し,その⼩分割の探索表をもっておく.
    対象のベクトルの最近傍を探索することで,それらの総和で⾏列積を計算させる.
    • 結果: 通常の⾏列積の100倍⾼速で,精度も落ない.

    View Slide

  55. 疑問点
    • 著者は提案⼿法 (MADDNESS) は従来
    の AMM ではないとしている.
    • MITのComputer Science & Artificial
    Intelligence Lab (CSAIL)の研究者は,
    近似⾏列乗算(AMM)を⽤いた機械学
    習を⾼速化するアルゴリズム
    「Multiply-ADDitioN-less
    (MADDNESS)」をオープンソース化し
    ました.MADDNESSは,乗算・加算の
    演算を⼀切必要とせず,他の近似法に
    ⽐べて10倍,厳密な乗算に⽐べて100倍
    の速度で動作します.

    View Slide

  56. 2. 暗黙のMLE:離散指数型分布族による逆伝播
    (原⽂: Implicit MLE: Backpropagating Through Discrete Exponential Family Distributions)
    • http://arxiv.org/abs/2106.01798v2
    • 離散的な確率分布や組合せ最適化問題をニューラルネットワークコンポーネントと
    組み合わせることは,数多くの応⽤が可能であるが,いくつかの課題がある.
    • 我々は,離散的な指数族分布と微分可能なニューラルコンポーネントを組み合わせたモデルを
    エンド・ツー・エンドで学習するためのフレームワークである
    Implicit Maximum Likelihood Estimation(I-MLE)を提案する.
    • I-MLEは,最も確率の⾼い状態を計算する能⼒のみを必要とし,平滑緩和に依存しないため,
    広く適⽤可能である.
    • このフレームワークは,
    摂動に基づく暗黙の微分や,ブラックボックスのコンビナトリアルソルバーを使って微分する
    最近の⼿法など,いくつかのアプローチを包含しています.
    • 我々は,perturb-and-MAP を介してマージンを近似するための新しいノイズ分布のクラスを紹介する.
    • さらに,I-MLEは,最近研究されているコンビナトリアル・ソルバーを含むいくつかの
    学習設定で使⽤すると,最尤推定に単純化されることを⽰す.いくつかのデータセットを⽤いた
    実験によると,I-MLEは問題固有の緩和に依存する既存のアプローチと競合し,
    しばしば凌駕することが⽰唆される.
    • ⽬的: 離散指数族分布のパラメータに関する勾配を計算するためのフレームワークとして I-MLE の提案
    • ⽅法: I-MLE は,離散的な確率分布と離散的な組み合わせ最適化問題で,勾配をバックプロパゲーションするのに有効であることを⽰す
    • 結果: I-MLE は,問題固有の緩和に依存する既存のアプローチと競合し,しばしば凌駕することが⽰唆

    View Slide

  57. • I-MLE を使⽤すると,ダイクストラのアルゴリズムや
    整数線形計画法 (ILP) ソルバーなどの離散的な組み合わせ
    最適化アルゴリズムや,標準的な深層学習アーキテクチャに
    複雑な離散確率分布を含めることが可能.
    • I-MLE の中⼼的な考え⽅は,モデルの上流パラメーターを
    更新するために勾配が使⽤される暗黙の最尤⽬的を定義すること.
    • 複雑で扱いにくい分布から近似的にサンプリングする⽅法.
    このために,Perturb-and-MAPを使⽤し,⽬前の問題に合わせた
    ノイズ摂動の新しいファミリを提案.
    • 代理経験分布を計算する⽅法.
    Vanilla MLEは,現在の分布と経験分布の間のKL発散を減らします.
    • NeurIPS2021 の論⽂で提案された “Implicit MLE: Backpropagating
    Through Discrete Exponential Family Distributions” の
    Tensorflow2 と PyTorch の Jupyter Notebook が公開

    View Slide

  58. 3. Laplace Redux --簡単なベイジアンディープラーニング
    (原⽂: Laplace Redux -- Effortless Bayesian Deep Learning)
    • http://arxiv.org/abs/2106.14806v2
    • 深層学習のベイズ定式化は,説得⼒のある理論的特性を持ち,予測の不確実性の定量化やモデル選
    択の改善など,実⽤的な機能上の利点を提供することが⽰されています.
    • ラプラス近似 (LA) は古典的な⼿法であり,深層ニューラルネットワークの難解な
    ポステリオーズに対する最も単純な近似ファミリーであると⾔えるでしょう.
    • しかし,そのシンプルさにもかかわらず,
    LA は変分ベイズやディープアンサンブルのような代替⼿段ほど普及していません.
    • これは,LA がヘシアン計算を伴うために⾼価である,実装が困難である,あるいは劣った結果し
    か得られないという思い込みによるものと思われる.
    • 本研究では,これらが誤解であることを⽰します.(i) コストオーバーヘッドを最⼩限に抑えた
    バージョンを含むLAの様々なバリエーションをレビューし,(ii) LA の全ての主要なフレーバーへ
    のユーザーフレンドリーなアクセスを提供するPyTorch⽤の使いやすいソフトウェアライブラリ
    "laplace” を紹介し,(iii) ⼤規模な実験を通して,LA が計算コストの点で優れている⼀⽅で,パ
    フォーマンスの点ではより⼀般的な代替⼿段と競合することを⽰します.
    • 本研究が,ベイジアンアプローチが⼀般的に考慮されていない領域を含め,実⽤的な深層学習に
    LA を広く採⽤するための触媒となることを期待しています.
    • ⽬的: ラプラス近似の誤解を解く
    • ⽅法: Pytorch のライブラリである laplace に実装された LA の有⽤性を評価
    • 結果: laplace を使⽤することでラプラス近似を導⼊可能

    View Slide

  59. 4. グラデーションだけではない
    (原⽂: Gradients are Not All You Need)
    • http://arxiv.org/abs/2111.05803v1
    • 微分可能なプログラミング技術は,コミュニティで広く使われ
    ており,過去数⼗年の機械学習ルネッサンスの原因となってい
    ます.これらの⼿法は強⼒ですが,限界もあります.このレ
    ポートでは,リカレント・ニューラル・ネットワークや数値物
    理シミュレーションから学習済みオプティマイザーのトレーニ
    ングに⾄るまで,様々な微分可能な状況で現れる共通のカオス
    に基づく故障モードについて説明します.我々は,この失敗を
    研究対象のシステムのヤコビアンのスペクトルにたどり着き,
    この失敗が微分ベースの最適化アルゴリズムを台無しにすると
    実務者が予想する場合の基準を提供します.

    View Slide

  60. 5. パレット: 画像から画像への拡散モデル
    (原⽂: Palette: Image-to-Image Diffusion Models)
    • http://arxiv.org/abs/2111.05826v1
    • 本論⽂では,条件付き拡散モデルを⽤いた画像間翻訳のためのシンプルで汎⽤的なフ
    レームワークであるPaletteを紹介する.Paletteは,4つの困難な画像間翻訳タスク(⾊
    付け,インペインティング,アンクロッピング,JPEG解凍)において,強⼒なGANおよ
    び回帰ベースラインを凌駕し,新しい技術⽔準を確⽴した.これは,タスクに特化した
    ハイパーパラメータの調整やアーキテクチャのカスタマイズ,補助的な損失を伴わずに
    達成されており,望ましい⼀般性と柔軟性を⽰しています.また,L_2$と$L_1$の損失
    の使い分けが,サンプルの多様性に与える影響を明らかにし,アーキテクチャの実証的
    な研究を通じて,⾃⼰注意の重要性を⽰しています.さらに,ImageNetに基づく統⼀的
    な評価プロトコルを提唱し,様々なベースラインについて,FID,Inception Score,事
    前に学習させたResNet-50の分類精度,参照画像との知覚的距離など,いくつかのサン
    プル品質スコアを報告しています.この標準化された評価プロトコルは,画像間翻訳の
    研究を進める上で重要な役割を果たすことが期待されます.最後に,3つのタスク(カ
    ラー化,インペインティング,JPEG解凍)で訓練された単⼀のジェネラリストPaletteモ
    デルが,タスクごとのスペシャリストモデルと同等以上の性能を発揮することを⽰して
    いる.

    View Slide

  61. 6. Audacityのための深層学習ツール.研究者がアーティストのツールキットを拡張するのに役⽴つ
    (原⽂: Deep Learning Tools for Audacity: Helping Researchers Expand the Artist's Toolkit)
    • http://arxiv.org/abs/2110.13323v2
    • 私たちは,オープンソースの⼈気オーディオ編集ソフト
    Audacityに,最⼩限の開発者の労⼒でニューラルネットワーク
    を統合するソフトウェアフレームワークを紹介します.本論⽂
    では,エンドユーザーとニューラルネットワーク開発者の両⽅
    に向けて,いくつかの使⽤例を紹介します.この研究が,深層
    学習の実践者とエンドユーザーの間の新しいレベルの相互作⽤
    を促進することを期待しています.

    View Slide

  62. 7. そろそろ時間だ:野⽣でのアナログ時計の読み⽅
    (原⽂: It's About Time: Analog Clock Reading in the Wild)
    • http://arxiv.org/abs/2111.09162v1
    • 本論⽂では,⾃然の画像や映像からアナログ時計を読み取るための
    フレームワークを紹介します.具体的には,以下のような貢献をしています.
    • 第⼀に,合成時計を⽣成するためのスケーラブルなパイプラインを構築し,
    労⼒のかかるアノテーションの必要性を⼤幅に削減する.
    • 第⼆に,空間変換ネットワーク (STN) に基づく時計認識アーキテクチャを導⼊し,
    時計のアライメントと認識のためにエンドツーエンドで学習する.
    • 第三に,シミュレーションと実データとのギャップをさらに縮めるために,
    時間の特殊な性質,すなわち均⼀性を利⽤して,ラベルのない時計の動画に信頼性の⾼い
    擬似ラベルを⽣成し,これらの動画を使った学習により,⼿動による注釈を必要とせずに,
    更なる改善が得られることを⽰す.
    • 最後に,COCO,Open Images,The Clock movie に基づいた 3 つのベンチマークデータセットを
    紹介する.これらのデータセットには,分単位で正確な時間を⽰す完全なアノテーションが
    施された 4,472 枚の時計の画像が含まれる.
    • ⽬的: 画像や映像からアナログ時計を読み取るためのフレームワークを紹介
    • ⽅法: 合成画像で学習した後に時計を撮影した実動画で学習
    時間の進み⽅が⼀定なことを利⽤してpseudo labelを⽣成
    • 結論: ⼿動によるアノテーションを必要とせず改善が得られる
    第三に,シミュレーションと実際のデータの間のギャップをさらに減らすために,時間の特別な特性,つまり均⼀性を活⽤

    View Slide

  63. Spatial Transformer Networks
    • Google DeepMind に所属する⽅々による論⽂ (NIPS2015)
    • STN は,CNNに画像を⼊⼒する前に画像の空間的補正 (移動・
    縮⼩・回転・切取りなど) のパラメータを予測し,画像の歪み
    を修正し予測に必要な部分のみをネットワークに⼊⼒するアー
    キテクチャ.
    ⇒ STNを⽤いることでより頑健性の⾼いモデルを構築すること
    が可能
    • STN により,⼊⼒画像に歪みが⽣じていたり,対象物の周囲の
    景⾊なども写っているようなデータでも,対象物のみを切り出
    し,対象物の姿勢を修正してからネットワークへ⼊⼒すること
    ができるので,予測精度の向上が⾒込まれます.

    View Slide

  64. 図1. アーキテクチャ 画像Iが与えられると,まず市販の物体検出器Φlocを⽤いて,切り取られた画像Icropを得る.
    次に,切り取られた画像を空間変換ネットワークΦstnに渡し,ホモグラフィ⾏列Hを出⼒する.
    この⾏列は,切り取られた画像を正準画像Icanonicalにワープするために使⽤することができる.
    最後に,正準画像を分類ネットワークΦclsに渡し,時間を予測する.

    View Slide

  65. Synthetic Clock Generator (SynClock)
    • ⼿作業によるアノテーションの⼿間を省くために,
    Sim2Realトレーニングを提唱し,模擬時計を⽤いて
    アライメントと認識のトレーニングを⾏う.
    ⇒ 視点,時間,スタイルが異なる合成時計を⽣成する.
    • シミュレーションでは実世界のすべての側⾯を正確に把握する
    ことはできないため,シミュレーションでトレーニングされた
    モデルが実世界ではうまく機能しない場合があります.
    • 現実世界とシミュレーションのギャップをいろいろな⽅法で
    埋める⼿法 ⇒ Sim2Real Transfer

    View Slide

  66. 図2. トレーニングデータ.
    左:SynClock データセット・ジェネレーターの画像例.
    様々なクロックを⽣成できるように設計されている.
    ランダムな線や影などのアーティファクトを加えた後,データ拡張
    右:Timelapse データセットのシーン例.時計を含む 3,443 本のラベルなしのタイムラプスビデオを含む.
    このデータセットでは,⼀様性制約で⽣成された擬似ラベルを⽤いて学習を⾏う.

    View Slide

  67. 擬似ラベル (Pseudo Label)
    • 図3. 均⼀性の制約.時計のタイムラプスビデオが与えられた場合,
    ランダムにサンプリングされた予測値に直線を反復的にフィットさせ (左),モ
    ジュロ演算⼦を⽤いて有効範囲 [0, 720] に整流し,インライアをカウントして
    (中),インライアカウントが最⼤となる直線を⾒つけます.
    • インライアカウントの最⼤値がある閾値を超えた場合,フィットしたラインを
    使って測定値を補正し (右),擬似的にラベル付けされた時計をトレーニングセッ
    トに追加します.

    View Slide

  68. 図4. 均⼀性制約を⽤いたフィルタリングの例.
    上の 2 ⾏は,フィルタリングに合格したビデオの例で,誤った予測はそれに応じてキャリブレーションされている.
    下の 2 ⾏は,フレーム外および⾮⼀様な速度のために失敗したビデオの例を⽰しています.
    ボックスの⾊は成功または失敗を⽰す.

    View Slide

  69. • 定性的な結果.列は,元の画像,20 % の⽂脈で切り取られた画像,正規の画像を⽰しています.
    • このモデルは,異なるスタイル (1-2 列⽬),低解像度 (3 列⽬),⾮正⾯からの視野⾓ (4 列⽬) など,
    様々で困難なシーンでも時計を読み取ることができます.
    • 下の 2 つは失敗例を⽰しており,1 つは⼊れ替わった針を読み取り,もう 1 つは時計の検出に失敗している.

    View Slide

  70. 8. StyleAlign:アライメントされたStyleGANモデルの分析と応⽤
    (原⽂: StyleAlign: Analysis and Applications of Aligned StyleGAN Models)
    • http://arxiv.org/abs/2110.11323v1
    • 本論⽂では,アライメントされた⽣成モデルの特性とその応⽤について詳細に検討した.
    ここでは,2つのモデルが同じアーキテクチャを共有し,⼀⽅(⼦)が他⽅(親)から別
    のドメインへの微調整を経て得られた場合,整列したモデルと呼ぶことにする.すでに
    いくつかの作品では,アライメントされたStyleGANモデルの基本的な特性を利⽤して,
    画像間の翻訳を⾏っている.ここでは,StyleGANに焦点を当てて,モデルのアラインメ
    ントを初めて詳細に調査する.まず,整列したモデルを経験的に分析し,その性質に関
    する重要な疑問に対する答えを提供する.特に,⼦モデルの潜在空間は親モデルの潜在
    空間と意味的に整合しており,⼈の顔や教会などの遠いデータ領域であっても,信じら
    れないほど豊かな意味を継承していることがわかりました.次に,このようにして得ら
    れた理解をもとに,整列したモデルを活⽤してさまざまな課題を解決します.画像翻訳
    に加えて,完全に⾃動化されたクロスドメインの画像モーフィングを実証しました.さ
    らに,親領域での監視のみに頼りながら,⼦領域ではゼロショットの視覚タスクを実⾏
    できることを⽰します.さらに,親領域の監視のみに依存しながら,⼦領域でゼロ
    ショット・ビジョン・タスクを実⾏することができることを⽰しました.このアプロー
    チにより,簡単な微調整と反転のみで,最先端の結果が得られることを定性的および定
    量的に⽰しました.

    View Slide

  71. 9. マスクド・オートエンコーダーはスケーラブルな視覚学習器である
    (原⽂: Masked Autoencoders Are Scalable Vision Learners)
    • http://arxiv.org/abs/2111.06377v1
    • 本論⽂では,マスクドオートエンコーダ (MAE) が Computer Vision のためのス
    ケーラブルな⾃⼰教師付き学習器であることを⽰している.我々の MAE のアプ
    ローチはシンプルで,⼊⼒画像のランダムなパッチをマスクし,失われたピクセ
    ルを再構築するというものです.MAE は 2 つのコアデザインに基づいていま
    す.まず,⾮対称なエンコーダ・デコーダアーキテクチャを開発しました.これ
    は,マスクトークンを含まないパッチの可視サブセットのみを操作するエンコー
    ダと,潜在表現とマスクトークンから元の画像を再構成する軽量デコーダを備え
    ています.次に,⼊⼒画像の 75 % などの⾼い割合をマスクすることで,⾃明で
    はない有意義な⾃⼰監視タスクが得られることを発⾒しました.この 2 つの設計
    を組み合わせることで,⼤規模なモデルを効率的かつ効果的に学習することがで
    き,学習の⾼速化 (3 倍以上) と精度の向上を実現しました.例えば,ViT-Huge
    モデルは,ImageNet-1K データのみを使⽤する⼿法の中で最⾼の精度 (87.8 %)
    を達成しています.下流のタスクにおける転送性能は,教師付きの事前学習を上
    回り,有望なスケーリング動作を⽰している.

    View Slide

  72. 10. 深層強化学習における⼀般化の調査
    (原⽂: A Survey of Generalisation in Deep Reinforcement Learning)
    • http://arxiv.org/abs/2111.09794v1
    • 深層強化学習 (RL) における汎化の研究は,学習環境への過剰適合を回避し,
    展開時に⾒たことのない新しい状況に政策がよく汎化する RL アルゴリズムを
    ⽣成することを⽬的としています.
    • 強化学習アルゴリズムを,環境が多様で,動的で,予測不可能な実世界のシナリオに
    展開するためには,この問題に取り組むことが不可⽋です.
    • この調査は,この新興の分野の概要を⽰すものです.これまでの研究を基に,
    様々な⼀般化問題を議論するための統⼀的な形式と⽤語を提供します.
    • 更に,⼀般化のための既存のベンチマークと,
    ⼀般化問題に取り組むための現在の⽅法を分類します.
    • 最後に,この分野の現状を批判的に論じ,今後の課題を提⾔します.
    • 他の結論として,ベンチマークの設計に純粋に⼿続き的なコンテンツ⽣成アプローチを取ること
    は,
    汎化の進歩に寄与しないことを主張し,汎化のための⼿法に関する将来の研究分野として,
    ⾼速オンライン適応と RL 特有の問題への取り組みを提案し,オフライン RL 汎化や
    報酬関数の変化などの未踏の問題設定でベンチマークを構築することを推奨する.
    • ⽬的: トレーニング環境への過剰適合を回避し,
    展開時に新しい⽬に⾒えない状況にポリシーが適切に⼀般化される深層強化学習の⼀般化に向けての Survey 論⽂

    View Slide