AI最新論文読み会12月.pdf

AI 最新論⽂読み会 12 ⽉⼤阪市⽴⼤学医学部附属病院中央放射線部⽚⼭豊 2021/12/01

⾃⼰紹介 • ⽚⼭豊 (かたやまゆたか) • 仕事 • 診療放射線技師
• 核医学，MR，医療情報 • 研究テーマ • 画質改善を⽬的とした画像処理 • 超解像 • 画質評価 • ⾮参照画質メトリクス

Agenda • Arxiv sanity (www.arxiv-sanity.com) からピックアップした過去⼀ヶ⽉間の⼈気だった論⽂を紹介 • 2021/11/20 にサーベイ
1. 気になった論⽂ 1 本 2. top recent [Last month] の上位 10 個 3. top hype [Last month] の上位 10 個

top recent (2021/11/20) 1. マスクド・オートエンコーダーはスケーラブルな視覚学習器である (原⽂: Masked Autoencoders Are Scalable
Vision Learners) ⇒ Vision Transformer (ViT) Facebook AI Research 2. ビジュアルトランスフォーマーの調査 (原⽂: A Survey of Visual Transformers) 3. ニューラルレンダリングの進歩 (原⽂: Advances in Neural Rendering) 4. トランスフォーマーはCNNよりもロバストか？ (原⽂: Are Transformers More Robust Than CNNs?) 5. グラデーションだけではない (原⽂: Gradients are Not All You Need) 6. エンコーダー・デコーダー・アーキテクチャーの仕組みを理解する (原⽂: Understanding How Encoder-Decoder Architectures Attend) 7. データ拡張によるロバスト性の向上 (原⽂: Data Augmentation Can Improve Robustness) 8. 予想されるGANの収束の速さ (原⽂: Projected GANs Converge Faster) 9. パレット: イメージからイメージへの拡散モデル (原⽂: Palette: Image-to-Image Diffusion Models) ⇦ Pickup 10. ニューラルネットワーク表現の類似性とマッチング (原⽂: Similarity and Matching of Neural Network Representations) • Transformer • GAN • Survey

top hypo (2021/11/20) 1. 掛け算のない⾏列の掛け算 (原⽂: Multiplying Matrices Without Multiplying)
2. Implicit MLE: Backpropagating through Discrete Exponential Family Distributions (原⽂: Implicit MLE: Backpropagating Through Discrete Exponential Family Distributions) 3. Laplace Redux -- エフォートレス・ベイジアン・ディープ・ラーニング (原⽂: Laplace Redux -- Eﬀortless Bayesian Deep Learning) 4. グラデーションだけではない (原⽂: Gradients are Not All You Need) top recent #.5 5. パレットイメージからイメージへの拡散モデル (原⽂: Palette: Image-to-Image Diﬀusion Models) top recent #.9 6. Audacityのための深層学習ツール．研究者がアーティストのツールキットを拡張するのに役⽴つ (原⽂: Deep Learning Tools for Audacity: Helping Researchers Expand the Artistʻs Toolkit) 11 ⽉ Top Hypo #.8 7. そろそろ時間だ：野⽣でのアナログ時計の読み⽅ (原⽂: It's About Time: Analog Clock Reading in the Wild) 8. StyleAlign：アライメントされたStyleGANモデルの分析と応⽤ (原⽂: StyleAlign: Analysis and Applications of Aligned StyleGAN Models) 11 ⽉ Top Hypo #.7 9. マスクド・オートエンコーダーはスケーラブルな視覚学習器である (原⽂: Masked Autoencoders Are Scalable Vision Learners) top recent #.1 10. 深層強化学習における⼀般化の調査 (原⽂: A Survey of Generalisation in Deep Reinforcement Learning) • Transformer • GAN • Survey • Math

Pickup

9. パレット: イメージからイメージへの拡散モデル (原⽂: Palette: Image-to-Image Diffusion Models) • http://arxiv.org/abs/2111.05826v1
• 本論⽂では，条件付き拡散モデルを⽤いた画像間翻訳のためのシンプルで汎⽤的なフレームワークである Palette を紹介する． • Palette は，4 つの困難な画像間翻訳タスク（⾊付け，インペインティング，アンクロッピング， JPEG解凍）において，強⼒な GAN および回帰ベースラインを凌駕し，新しい技術⽔準を確⽴した． • これは，タスク固有のハイパーパラメータの調整やアーキテクチャのカスタマイズ，補助的な損失を伴わずに達成されており，望ましい⼀般性と柔軟性を⽰しています． • また，L2損失とL1損失の使い分けがサンプルの多様性に与える影響を明らかにし，アーキテクチャの実証的な研究を通じて⾃⼰注意の重要性を⽰しています． • さらに，ImageNet に基づく統⼀的な評価プロトコルを提唱し，様々なベースラインについて， FID，Inception Score，事前に学習した ResNet-50 の分類精度，参照画像に対する知覚的距離などのサンプル品質スコアを報告しています．この標準化された評価プロトコルは，画像間翻訳の研究を進める上で重要な役割を果たすことが期待されます． • 最後に，3 つのタスク（カラー化，インペインティング，JPEG解凍）で訓練された単⼀のジェネラリスト Palette モデルが，タスクごとのスペシャリストモデルと同等以上の性能を発揮することを⽰している． top recent #.9

• Computer Vision や画像処理の多くの課題 (超解像，カラー化，インペインティングや，セグメンテーションや固有画像の推定などの画素単位の画像理解タスク) は，画像間の変換として定式化す
ることができます． • 上記タスクの多くは，複数の出⼒画像が1つの⼊⼒と⼀致するという複雑な逆問題です． • Image-to-Image Transfer のアプローチは，画像の⾼次元空間におけるマルチモーダルな分布を捉えることができる深層⽣成モデルを⽤いて，⼊⼒を与えられた出⼒画像の条件付き分布を学習することです．

解決すべき課題 • GAN は⾼精度の画像が⽣成でき，適⽤範囲が広く，効率的なサンプリングをサポートすることから，多くの Image-to-Image Transfer タスクで選択される． • GANは訓練するのが難しく，しばしば出⼒分布でモードを落と
すことがあります． • Autoregressive Models，VAE，Normalizing Flows などの他の⽣成モデルは，特定のアプリケーションで成功を収めているが，GANと同じレベルのサンプル品質と⼀般的な適⽤性を確⽴していない．

本論⽂の課題 • Diffusion model を使った Image-to-Image translation の汎⽤フレームワーク “Palette”
の適⽤性を評価． • 評価タスクは “Colorization”，“Inpainting”，“Uncropping”，“JPEG decompression” の 4 つ． • 既存の GAN を使った⼿法などよりも⾼い性能を達成． • タスク固有の調整や最適化が不要で，様々なタスクに使⽤可能． • ICLR のレビュー • 論⽂と⽅法は⽬新しいものではありません． • 現在の形式は，学習⽅法と理論の美しさを楽しむ ICLR にはあまり適していない可能性があります．

Colorization

Inpainting

Uncropping

JPEG decompression

画像評価 • Image-to-Image Transfer を評価することは困難である． • Colorization に関する先⾏研究では，モデル⽐較のために FID
スコアと⼈間の評価に依存している． • Inpainting や Uncropping などのタスクは，定性的な評価に⼤きく依存しています． • JPEG decompression などの多くのタスクでは， PSNR や SSIM などの参照ベースのピクセルレベルの類似性スコアを使⽤するのが⼀般的でした． • 多くのタスクでは，評価のための標準化されたデータセットがないことが注⽬． ⇒ ⼿法固有の異なるテストセットが評価に使⽤

画像評価 • 本研究では，ImageNet の規模，多様性，公開性を考慮して，inpainting， Uncropping，JPEG decompression の統⼀的な評価プロトコルを提案する． • Inpainting
とUncropping については，既存の研究では主に Places2 Datasets を⽤いて評価している． ⇒ Larsson らが提案した ImageNet ctest 10k split を， ⇒ ImageNet 上の全ての画像間翻訳タスクのベンチマーク⽤ ⇒ 標準サブセットとして使⽤することを提唱します． • ⼈間による評価に加えて，画像の品質と多様性の両⽅を捉えることができる⾃動化された評価基準を使⽤することを提唱しています． • PSNR と SSIM は，ぼやけた回帰出⼒を好むため，⼈間の判断とはうまく相関しないことが観察されています． • PSNR や SSIM のようなピクセルレベルの測定基準は，難しいタスクでは品質の信頼できる測定基準ではないため，使⽤しないことにした．

画像評価 • 画像全体が平均的に良いと好評価 ⇒ ボケた画像の評価値が⾼い • PSNR の値と画質の関係を⽰したガイドラインがあるが画像により求められる画質が異なるため，相対的指標

知覚品質 • ECCV 2018 PRIM Workshop で開催された超解像コンペティションでは知覚品質と歪みのトレードオフ問題を踏まえて，従来の評価⼿法
(PSNR，SSIM) とは異なる新しいメトリクスが導⼊ Perceptual score = 1/2((10 - Ma et al.) + NIQE) • Ma et al. 3 つの低レベルの統計的特徴から 2 ステージの回帰モデルを構築することでスコアを算出する仕組み • NIQE ⇒ ⾮参照型メトリクスの⼀種モデルを学習させるために使⽤されるイメージデータベースから取得された特徴と測定したいイメージから計算された natural scene statistic: NSS ベースの特徴の間の距離を測定 • ⾮参照型メトリクスは⽬標画像がなくとも画質評価が可能

⾮参照画質メトリクスの種類 • ⼊⼒画像の統計的な特徴量を使⽤して画質評価 ⇒ スコアが⼩さいほど知覚品質が良好 • Blind/Referenceless Image Spatial Quality
Evaluator (BRISQUE) • 既知の歪んだ画像から natural scene statistic (NSS) 特徴量を抽出し，サポートベクター回帰を使⽤して画質スコアを予測 • 教師あり⼿法のため学習済みモデルが必要 • Natural Image Quality Evaluator (NIQE) • モデル学習に使⽤されるデータベースから取得された特徴と測定したい画像から計算された NSS 特徴との距離を測定する⼿法 • 教師あり⼿法のため学習済みモデルが必要 • Perception based Image Quality Evaluator (PIQE) • PIQE はブロック単位の歪みを推定し，知覚される歪みのあるブロックの局所分散を測定して画質スコアを計算 • 教師なし⼿法のため学習済みモデルを必要としない ⇒ 名称に⾮参照 (Non-Reference) とあるが学習した画像と得られた画像を⽐較している

画像評価 • Image-to-Image Transfer の評価には，4 つの定量的な尺度を使⽤． • Inception Score (IS)，
Fréchet Inception Distance (FID) ，事前に学習させたResNet-50 分類器の分類精度 (Classification Accuracy: CA) ，および知覚的距離 (PD)，すなわち Inception-v1 特徴空間におけるユークリッド距離の単純な測定値です．また，複数のモデル出⼒間の SSIM 値，⽬視検査，ヒストグラムプロットにより，サンプルの多様性を評価しました． • サンプルの多様性は難しく，既存の多くの GAN ベースの⼿法の主な制限事項となっています． • Image-to-Image Transfer モデルの最終的な評価は，⼈間による評価です． • ⼈間がモデルの出⼒を参照画像から識別できるかどうかということです． • 2 択の強制選択 (2AFC) 試験を⽤いて，参照画像に対するモデル出⼒の知覚的品質を評価しました． ⇒「カメラからの画像はどれだと思いますか」という質問に対して，モデル出⼒を基準画像よりも選択する⼈間の評価者の割合である愚者率でまとめました．

視覚評価の結果

画像評価 •画像は⼈間が⽬で⾒る ⇒ 視覚評価は避けて通れない．

Top Recent

1. マスクド・オートエンコーダーはスケーラブルな視覚学習器である (原⽂: Masked Autoencoders Are Scalable Vision Learners) •
http://arxiv.org/abs/2111.06377v1 • 本論⽂では，マスクドオートエンコーダ (MAE) が Computer Vision のためのスケーラブルな⾃⼰教師付き学習器であることを⽰している．我々の MAE のアプローチはシンプルで，⼊⼒画像のランダムなパッチをマスクし，失われたピクセルを再構築するというものです．MAE は 2 つのコアデザインに基づいています． • ⾮対称なエンコーダ・デコーダアーキテクチャを開発しました．これは，マスクトークンを含まないパッチの可視サブセットのみを操作するエンコーダと，潜在表現とマスクトークンから元の画像を再構成する軽量デコーダを備えています． • ⼊⼒画像の 75 % などの⾼い割合をマスクすることで，⾃明ではない有意義な⾃⼰監視タスクが得られることを発⾒しました． • この 2 つの設計を組み合わせることで，⼤規模なモデルを効率的かつ効果的に学習することができ，学習の⾼速化 (3 倍以上) と精度の向上を実現しました． • 例えば，ViT-Huge モデルは，ImageNet-1K データのみを使⽤する⼿法の中で最⾼の精度（87.8%）を達成しています．下流のタスクにおける転送性能は，教師付きの事前学習を上回り，有望なスケーリング動作を⽰している． • ⽬的: マスクドオートエンコーダの⾔語と視覚での違い • ⽅法: 画像をパッチに分けマスクし復元 • 結果: 学習の⾼速化が実現し，視覚領域でも⾃⼰教師付き学習が有⽤

事前学習 • 事前学習 • ⼊⼒の⼤部分 (75 % など) がマスクされる •
⾒えている部分だけを encode し，マスクされたままの部分と合わせたものから，画像全体を decode する • ⼤規模なモデルを 3 倍⾼速に学習させる半教師ありの⼿法．画像からランダムにサンプルしたパッチを Encoder に⼊⼒し，Decoder は潜在表現と⾜りない部分の Mask から元の画像を復元する．ViT-huge で ImageNeT-1k で 87.8 % を達成． \DINO，MoCo v3など既存の⾃⼰教師あり学習⼿法より⾼い性能を発揮する．

⾔語と視覚 • ⾔語と視覚では情報密度が異なる． • ⾔語 • ⾔語は⼈間が⽣成した信号であり，⾮常に意味的で情報密度の⾼いものです． • ⼀⽂に数個しかない単語の⽋落を予測するモデルを学習する場合，このタスクは⾼度な⾔語理解を必要とするように⾒えます．
• 画像 • ⼀⽅，画像は，空間的な冗⻑性が⾼い信号です． • ⽋けたパッチは，隣接するパッチで再カバーすることができますが，パーツ，オブジェクト，シーンに関する⾼度な理解はほとんど必要ありません． • この違いを克服し有⽤な特徴の学習を促進するために， Computer Vision では，⾮常に多くのランダムなパッチをマスクする単純な⼿法が有効であることを⽰している． • 提案⼿法は冗⻑性を⼤幅に減らし，低レベルの画像統計を超えた全体的な理解を必要とする，挑戦的な⾃⼰監督タスクを⽣み出します．

図2. ImageNet 検証画像での結果例。マスキングされた画像（左）、MAE再構成（中）、グランドトゥルース（右）を⽰している。マスキング率は80%で、196個のパッチのうち39個しか残っていない。可視パッチでは損失が計算されないため、可視パッチでのモデル出⼒は質的に悪い。視覚的な品質を向上させるために、可視パッチで出⼒をオーバーレイすることができる。我々は意図的にこれを⾏わないようにして、⼿法の動作をより包括的に⽰すことができるようにしている。

図3. イメージネットで学習した MAE を⽤いた COCO 検証画像の結果例（モデルの重みは図2と同じ）。上の2つの例では、グランドトゥルースとは異なるものの、意味的には妥当な再構成がなされていることがわかる。

結論 • 本研究では，イメージネットと伝達学習において，NLP の技術と同様のシンプルな⾃⼰教師付き⼿法であるオートエンコーダーがスケーラブルな利点をもたらすことを観察しました． • 視覚における⾃⼰教師付き学習は，NLP と同様の軌道に乗っている． •
画像と⾔語は性質の異なる信号であり，この違いには注意が必要． • 画像は光を記録したものであり，⾔葉のように意味的に分解されていない． • オブジェクトを取り除くのではなく，意味的なセグメントを形成していない可能性の⾼いランダムなパッチを再移動させます． • MAE はピクセルを再構成しますが，これは意味的な本質ではないが， MAE は複雑で全体的な再構成を⾏っていることから， MAE は数多くの視覚的概念を学習していると考えられる． • MAE の中に隠された豊かな表現があるために起こる現象だと考えられる．

2. ビジュアルトランスフォーマーの調査 (原⽂: A Survey of Visual Transformers) • http://arxiv.org/abs/2111.06091v2
• 注意⼒に基づくエンコーダ・デコーダアーキテクチャである Transformer は，⾃然⾔語処理の分野に⾰命をもたらしました．この⼤きな成果に触発されて，最近ではTransformer に類似したアーキテクチャをComputer Vision (CV) 分野に適応させる先駆的な研究が⾏われており，様々な CV タスクでその有効性が実証されています．ImageNet，COCO，ADE20k などの複数のベンチマークにおいて，競争⼒のあるモデリング能⼒を持つ Visual Transformer は，最新の Convolution Neural Networks (CNN) と⽐較して素晴らしい性能を達成しています． • 本論⽂では，CV の 3 つの基本的なタスク (分類，検出，セグメンテーション) に対して，100 種類以上の Visual Transformer を包括的にレビューし，その動機，構造，使⽤シナリオに応じてこれらの⼿法を整理する分類法を提案しています． • 学習環境や対象とするタスクが異なるため，ベンチマークだけではなく，様々な構成で評価を⾏い，直感的に⽐較できるようにしました． • 視覚的な Transformer と逐次的な Transformer の間のギャップを埋めるためのスラック⾼レベル意味埋め込みなど，Transformer を数多くのアーキテクチャから際⽴たせることができるかもしれない，本質的でありながらも利⽤されていない⼀連の側⾯を明らかにすることができました． • 3 つの有望な将来の研究の⽅向性を提案し，さらなる投資を促します． • ⽬的: Visual Transformer の Survey 論⽂

Survey • 画像分野における Transformer のサーベイ． • 同様のサーベイとしては下記がある • Transformers in
Vision: A Survey (https://arxiv.org/abs/2101.01169v2) • Transformer は，⼊⼒シーケンス要素間の⻑い依存関係をモデリングし，シーケンスの並列処理をサポートします．変圧器は設計に最⼩限の誘導バイアスを必要とし，⾃然にセット関数として適しています． • 本調査は,Computer Vision 分野における Transformer Model の概要を概観することを⽬的としている． • A Survey on Visual Transformer (https://arxiv.org/abs/2012.12556v3) • Transformer は，主に⾃⼰認識機構に基づく Deep Neural Network の⼀種である．本稿では,これら Visual Transformer Model を異なるタスクに分類し,その利点と⽋点を分析して検討する．

Transformers in Vision: A Survey A Survey on Visual Transformer
A Survey of Visual Transformers

3. ニューラルレンダリングの進歩 (原⽂: Advances in Neural Rendering) • http://arxiv.org/abs/2111.05849v1 •
フォトリアリスティックな画像や映像を合成することは，コンピュータグラフィックスの中核であり，何⼗年にもわたって研究されてきた．従来，シーンの合成画像は，ラスタライズやレイトレーシングなどのレンダリングアルゴリズムを⽤いて⽣成されていました．これらのアルゴリズムでは，ジオメトリやマテリアルの特性を具体的に定義して⼊⼒します．これらの⼊⼒は，実際のシーンとレンダリングされるものを定義し，シーン表現と呼ばれます (シーンは 1 つまたは複数のオブジェクトで構成されます)．シーン表現の例としては，テクスチャを伴った三⾓形のメッシュ (アーティストが作成したものなど)，点群 (深度センサーからのものなど)，ボリュームグリッド (CT Scan からのものなど)，暗黙の表⾯関数 (切り捨てられた符号付き距離フィールドなど) などがあります．このようなシーン表現を，微分可能なレンダリング・ロスを⽤いて観測データから再構成することを，インバース・グラフィックスまたはインバース・レンダリングといいます． • ニューラルレンダリングはこれと密接に関連しており，古典的なコンピュータグラフィックスと機械学習のアイデアを組み合わせて，実世界の観測結果から画像を合成するアルゴリズムを開発している．ニューラルレンダリングは，フォトリアリスティックな画像・映像コンテンツを合成するという⽬標に向けた⾶躍的な進歩です．近年，この分野では，学習可能なコンポーネントをレンダリングパイプラインに注⼊するさまざまな⽅法を⽰す何百もの論⽂が発表され，⼤きな進歩を遂げています．このニューラルレンダリングの最新情報では，古典的なレンダリング原理と，学習された 3D シーン表現 (現在はニューラルシーン表現と呼ばれています) を組み合わせる⼿法に焦点を当てています．これらの⼿法の主な利点は，設計上 3D ⼀貫性があることであり，撮影されたシーンの新しい視点合成などのアプリケーションを可能にします．静的なシーンを扱う⼿法に加えて，⾮剛体的に変形するオブジェクトをモデル化するためのニューラル・シーン表現を取り上げます． • ⽬的: ニューラルレンダリングの Survey 論⽂

ニューラルレンダリング • 2020 年頃から Computer Graphics や Computer Vision で
Representing Scenes as Neural Radiance Fields for View Synthesis (NeRF) が注⽬されている． • NeRF はレンダリング⽅程式を逆問題として解く⼿法． • レンダリング⽅程式を放射輸送⽅程式に戻して，再帰する積分⽅程式で使われるベクトル場をニューラルネットワークとして表し，微分可レンダリングと確率的勾配降下法 (SGD) で最適化問題として解く⼿法．

従来のコンピュータグラフィックスでは，シーンの⾼品質で制御可能な画像を⽣成することができますが，シーンの物理的なパラメータ，例えばカメラのパラメータ，照明，オブジェクトの材質などはすべて⼊⼒として提供される必要があります．実世界のシーンで制御可能な画像を⽣成しようとすると，画像や映像などの既存の観測データからこれらの物理的特性を推定する必要があります．この推定作業は逆レンダリングと呼ばれ，特にフォトリアリスティックな合成を⽬的とする場合には⾮常に困難です．これに対し，ニューラルレンダリングは，シーンをコンパクトに表現することができる急速に発展している分野であり，ニューラルネットワークを活⽤することで，既存の観測データからレンダリングを学習することができます．

Neural Rendering • NeRF: Representing Scenes as Neural Radiance Fields
for View Synthesis NeRF はカリフォルニア⼤学バークレー校の研究者らが 2020 年 3 ⽉に発表した研究です． Radiance Fields は直訳すれば「輝度場」で，論⽂の趣旨に沿っていえば，空間上の各座標に⾊と密度を対応付けるベクトル場になります．ここで密度というのはその点の不透明度，つまりそこに何かしらの物体が存在することを⽰す指標です．したがって物体が存在する座標の密度が⾼くなるような Radiance Fields を得ることができれば，三次元空間の形状を表現できたことになります．このベクトル場をニューラルネットワークで近似するというのが NeRF のアイディアです．座標と何らかの値を対応付ける関数を考える点で，陰関数表現と似ています．

シーンの表現何⼗年もの間，CG の分野では，点群，polygon，Surface，Mesh，Volume など，様々な原始的な検討されてきました． CG の分野では，これらの表現は明確に定義されていますが，ニューラルレンダリングに関する現在の⽂献では，Surface とVolume について，しばしば混乱が⾒られます．⼀般的には，体積表現は表⾯を表現することができますが，その逆はできません．
体積表現は，密度，不透明度，占有率などの体積特性を保存しますが，⾊や輝度などの多次元特性も保存できます．ボリューム表現とは対照的に，サーフェイス表現は，オブジェクトの表⾯に関する特性を保存します．表⾯表現，体積表現ともに，連続した部分と離散した部分があります．連続的な表現は，解析的な勾配を与えることができるので，ニューラルレンダリングアプローチにとって特に興味深いものです．

総括 • ニューラルレンダリング技術の最新動向を紹介しました． • ここで取り上げた⼿法は，学習⽤の⼊⼒として 2 次元の観察結果に基づいて 3 次元のニューラルシーン表現を学習し，
さまざまなシーンパラメータを制御してフォトリアリスティックな画像を合成することができるものである． • ニューラルレンダリングの分野は，ここ数年で急速に発展しており，現在も急速に成⻑しています． • その⽤途は，剛体および⾮剛体シーンの⾃由視点映像から， • 形状や素材の編集，再照明，⼈間のアバター⽣成など，多岐にわたります．

4. トランスフォーマーはCNNよりもロバストか？ (原⽂: Are Transformers More Robust Than CNNs?) •
http://arxiv.org/abs/2111.05464v1 • Transformerは，視覚認識のための強⼒なツールとして登場しました．最近の研究では，幅広いビジュアルベンチマークで競争⼒のある性能を⽰すだけでなく，Transformer は Convolutions Neural Networks (CNN) よりもはるかにロバストであると主張しています．しかし，驚くべきことに，これらの結論は，Transformer と CNN が異なるスケールで⽐較され，異なる学習フレームワークで適⽤されるという，不公平な実験設定から導き出されていることがわかった． • 本論⽂では，ロバスト性の評価に焦点を当て，Transformer と CNN を初めて公平かつ詳細に⽐較することを⽬的としています． • 我々の統⼀されたトレーニングセットアップにより，敵対的なロバストネスを測定する際に Transformer が CNN よりも優れているというこれまでの考えにまず疑問を投げかける．さらに驚くべきことに，Transformer の学習レシピを適切に採⽤すれば，CNN は敵対的攻撃に対する防御において Transformer と同等のロバスト性を簡単に実現できることがわかった．配布されていないサンプルでの⼀般化に関しては，外部の⼤規模データセットでの事前学習は，Transformer が CNN よりも優れた性能を達成するための基本的な要求ではないことを⽰している．更にこのような強⼒な⼀般化は，他のトレーニングセットアップによるものではなく，Transformer の⾃⼰注意的なアーキテクチャ⾃体が⼤きく寄与していることが⽰唆されています．この研究が， TransformerとCNNのロバスト性の理解とベンチマークに役⽴つことを期待しています． • ⽬的: Transformer (ViT) と CNN (ResNet-50) の⽐較 • ⽅法: 敵対的なサンプルに対するロバスト性と，分布外のサンプルに対するロバスト性 • 結果: 学習データやデータ拡張など学習⽅法を揃えると，敵対的攻撃に対する頑健性は同等外れ値のデータでは Transformer が強い

• CNN • ResNet-50 (約 2,500 万個のパラメータを持つ) をデフォルトの CNN アーキテク
チャとして選んだ． • ImageNet 上で CNN を学習するには，[15, 31]の標準的なレシピに従う．初期学習率を0.1に設定し，30番⽬，60番⽬，90番⽬のエポックで学習率を10倍に下げます． • Transformer • Vision Transformer (ViT) は，⾃然⾔語処理から Computer Vision へのトランスフォーマーの導⼊に成功し，いくつかのビジュアルベンチマークにおいて CNN と⽐較して優れた性能を達成しています． • 外部データなしで ImageNet 上で ViT の学習に成功した DeiT の学習レシピに従い，デフォルトの Transformer アーキテクチャとして DeiT-S (約 2,200 万個のパラメータを持つ) を設定しました． • 具体的には，AdamW を⽤いて全ての Transform を学習し，初期学習率を 5e-4 に設定し，cosine learning rate scheduler を⽤いて学習率を下げ，重み減衰の他に，3 つのデータ補強戦略 (RandAug，MixUp，CutMix) を採⽤して学習を正則化しています (そうしないと，DeiT-S はオーバーフィッティングにより ImageNetの精度を著しく低下させてしまいます）． • トランスフォーマーは CNN より頑健と⾔われていたが，学習データやデータ拡張など学習⽅法を揃えると，CNN は Transformer 並みの敵対的攻撃に対する頑健性を獲得できる．しかし，ImageNet-A，-Cのような外れ値のデータでは Transformer が強かった． [15] PriyaGoyal,PiotrDollár,RossGirshick,PieterNoordhuis,LukaszWesolowski,AapoKyrola,Andrew Tulloch, Yangqing Jia, and Kaiming He. Accurate, large minibatch sgd: Training imagenet in 1 hour. arXiv preprint arXiv:1706.02677, 2017. [31] Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, and Piotr Dollár. Designing network design spaces. In CVPR, 2020.

RandAugment • Google から提案されている最適なデータ拡張を探索する⼿法 • RandAugment は⾮常に単純なアルゴリズム • RandAugment
は “n”，“m” と⾔う 2 つのパラメータで制御されている • nはデータ拡張を何回⾏うか • mはどれくらいの強さで拡張を⾏うか • 画像データを取り出すたびに， n 個のデータ拡張操作をランダムで取り出し， m の⼤きさで加える • 右図は論⽂の Figure 1 • 1 段⽬が⼤きさ 9 で 2 回拡張した画像 • 2 段⽬が⼤きさ 17 で 2 回拡張させた画像 • 3 段⽬が⼤きさ 2 8で 2 回拡張させた画像 Cubuk, E. D., Zoph, B., Shlens, J., & Le, Q. V. (2020). Randaugment: Practical automated data augmentation with a reduced search space. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (pp. 702-703).

MixUp/CutMix • 複数の画像を組み合わせた Data Augmentations • MixUp: 2 枚の画像をラベル共々ブレンド •
CutMix: 複数の画像の⼀部を切り取って繋ぎ合わせて 1枚の⼊⼒画像にする • 学習データ同⼠をラベルごと繋ぎ合わせることで学習効率の低下を防ぎつつ，⼊⼒領域のドロップアウトと同等の効果を得る⼀⽅，局所的な⼊⼒信号を維持することで物体検出にも使えるオーグメンテーション ⇒ 画像分類・物体検出の何でも MixUp や Cutoutよりも⾼い精度をマーク [1710.09412] mixup: Beyond Empirical Risk Minimization [1905.04899] CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features

5. グラデーションだけではない (原⽂: Gradients are Not All You Need) •
http://arxiv.org/abs/2111.05803v1 • 微分可能なプログラミング技術は，コミュニティで広く使われており，過去数⼗年の機械学習ルネッサンスの原因となっています．これらの⼿法は強⼒ですが，限界もあります．このレポートでは，リカレント・ニューラル・ネットワークや数値物理シミュレーションから学習済みオプティマイザーのトレーニングに⾄るまで，様々な微分可能な状況で現れる，カオスに基づく⼀般的な故障モードについて説明します．我々は，この失敗を研究対象のシステムのヤコビアンのスペクトルにたどり着き，この失敗が微分ベースの最適化アルゴリズムを台無しにすると実務者が予想する場合の基準を提供します． • ⽬的: 反復微分可能なシステムを扱う際に⽣じる潜在的な問題の⼀つであるカオスについて議論する． • ⽅法: Rigid Body Physics，Meta-learning，Molecular Dynamics で検討 • 結果: リカレントプロセスによる勾配の計算には多くの問題があるが，多くの素晴らしい結果が得られている．

カオス理論 • ⼒学系の⼀部に⾒られる，数的誤差により予測できないとされている複雑な様⼦を⽰す現象を扱う理論である． • カオス⼒学とも⾔う． • ここで⾔う予測できないとは，決してランダムではない．その振る舞いは決定論的法則に従うものの，積分法による解が
得られないため，その未来 (および過去) の振る舞いを知るには数値解析を⽤いざるを得ない．しかし，初期値鋭敏性ゆえに，ある時点における無限の精度の情報が必要であるうえ， (コンピュータでは無限桁を扱えないため必然的に発⽣する) 数値解析の過程での誤差によっても，得られる値と真の値とのずれが増幅される．そのため予測が事実上不可能という意味である．カオス性を持つローレンツ⽅程式の解軌道

6. エンコーダー・デコーダー・アーキテクチャーの仕組みを理解する (原⽂: Understanding How Encoder-Decoder Architectures Attend) • http://arxiv.org/abs/2110.15253v1
• 注意を伴うエンコーダ-デコーダネットワークは，多くのシーケンス対シーケンスのタスクを解決する強⼒な⽅法であることが証明されている．これらのネットワークでは，注⽬がエンコーダとデコーダの状態を整えるため，ネットワークの動作を可視化するためによく使われる．しかし，ネットワークが適切なアテンション・マトリクスを⽣成するためのメカニズムはまだ解明されていない．さらに，これらのメカニズムが，エンコーダとデコーダに使⽤される特定のアーキテクチャ (リカレント，フィードフォワードなど) に応じてどのように変化するのかもよくわかっていない．本研究では，エンコーダとデコーダのネットワークが，異なる配列対配列のタスクをどのように解決するかを調査する．本研究では，シーケンス上の隠れた状態を，時間的 (⼊⼒に依存しない) 成分と⼊⼒駆動的 (シーケンスの位置に依存しない) 成分に分解する⽅法を紹介する．これにより，注意マトリクスがどのように形成されるかが明らかになった．つまり，タスクの要求に応じて，ネットワークは時間的成分と⼊⼒駆動成分のいずれかに強く依存することになる．これらの結果は，時間成分の形成⽅法が異なるにもかかわらず，リカレント・アーキテクチャとフィードフォワード・アーキテクチャの両⽅に当てはまる．今回の結果は，注意⼒に基づくエンコーダー・デコーダーネットワークの内部構造について，新たな知⾒を与えるものである． • ⽬的: エンコーダとデコーダのネットワークが，異なる配列対配列のタスクをどのように解決するかを調査する． • ⽅法: sequence-to-sequence タスクにおける3つの異なるエンコーダ・デコーダ・アーキテクチャを分析する • 結果: Transformer と類似している Attention-Only Architecture の分析は Transformer の動作メカニズムを⽰唆している．

sequence-to-sequence (Seq2Seq) • Seq2Seq は 2014 年に Google により発表 •
Encoder と Decoder に別れている • Seq2Seq は RNN を利⽤しているため時系列データに強い ⇒ 翻訳や⾳声認識の分野で使われている

7. データ拡張によるロバスト性の向上 (原⽂: Data Augmentation Can Improve Robustness) • http://arxiv.org/abs/2111.05328v1
• ロバストテストの精度が学習中に低下し始める現象であるロバストオーバーフィッティングに悩まされている逆問題． • 本論⽂では，⼀般的なデータ補強スキームを⽤いてロバストオーバーフィッティングを低減することに焦点を当てる． • その結果，従来の知⾒とは異なり，モデルの重みの平均化と組み合わせることで，データ補強がロバストテストの精度を⼤幅に向上させることを実証した • 様々な補強技術を⽐較し，空間合成技術が敵対的な学習に最も効果的であることを確認した． • 最後に，CIFAR-10 において，ϵ=8/255 と ϵ=128/255 のℓ∞とℓ2 ノルムで囲まれた摂動に対して，我々の⼿法を評価した． • その結果，ロバスト精度において，これまでの最先端の⼿法と⽐較して，絶対値で +2.93% と +2.16% の⼤きな改善が⾒られた．特に，サイズ ϵ=8/255 のℓ∞ノルムで囲まれた摂動に対して，本モデルは外部データを⼀切使⽤せずに 60.07 % のロバスト精度を達成した．また，CIFAR-100， SVHN，TinyImageNet などの他のアーキテクチャやデータセットを⽤いた場合にも，本⼿法は⼤幅な性能向上を実現している． • ⽬的: Adversarial Training における過剰適合を防ぐ • ⽅法: MixUpについての仮説を検証した後，他の拡張機能がロバストな精度の維持に役⽴つかどうか，またモデルの重み平均化と組み合わせてロバスト性を向上させることができるかどうかを調査します． • 結論: 以前の研究では敵対的にロバストなモデルをトレーニングするためにデータ拡張⼿法を試したが成功しなかったデータ拡張とモデルの重み平均を組み合わせるとロバスト性が⼤幅に向上することを⽰します．

8. 予想されるGANの収束の速さ (原⽂: Projected GANs Converge Faster) • http://arxiv.org/abs/2111.01007v1 •
Generative Adversarial Networks (GAN) は，⾼品質な画像を⽣成しますが，学習が困難です．GAN の学習には，慎重な正則化，膨⼤な計算，そして⾼価なハイパーパラメータの掃引が必要です．我々は，⽣成されたサンプルと実在するサンプルを，事前に学習された固定の特徴空間に投影することで，これらの問題を⼤きく前進させた．識別器は，事前に学習されたモデルのより深い層からの特徴を完全には利⽤できないという発⾒に触発され，チャンネルや解像度を超えて特徴を混合する，より効果的な戦略を提案します．我々の Projected GAN は，画質，サンプル効率，収束速度を向上させます．さらに，メガピクセルまでの解像度に対応し，22 のベンチマークデータで最先端の Fréchet Inception Distance (FID) を向上させた．重要なのは，Projected GAN は，これまで最低だった FID と最⼤ 40 倍の速さで⼀致し，同じ計算資源を使った場合，壁時計の時間を 5 ⽇から 3 時間未満に短縮したことです． • Projected GAN は従来の GAN の学習に⽐べて最⼤ 40 倍近く⾼速化． • 直接画像を識別するのでなく，学習済みの画像分類器（⼩さい EﬃcientNet が最も有効）の特徴マップを対象に，異なる解像度毎に多くの特徴を使うようランダムな射影を適⽤した後，それぞれ識別器を適⽤．

Training Time

Dataset Size FastGan StyleGAN2-ADA Projected GAN

9. パレットイメージからイメージへの拡散モデル (原⽂: Palette: Image-to-Image Diffusion Models) • http://arxiv.org/abs/2111.05826v1 •
本論⽂では，条件付き拡散モデルを⽤いた画像間翻訳のためのシンプルで汎⽤的なフレームワークであるPaletteを紹介する．Paletteは，4つの困難な画像間翻訳タスク（⾊付け，インペインティング，アンクロッピング，JPEG解凍）において，強⼒なGANおよび回帰ベースラインを凌駕し，新しい技術⽔準を確⽴した．これは，タスク固有のハイパーパラメータの調整やアーキテクチャのカスタマイズ，補助的な損失を伴わずに達成されており，望ましい⼀般性と柔軟性を⽰しています．また，L2損失とL1損失の使い分けがサンプルの多様性に与える影響を明らかにし，アーキテクチャの実証的な研究を通じて⾃⼰注意の重要性を⽰しています．さらに，ImageNetに基づく統⼀的な評価プロトコルを提唱し，様々なベースラインについて，FID，Inception Score，事前に学習した ResNet-50の分類精度，参照画像に対する知覚的距離などのサンプル品質スコアを報告しています．この標準化された評価プロトコルは，画像間翻訳の研究を進める上で重要な役割を果たすことが期待されます．最後に，3つのタスク（カラー化，インペインティング，JPEG解凍）で訓練された単⼀のジェネラリストPaletteモデルが，タスクごとのスペシャリストモデルと同等以上の性能を発揮することを⽰している．

10. ニューラルネットワーク表現の類似性とマッチング (原⽂: Similarity and Matching of Neural Network Representations)
• http://arxiv.org/abs/2110.14633v1 • 私たちは，「Dr. Frankenstein」と呼ばれるツールセットを⽤いて，ディープニューラルネットワークにおける表現の類似性を分析しています． • このツールセットでは，2 つの学習済みニューラルネットワークの任意の層の活性化を，スティッチング層で結合することで⼀致させることを⽬指している． • その結果，同じアーキテクチャで初期化が異なる深層畳み込みニューラルネットワークの内部表現は，単⼀のアフィンなスティッチング層であっても，驚くほど⾼い精度で⼀致することを実証した． • 本研究では，いくつかの可能なクラスの線形変換からスティッチング層を選択し，その性能と特性を調べました． • 表現のマッチングのタスクは，類似性の概念と密接に関連しています． • また，このツールセットを⽤いて，ニューラルネットワーク表現の類似性指標に関する現在の研究の流れに，タスク上のパフォーマンスという新しい視点を提供します． • ⽬的: ニューラルネットワークの表現の類似性を “⼀致性” という概念を⽤いて研究 • ⽅法: 畳み込みネットワークの表現の⼀致性をいくつかの実験で実証し，タスクのパフォーマンスに関するスティッチング変換の特性を分析した． • 結果: まだ開拓されていない類似性と⾔う新しい視点を提供しました．また，⼀般的な類似性概念の弱点を指摘しました．

Top Hypo

1. 掛け算のない⾏列の掛け算 (原⽂: Multiplying Matrices Without Multiplying) • http://arxiv.org/abs/2106.10860v1 •
⾏列の乗算は，機械学習で最も基本的で計算量の多い操作の⼀つです． • ⾏列の乗算を効率的に近似するための研究が盛んに⾏われています． • 本研究では，既存の⼿法を⼤幅に上回る，このタスクのための学習ベースのアルゴリズムを紹介します． • 様々な分野の数百の⾏列を⽤いた実験によると，正確な⾏列積よりも 100 倍，現在の近似法よりも 10 倍⾼速に実⾏できることがわかった． • また，1 つの⾏列が事前に分かっている場合には，本⼿法は乗算加算がゼロで済むという興味深い特性を持っています． • これらの結果は，本⼿法の中核となるハッシュ化，平均化，およびバイトシャッフルの混合操作が，最近の研究やハードウェアへの投資の焦点となっているスパーシファイド，ファクタライズ，およびスカラ量⼦化された⾏列積よりも，機械学習のための有望な構成要素となりうることを⽰唆している． • ⽬的: ⾏列の掛け算を⾼速化する研究． • ⽅法: ベクトルを分割し，その⼩分割の探索表をもっておく．対象のベクトルの最近傍を探索することで，それらの総和で⾏列積を計算させる． • 結果: 通常の⾏列積の100倍⾼速で，精度も落ない．

疑問点 • 著者は提案⼿法 (MADDNESS) は従来の AMM ではないとしている． • MITのComputer
Science & Artiﬁcial Intelligence Lab (CSAIL)の研究者は，近似⾏列乗算（AMM）を⽤いた機械学習を⾼速化するアルゴリズム「Multiply-ADDitioN-less (MADDNESS)」をオープンソース化しました．MADDNESSは，乗算・加算の演算を⼀切必要とせず，他の近似法に⽐べて10倍，厳密な乗算に⽐べて100倍の速度で動作します．

2. 暗黙のMLE：離散指数型分布族による逆伝播 (原⽂: Implicit MLE: Backpropagating Through Discrete Exponential Family
Distributions) • http://arxiv.org/abs/2106.01798v2 • 離散的な確率分布や組合せ最適化問題をニューラルネットワークコンポーネントと組み合わせることは，数多くの応⽤が可能であるが，いくつかの課題がある． • 我々は，離散的な指数族分布と微分可能なニューラルコンポーネントを組み合わせたモデルをエンド・ツー・エンドで学習するためのフレームワークである Implicit Maximum Likelihood Estimation（I-MLE）を提案する． • I-MLEは，最も確率の⾼い状態を計算する能⼒のみを必要とし，平滑緩和に依存しないため，広く適⽤可能である． • このフレームワークは，摂動に基づく暗黙の微分や，ブラックボックスのコンビナトリアルソルバーを使って微分する最近の⼿法など，いくつかのアプローチを包含しています． • 我々は，perturb-and-MAP を介してマージンを近似するための新しいノイズ分布のクラスを紹介する． • さらに，I-MLEは，最近研究されているコンビナトリアル・ソルバーを含むいくつかの学習設定で使⽤すると，最尤推定に単純化されることを⽰す．いくつかのデータセットを⽤いた実験によると，I-MLEは問題固有の緩和に依存する既存のアプローチと競合し，しばしば凌駕することが⽰唆される． • ⽬的: 離散指数族分布のパラメータに関する勾配を計算するためのフレームワークとして I-MLE の提案 • ⽅法: I-MLE は，離散的な確率分布と離散的な組み合わせ最適化問題で，勾配をバックプロパゲーションするのに有効であることを⽰す • 結果: I-MLE は，問題固有の緩和に依存する既存のアプローチと競合し，しばしば凌駕することが⽰唆

• I-MLE を使⽤すると，ダイクストラのアルゴリズムや整数線形計画法 (ILP) ソルバーなどの離散的な組み合わせ最適化アルゴリズムや，標準的な深層学習アーキテクチャに複雑な離散確率分布を含めることが可能． • I-MLE
の中⼼的な考え⽅は，モデルの上流パラメーターを更新するために勾配が使⽤される暗黙の最尤⽬的を定義すること． • 複雑で扱いにくい分布から近似的にサンプリングする⽅法．このために，Perturb-and-MAPを使⽤し，⽬前の問題に合わせたノイズ摂動の新しいファミリを提案． • 代理経験分布を計算する⽅法． Vanilla MLEは，現在の分布と経験分布の間のKL発散を減らします． • NeurIPS2021 の論⽂で提案された “Implicit MLE: Backpropagating Through Discrete Exponential Family Distributions” の Tensorflow2 と PyTorch の Jupyter Notebook が公開

3. Laplace Redux --簡単なベイジアンディープラーニング (原⽂: Laplace Redux -- Effortless Bayesian
Deep Learning) • http://arxiv.org/abs/2106.14806v2 • 深層学習のベイズ定式化は，説得⼒のある理論的特性を持ち，予測の不確実性の定量化やモデル選択の改善など，実⽤的な機能上の利点を提供することが⽰されています． • ラプラス近似 (LA) は古典的な⼿法であり，深層ニューラルネットワークの難解なポステリオーズに対する最も単純な近似ファミリーであると⾔えるでしょう． • しかし，そのシンプルさにもかかわらず， LA は変分ベイズやディープアンサンブルのような代替⼿段ほど普及していません． • これは，LA がヘシアン計算を伴うために⾼価である，実装が困難である，あるいは劣った結果しか得られないという思い込みによるものと思われる． • 本研究では，これらが誤解であることを⽰します．(i) コストオーバーヘッドを最⼩限に抑えたバージョンを含むLAの様々なバリエーションをレビューし，(ii) LA の全ての主要なフレーバーへのユーザーフレンドリーなアクセスを提供するPyTorch⽤の使いやすいソフトウェアライブラリ "laplace” を紹介し，(iii) ⼤規模な実験を通して，LA が計算コストの点で優れている⼀⽅で，パフォーマンスの点ではより⼀般的な代替⼿段と競合することを⽰します． • 本研究が，ベイジアンアプローチが⼀般的に考慮されていない領域を含め，実⽤的な深層学習に LA を広く採⽤するための触媒となることを期待しています． • ⽬的: ラプラス近似の誤解を解く • ⽅法: Pytorch のライブラリである laplace に実装された LA の有⽤性を評価 • 結果: laplace を使⽤することでラプラス近似を導⼊可能

4. グラデーションだけではない (原⽂: Gradients are Not All You Need) •
http://arxiv.org/abs/2111.05803v1 • 微分可能なプログラミング技術は，コミュニティで広く使われており，過去数⼗年の機械学習ルネッサンスの原因となっています．これらの⼿法は強⼒ですが，限界もあります．このレポートでは，リカレント・ニューラル・ネットワークや数値物理シミュレーションから学習済みオプティマイザーのトレーニングに⾄るまで，様々な微分可能な状況で現れる共通のカオスに基づく故障モードについて説明します．我々は，この失敗を研究対象のシステムのヤコビアンのスペクトルにたどり着き，この失敗が微分ベースの最適化アルゴリズムを台無しにすると実務者が予想する場合の基準を提供します．

5. パレット: 画像から画像への拡散モデル (原⽂: Palette: Image-to-Image Diﬀusion Models) • http://arxiv.org/abs/2111.05826v1
• 本論⽂では，条件付き拡散モデルを⽤いた画像間翻訳のためのシンプルで汎⽤的なフレームワークであるPaletteを紹介する．Paletteは，4つの困難な画像間翻訳タスク（⾊付け，インペインティング，アンクロッピング，JPEG解凍）において，強⼒なGANおよび回帰ベースラインを凌駕し，新しい技術⽔準を確⽴した．これは，タスクに特化したハイパーパラメータの調整やアーキテクチャのカスタマイズ，補助的な損失を伴わずに達成されており，望ましい⼀般性と柔軟性を⽰しています．また，L_2$と$L_1$の損失の使い分けが，サンプルの多様性に与える影響を明らかにし，アーキテクチャの実証的な研究を通じて，⾃⼰注意の重要性を⽰しています．さらに，ImageNetに基づく統⼀的な評価プロトコルを提唱し，様々なベースラインについて，FID，Inception Score，事前に学習させたResNet-50の分類精度，参照画像との知覚的距離など，いくつかのサンプル品質スコアを報告しています．この標準化された評価プロトコルは，画像間翻訳の研究を進める上で重要な役割を果たすことが期待されます．最後に，3つのタスク（カラー化，インペインティング，JPEG解凍）で訓練された単⼀のジェネラリストPaletteモデルが，タスクごとのスペシャリストモデルと同等以上の性能を発揮することを⽰している．

6. Audacityのための深層学習ツール．研究者がアーティストのツールキットを拡張するのに役⽴つ (原⽂: Deep Learning Tools for Audacity: Helping Researchers
Expand the Artist's Toolkit) • http://arxiv.org/abs/2110.13323v2 • 私たちは，オープンソースの⼈気オーディオ編集ソフト Audacityに，最⼩限の開発者の労⼒でニューラルネットワークを統合するソフトウェアフレームワークを紹介します．本論⽂では，エンドユーザーとニューラルネットワーク開発者の両⽅に向けて，いくつかの使⽤例を紹介します．この研究が，深層学習の実践者とエンドユーザーの間の新しいレベルの相互作⽤を促進することを期待しています．

7. そろそろ時間だ：野⽣でのアナログ時計の読み⽅ (原⽂: It's About Time: Analog Clock Reading in
the Wild) • http://arxiv.org/abs/2111.09162v1 • 本論⽂では，⾃然の画像や映像からアナログ時計を読み取るためのフレームワークを紹介します．具体的には，以下のような貢献をしています． • 第⼀に，合成時計を⽣成するためのスケーラブルなパイプラインを構築し，労⼒のかかるアノテーションの必要性を⼤幅に削減する． • 第⼆に，空間変換ネットワーク (STN) に基づく時計認識アーキテクチャを導⼊し，時計のアライメントと認識のためにエンドツーエンドで学習する． • 第三に，シミュレーションと実データとのギャップをさらに縮めるために，時間の特殊な性質，すなわち均⼀性を利⽤して，ラベルのない時計の動画に信頼性の⾼い擬似ラベルを⽣成し，これらの動画を使った学習により，⼿動による注釈を必要とせずに，更なる改善が得られることを⽰す． • 最後に，COCO，Open Images，The Clock movie に基づいた 3 つのベンチマークデータセットを紹介する．これらのデータセットには，分単位で正確な時間を⽰す完全なアノテーションが施された 4,472 枚の時計の画像が含まれる． • ⽬的: 画像や映像からアナログ時計を読み取るためのフレームワークを紹介 • ⽅法: 合成画像で学習した後に時計を撮影した実動画で学習時間の進み⽅が⼀定なことを利⽤してpseudo labelを⽣成 • 結論: ⼿動によるアノテーションを必要とせず改善が得られる第三に，シミュレーションと実際のデータの間のギャップをさらに減らすために，時間の特別な特性，つまり均⼀性を活⽤

Spatial Transformer Networks • Google DeepMind に所属する⽅々による論⽂ (NIPS2015) • STN
は，CNNに画像を⼊⼒する前に画像の空間的補正 (移動・縮⼩・回転・切取りなど) のパラメータを予測し，画像の歪みを修正し予測に必要な部分のみをネットワークに⼊⼒するアーキテクチャ． ⇒ STNを⽤いることでより頑健性の⾼いモデルを構築することが可能 • STN により，⼊⼒画像に歪みが⽣じていたり，対象物の周囲の景⾊なども写っているようなデータでも，対象物のみを切り出し，対象物の姿勢を修正してからネットワークへ⼊⼒することができるので，予測精度の向上が⾒込まれます．

図1. アーキテクチャ画像Iが与えられると，まず市販の物体検出器Φlocを⽤いて，切り取られた画像Icropを得る．次に，切り取られた画像を空間変換ネットワークΦstnに渡し，ホモグラフィ⾏列Hを出⼒する．この⾏列は，切り取られた画像を正準画像Icanonicalにワープするために使⽤することができる．最後に，正準画像を分類ネットワークΦclsに渡し，時間を予測する．

Synthetic Clock Generator (SynClock) • ⼿作業によるアノテーションの⼿間を省くために， Sim2Realトレーニングを提唱し，模擬時計を⽤いてアライメントと認識のトレーニングを⾏う． ⇒ 視点，時間，スタイルが異なる合成時計を⽣成する．
• シミュレーションでは実世界のすべての側⾯を正確に把握することはできないため，シミュレーションでトレーニングされたモデルが実世界ではうまく機能しない場合があります． • 現実世界とシミュレーションのギャップをいろいろな⽅法で埋める⼿法 ⇒ Sim2Real Transfer

図2. トレーニングデータ．左：SynClock データセット・ジェネレーターの画像例．様々なクロックを⽣成できるように設計されている．ランダムな線や影などのアーティファクトを加えた後，データ拡張右：Timelapse データセットのシーン例．時計を含む 3,443 本のラベルなしのタイムラプスビデオを含む．
このデータセットでは，⼀様性制約で⽣成された擬似ラベルを⽤いて学習を⾏う．

擬似ラベル (Pseudo Label) • 図3. 均⼀性の制約．時計のタイムラプスビデオが与えられた場合，ランダムにサンプリングされた予測値に直線を反復的にフィットさせ (左)，モジュロ演算⼦を⽤いて有効範囲 [0,
720] に整流し，インライアをカウントして (中)，インライアカウントが最⼤となる直線を⾒つけます． • インライアカウントの最⼤値がある閾値を超えた場合，フィットしたラインを使って測定値を補正し (右)，擬似的にラベル付けされた時計をトレーニングセットに追加します．

図4. 均⼀性制約を⽤いたフィルタリングの例．上の 2 ⾏は，フィルタリングに合格したビデオの例で，誤った予測はそれに応じてキャリブレーションされている．下の 2 ⾏は，フレーム外および⾮⼀様な速度のために失敗したビデオの例を⽰しています．ボックスの⾊は成功または失敗を⽰す．

• 定性的な結果．列は，元の画像，20 % の⽂脈で切り取られた画像，正規の画像を⽰しています． • このモデルは，異なるスタイル (1-2 列⽬)，低解像度 (3 列⽬)，⾮正⾯からの視野⾓
(4 列⽬) など，様々で困難なシーンでも時計を読み取ることができます． • 下の 2 つは失敗例を⽰しており，1 つは⼊れ替わった針を読み取り，もう 1 つは時計の検出に失敗している．

8. StyleAlign：アライメントされたStyleGANモデルの分析と応⽤ (原⽂: StyleAlign: Analysis and Applications of Aligned StyleGAN
Models) • http://arxiv.org/abs/2110.11323v1 • 本論⽂では，アライメントされた⽣成モデルの特性とその応⽤について詳細に検討した．ここでは，2つのモデルが同じアーキテクチャを共有し，⼀⽅（⼦）が他⽅（親）から別のドメインへの微調整を経て得られた場合，整列したモデルと呼ぶことにする．すでにいくつかの作品では，アライメントされたStyleGANモデルの基本的な特性を利⽤して，画像間の翻訳を⾏っている．ここでは，StyleGANに焦点を当てて，モデルのアラインメントを初めて詳細に調査する．まず，整列したモデルを経験的に分析し，その性質に関する重要な疑問に対する答えを提供する．特に，⼦モデルの潜在空間は親モデルの潜在空間と意味的に整合しており，⼈の顔や教会などの遠いデータ領域であっても，信じられないほど豊かな意味を継承していることがわかりました．次に，このようにして得られた理解をもとに，整列したモデルを活⽤してさまざまな課題を解決します．画像翻訳に加えて，完全に⾃動化されたクロスドメインの画像モーフィングを実証しました．さらに，親領域での監視のみに頼りながら，⼦領域ではゼロショットの視覚タスクを実⾏できることを⽰します．さらに，親領域の監視のみに依存しながら，⼦領域でゼロショット・ビジョン・タスクを実⾏することができることを⽰しました．このアプローチにより，簡単な微調整と反転のみで，最先端の結果が得られることを定性的および定量的に⽰しました．

9. マスクド・オートエンコーダーはスケーラブルな視覚学習器である (原⽂: Masked Autoencoders Are Scalable Vision Learners) •
http://arxiv.org/abs/2111.06377v1 • 本論⽂では，マスクドオートエンコーダ (MAE) が Computer Vision のためのスケーラブルな⾃⼰教師付き学習器であることを⽰している．我々の MAE のアプローチはシンプルで，⼊⼒画像のランダムなパッチをマスクし，失われたピクセルを再構築するというものです．MAE は 2 つのコアデザインに基づいています．まず，⾮対称なエンコーダ・デコーダアーキテクチャを開発しました．これは，マスクトークンを含まないパッチの可視サブセットのみを操作するエンコーダと，潜在表現とマスクトークンから元の画像を再構成する軽量デコーダを備えています．次に，⼊⼒画像の 75 % などの⾼い割合をマスクすることで，⾃明ではない有意義な⾃⼰監視タスクが得られることを発⾒しました．この 2 つの設計を組み合わせることで，⼤規模なモデルを効率的かつ効果的に学習することができ，学習の⾼速化 (3 倍以上) と精度の向上を実現しました．例えば，ViT-Huge モデルは，ImageNet-1K データのみを使⽤する⼿法の中で最⾼の精度 (87.8 %) を達成しています．下流のタスクにおける転送性能は，教師付きの事前学習を上回り，有望なスケーリング動作を⽰している．

10. 深層強化学習における⼀般化の調査 (原⽂: A Survey of Generalisation in Deep Reinforcement
Learning) • http://arxiv.org/abs/2111.09794v1 • 深層強化学習 (RL) における汎化の研究は，学習環境への過剰適合を回避し，展開時に⾒たことのない新しい状況に政策がよく汎化する RL アルゴリズムを⽣成することを⽬的としています． • 強化学習アルゴリズムを，環境が多様で，動的で，予測不可能な実世界のシナリオに展開するためには，この問題に取り組むことが不可⽋です． • この調査は，この新興の分野の概要を⽰すものです．これまでの研究を基に，様々な⼀般化問題を議論するための統⼀的な形式と⽤語を提供します． • 更に，⼀般化のための既存のベンチマークと，⼀般化問題に取り組むための現在の⽅法を分類します． • 最後に，この分野の現状を批判的に論じ，今後の課題を提⾔します． • 他の結論として，ベンチマークの設計に純粋に⼿続き的なコンテンツ⽣成アプローチを取ることは，汎化の進歩に寄与しないことを主張し，汎化のための⼿法に関する将来の研究分野として，⾼速オンライン適応と RL 特有の問題への取り組みを提案し，オフライン RL 汎化や報酬関数の変化などの未踏の問題設定でベンチマークを構築することを推奨する． • ⽬的: トレーニング環境への過剰適合を回避し，展開時に新しい⽬に⾒えない状況にポリシーが適切に⼀般化される深層強化学習の⼀般化に向けての Survey 論⽂

AI最新論文読み会12月.pdf

AI最新論文読み会12月.pdf

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Education

Featured

Transcript