AI最新論文読み会2022年5月11日

AI最新論文読み会 2022年5月11日理化学研究所落合幸治

PaperWithCodeの10本を紹介 1. 機械学習モデルに検出不可能なバックドアを仕込む Planting Undetectable Backdoors in Machine Learning Models
2. 計算最適化された大規模言語モデルの学習 Training Compute-Optimal Large Language Models 3. ソクラテスモデル。ゼロショット多言語推論を言語で構成する Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language 4. STaR: 推論によるブートストラップ推論 STaR: Bootstrapping Reasoning With Reasoning 5. Make-A-Scene: 人間のプライヤーを用いた情景ベースのテキストから画像への生成 Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors 6. 映像拡散モデル Video Diffusion Models 7. 努力する価値はあるのか？サッカーにおける身体的指標の理解と文脈化 Is it worth the effort? Understanding and contextualizing physical metrics in soccer 8. ビッグモデルへの道しるべ A Roadmap for Big Model 9. 正則化とデータ補強の効果はクラスに依存する The Effects of Regularization and Data Augmentation are Class Dependent 10.物体検出のためのプレインビジョントランスフォーマーバックボーンの探索 Exploring Plain Vision Transformer Backbones for Object Detection https://megalodon.jp/2022-0423-1158-49/https://paperswithcode.com:443/top-social?num_days=30

1. 機械学習モデルに検出不可能なバックドアを仕込む Planting Undetectable Backdoors in Machine Learning Models 機械学習モデルの学習に必要な計算コストと技術的専門知識を考慮すると、ユーザは学習タスクをサービスプロバイダに委ねるこ
とができる。我々は、悪意のある学習者が検出不可能なバックドアを分類器に仕込む方法を示す。このようなバックドアを仕込んだ分類器は、表面上は正常に動作しているが、実際には、学習者がわずかな操作で任意の入力の分類を変更するメカニズムを保持している。重要なのは、適切な「バックドアキー」がなければ、このメカニズムは隠され、計算量に制限のある観測者には検出できないことである。我々は、検出不可能なバックドアを仕掛けるための2つのフレームワークを、比類のない保証付きで実証する。まず、デジタル署名方式を用いて、任意のモデルにバックドアを仕掛ける方法を示す。この構成では、元のモデルとバックドアを仕込んだバージョンにブラックボックスでアクセスできる場合、両者が異なる単一の入力さえ見つけることは計算上不可能であることが保証されます。この性質は、バックドアードモデルがオリジナルモデルと同程度の汎化誤差を持つことを意味する。第二に、ランダムフーリエ特徴量（RFF）学習パラダイムやランダムReLUネットワークで学習したモデルに、検出不可能なバックドアを挿入する方法を示す。この構成では、強力なホワイトボックス識別器に対して検出不能が成り立つ。ネットワークの完全な記述と訓練データがあれば、効率的な識別器はモデルが「クリーン」であるかバックドアを含んでいるかを推測することができない。我々の構築した検出不可能なバックドアは、敵対的な例に対する頑健性という関連した問題にも光を当てている。特に、我々の構成は、「敵対的ロバスト」分類器と見分けがつかないが、全ての入力が敵対的な例を持っている分類器を生成することができるのです。要約すると、検出不可能なバックドアの存在は、敵対的ロバスト性を証明する上で重要な理論的障害となる。 https://arxiv.org/abs/2204.06974v1 目的：モデル学習時にバックドア（次スライドで説明）を仕込む方法を示す成果：現実的なサンプル数のテストでは発見できないバックドアを仕込むことができることを暗号学を用いて示した方法： - モデル名： - 著者所属： UC Berkeley, MIT, IAS

Model Backdoor 1. バックドアの設置 1. 現在ではデータの学習を外部の企業に依頼することが多い 2. 銀行がある悪意ある学習代行企業Snoogleにローン審査モデルの学習を依頼したとする 3. 銀行は戻ってきたモデルを少数のテストデータで確認し、精度などに問題がないことを確認した
2. バックドアの使用 1. 表面上問題ないように見えるにも関わらずSnoogleはモデルにbackdoorを仕掛けており、入力の一部を変更することで任意のインプットを審査に合格させることができる 2. 例えばローン申請金額の末尾の数字を変えることで審査をパスさせることができる 3. Snoogleはローン審査アドバイザーなどの形で利益を上げることができる

Blackbox, Whitebox • Black-box Undetectable Backdoors • Deep learningなどのblack box
modelに設置するバックドア • バックドアなしのモデルと同等の汎化誤差を持ち、xと僅かに異なる入力x’を与えることで出力を任意に変えることができるモデル • White-box Undetectable Backdoors • Random Fourier Feature algorithmなどの（deep learningではなく）ランダムな特徴量（カーネル）を使う手法において重みやモデル構造などにアクセスできる場合でも見分けることの出来ないバックドア

backdoorの中和とその限界 • Verifiable Delegation of Learning: 検証可能な学習代表団 • 検証可能なよく使われる学習アルゴリズムの組み合わせによって学習を行う •
各アルゴリズムが適切に動いていることを検証するシステムと組み合わせて使う • Persistence to Gradient Descent: 根気強い勾配降下法 • 出来上がったモデルに数回の勾配降下法を走らせてもバックドアの無効化を期待する • 効果は限定的である • Randomized Evaluation: ランダム化された評価 • 入力データにランダムな摂動を与える • 悪意ある業者が摂動の範囲を知っているならそれに対応したバックドアを仕掛けることができる

結論 • 検出不可能性の具体的な定義や証明がない場合検出手法を開発する研究者と攻撃手法を開発する研究者の終わりのない追いかけっこにつながる可能性がある • 我々の研究は、検知不能の概念を強固な暗号学的基盤の上に置くことで、バックドアのリスクが不可避であることを実証しています • バックドアの検出を伴わない代替的な無効化機構に対する今後の研究
の動機付けとなる。

2. 計算最適化された大規模言語モデルの学習 Training Compute-Optimal Large Language Models 我々は、与えられた計算予算内で変換言語モデルを学習するための最適なモデルサイズとトークン数を調査する。これは、学習データ量を一定に保ちながら言語モデルを拡張することに近年注目が集まっている結果です。7000万から160億のパラメータを持つ400以上の言語モデルを50億から5000億のトークンで学習させた結果、最適な学習には、モデルサイズと学
習トークン数が等しく変化する必要があることがわかりました。この仮説を検証するために、Gopherと同じ計算量バジェットで、70Bのパラメータと4倍以上のデータを持つ予測計算最適化モデルChinchillaを学習させました。その結果、Chinchillaは Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), Megatron-Turing NLG (530B)を一様に大きく上回り、下流評価タスクの大部分において、Gopherを上回る性能を示しました。これは、Chinchillaが微調整や推論に使用する計算量を大幅に削減し、下流での利用を大幅に促進することも意味しています。その結果、MMLUベンチマークにおいて67.5%の平均精度を達成し、 Gopherと比較して7%以上の改善を示しました。 https://arxiv.org/abs/2203.15556v1 目的：トランスフォーマーモデルにおける最適なモデルサイズと学習トークン数に関する調査成果：最適な学習にはモデルサイズと学習トークン数をともに増やす必要がある方法： 7000万から160億のパラメータを持つ400以上の言語モデルを50億から5000億のトークンで学習モデル名： Chinchilla 著者所属： DeepMind

問題設定 N: モデルパラメータ数 D: トークン数 L: 最終的な事前学習のloss C: 計算資源の成約ある計算量(FLOPs)において最適なモデルパラメータ数とトークン数は？
FLOPs: FLoating-point OPerationS。計算量、≠FLOPS(Floating-point Operations Per Second)

Approach1: モデルサイズを固定、トークン数を変更モデルサイズを75M～10Bで、トークン数を5B～400B超で変化させた場合のTraining loss 最終的なFLOPsとモデルサイズ、トークン数の関係 • 左図の包絡線からグラフを作成 •
GopherのFLOPs(5.76 × 1023)と対応する点に緑の線を表示

Approach2: IsoFLOP profiles 特定FLOPsごとで最適なパラメータ数が存在する最終的なFLOPsとモデルサイズ、トークン数の関係 • 左図の谷からグラフを作成 • GopherのFLOPs(5.76
× 1023)と対応する点に緑の線を表示

Approach3: 関数近似でlossを予測する左記の関数でL(loss)を近似する N: パラメータ数、D: トークン数

計算リソースとパラメータ数一定のFLOPSで最適なモデルサイズとトークン数 • 既存のモデルは大幅に小さくできるはずであり現在は必要以上に長く学習している • サイズを調節したモデル Chinchillaを提案

Gopher(既存手法)からの改善 pileデータセットで学習したところすべてのサブタスクで改善(Decrease)C

Gopher(既存手法)からの改善 MMLU benchmark

Gopher(既存手法)からの改善 Big bench tasksC

3.ソクラテスモデル。ゼロショット多言語推論を言語で構成する Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language 大規模な基礎モデルは、学習させるデータのドメインによって独自の能力を発揮することができる。これらのドメインは一般的
ではあるが、かろうじて重複しているに過ぎない場合もある。例えば、視覚言語モデル（VLM）はインターネットスケールの画像キャプションで学習されるが、大規模言語モデル（LM）はさらに画像のないインターネットスケールのテキスト（例：スプレッドシートやSATの問題など）で学習される。その結果、これらのモデルは異なるドメイン間で異なる形式のコモンセンス知識を保存する。本研究では、このモデルの多様性が共存可能であり、構造化ソクラテス対話を用いたAIシステムの構築に活用できることを示す。この場合、新しいマルチモーダルなタスクは、追加の微調整なしに、異なる既存の基礎モデル間のガイド付き言語ベースの交換として定式化される。自己中心的知覚的状況で、我々はソクラテスモデル（SM）のケーススタディを行う。 SMは、ビデオQ&AをショートストーリーQ&Aとして定式化することにより、自己中心的ビデオに関する文脈的質問に対する自由形式の回答を生成するなどの複雑なタスクに対して意味のある結果を与えることができる。さらに、SMはインターネット画像のキャプションを生成することができ、MSR-VTT 1k-Aでのゼロショットビデオ-テキスト検索では42.8 R@1と最先端技術に匹敵する性能を持っています。SMは、新しいマルチモーダルな機能を獲得するために、ドメイン固有のデータ収集なしに、ゼロショットで基礎モデルを構成する方法を示している。プロトタイプはsocraticmodels.github.ioで公開されています。 https://arxiv.org/abs/2204.00598v1 目的：ファインチューニング無しで新しいタスクに対応する成果：ビデオQ&A、ビデオ検索などにおいてドメイン固有のデータ収集なしで成果を出した方法：言語モデル同士が対話を行うフレームワークモデル名： Socratic Models 著者所属： Google

ソクラテス対話とは Socratic dialogue (Ancient Greek: Σωκρατικὸς λόγος) is a genre
of literary prose developed in Greece at the turn of the fourth century BC. The earliest ones are preserved in the works of Plato and Xenophon and all involve Socrates as the protagonist. These dialogues and subsequent ones in the genre present a discussion of moral and philosophical problems between two or more individuals illustrating the application of the Socratic method. The dialogues may be either dramatic or narrative. While Socrates is often the main participant, his presence in the dialogue is not essential to the genre. ソクラテス対話（古代ギリシャ語：Σωκρατικὸς λόγος）は、紀元前4世紀頃にギリシャで発展した文学散文のジャンルである。最古のものはプラトンやクセノフォンの著作に残されており、いずれもソクラテスを主人公としたものである。これらの対話篇とそれに続く対話篇は、ソクラテスの方法を応用した2人以上の個人による道徳的・哲学的な問題の議論を提示するものである。対話は劇形式と物語形式がある。ソクラテスはしばしば主要な参加者であるが、対話における彼の存在は、このジャンルにとって不可欠なものではない。 https://en.wikipedia.org/wiki/Socratic_dialogue deeplによる翻訳

コンセプト既存のVLM (Visual Language Model)、LMs (Large Language Model) 、 ALMs
(Audio Language Model)、同士が構造化された対話を行う（中央）。ビデオサーチ、キャプション生成、ビデオQ＆A、将来の行動予測をこの対話空間への新しい参加者として扱う

構造化された対話モデル間の対話を通じてVideo を検索場面を文章に変換文章で記述された世界の状態の履歴を使ってユーザーからの質問に答える

結果：イメージからの説明生成

結果：テキストで記述された世界の状態の履歴

結果：回答

結果：定量評価

4. STaR: 推論によるブートストラップ推論 STaR: Bootstrapping Reasoning With Reasoning 段階的な「思考の連鎖」による理由付けを行うことで、数学や常識的な質問応答のような複雑な推論タスクにおける言語モデルの性能を向上させることができる。しかし、現在、言語モデルの根拠生成を誘導するためには、膨大な根拠データセッ
トを構築するか、数発の推論のみを用いて精度を犠牲にする必要がある。我々は、少数の理由付けの例と理由付けのない大規模なデータセットを繰り返し活用することで、より複雑な推論を次々と実行する能力をブートストラップする手法を提案する。この技術は "Self-Taught Reasoner"（STaR）と呼ばれ、少数の理由付けの例を用いて多くの質問に対する理由付けを行い、生成された答えが間違っていた場合、正しい答えを与える理由付けを再度行い、最終的に正しい答えを得た全ての理由付けに対して微調整を行い、を繰り返すという単純なループに依存するものである。STaRは複数のデータセットにおいて、最終的な答えを直接予測するように微調整したモデルと比較して大幅に性能が向上し、CommensenseQAにおける 30倍規模の最新言語モデルの微調整に匹敵する性能を発揮することが示されました。このように、STARはモデル自身が生成した推論から学習することで、モデル自身を向上させることができます。 https://arxiv.org/abs/2203.14465v1 目的：推論の理由付けを行う成果：少数の理由付けの例と理由付けのない大規模なデータセットを用いて多くの質問に理由付けを行う方法：理由付けの生成と、修正を繰り返し＋ “rationalization” モデル名： STaR (self-Taught Reasoner) 著者所属： Google Research

手法

手法 Questionを既存のモデルに送る

手法理由と回答をモデルから生成

手法答えがあっていたらデータセットに追加

手法答えが間違っていたらHint(回答)を与えて理由のみを生成させる (“rationalization”)

rationalizationの効果

5. Make-A-Scene: 人間のプライヤーを用いた情景ベースのテキストから画像への生成 Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
最近のテキストから画像への変換手法は、テキストと画像の間の簡単かつ刺激的な変換機能を提供する。これらの手法は、生成される画像の忠実度とテキストの関連性を段階的に向上させてきたが、いくつかの重要なギャップが未解決のまま残っており、適用性と品質を制限している。我々は、(i)シーン形式のテキストを補完するシンプルな制御機構を可能にし、 (ii)主要な画像領域（顔や顕著な物体）に関するドメイン固有の知識を用いることでトークン化プロセスを大幅に改善する要素を導入し、(iii) 分類器なしのガイドを変換器の使用事例に適応させることで、これらのギャップに対処する新しいテキスト- 画像変換法を提案する。私たちのモデルは、最先端のFIDと人間による評価結果を達成し、512x512ピクセルの解像度で忠実度の高い画像を生成する能力を引き出し、視覚品質を大幅に向上させます。また、シーン制御機能により、いくつかの新しい機能を導入しています。(i) シーン編集、(ii) アンカーシーンによるテキスト編集、(iii) 配置ずれテキストプロンプトの克服、 (iv) ストーリーイラストの生成、などである。 https://arxiv.org/abs/2203.13131v1 目的：テキストからの画像生成成果：制御可能で人の感覚とあった画像の生成方法： VQ-VAEとtransformerをベースに、lossを工夫し顔やそのパーツに重み付けを行った学習を行うモデル名： VQ-SEG 著者所属： Meta AI Research

手法 loss関数の工夫顔の考慮に関する誤差@VQ-IMG 顔のパーツの再構成誤差@VQ-SEG モノの考慮に関する誤差@VQ-IMG l: layer c: crop (size
of the top most block) s: segmentation map FE: pre-trained Face Embedding BCE: Binary Cross entropy VGG: pre-trained VGG レイヤー数＝背景(133)＋人のパーツ(20) ＋顔のパーツ(5)＋エッジ(1)

結果テキスト→シーンと画像テキストとシーン→画像

結果：既存手法との比較

6.映像拡散モデル Video Diffusion Models 時間的にコヒーレントな高忠実度ビデオの生成は、生成モデル研究において重要なマイルストーンである。我々は、ビデオ生成のための拡散モデルを提案し、非常に有望な初期結果を示すことによって、このマイルストーンに向けて前進する。このモデルは、標準的な画像拡散アーキテクチャの自然な拡張であり、画像とビデオデータから共同で学習することが可能で、ミニバッチ勾配の分散を減らし、最適化を高速化できることがわかった。長尺で高解像度のビデオを生成するために、我々は空間的・時間的ビデオ拡張のための新しい条件付きサンプリング技術を導入し、以前に提案された方法よりも優れた性能を発揮することを明らかにした。大規模なテキスト条件付きビデオ生成タスクにおける最初の結果と、確立された無
条件ビデオ生成ベンチマークにおける最先端の結果を発表する。補足資料は https://video-diffusion.github.io/ に掲載されています。 https://arxiv.org/abs/2204.03458v1 目的：ビデオ生成のためのDiffusion Model 成果：長い高解像度ビデオの生成方法：新しい条件付きサンプリング技術モデル名：gradient method 著者所属： Google

Diffusion model What are Diffusion Models? | Lil‘Log https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

モデル構造 frames × height × width × channels の4D

モデル構造 condition: text

モデル構造 signal to nose ratio

gradient method bと連続する過去のフレームを表す引数サンプリング則に反映

結果 https://video-diffusion.github.io/

7.努力は報われるか？サッカーにおける身体的指標の理解と文脈化 Is it worth the effort? Understanding and contextualizing physical
metrics in soccer 我々は、サッカーの身体的側面と技術的・戦術的側面の間の関連性を深く洞察するフレームワークを提示し、トップダウンアプローチにより身体的パフォーマンスと価値創出を関連付けることを可能にするものである。まず、トラッキングデータからフィジカル指標を推定する。次に、各選手の走りをコンテキスト化し、走りの目的や状況をより深く理解することで、チームや選手のプロフィール作成に新たな次元を追加します。最後に、ポゼッションバリューモデルとリンクさせることで、オフボールでの高強度ランによる付加価値を評価する。この新しいアプローチは、アナリスト、コーチ、スカウト、フィジカルコーチ、再適応理学療法士など、サッカークラブ内の実務家の非常に異なるプロファイルからの実用的な質問に答えることを可能にするものである。 https://arxiv.org/abs/2204.02313v1 目的：ある場面で走ることの勝利への価値を推定する、チームは選手のプロフィール作成成果：ランの文脈化、プロフィール作成への新しい次元の提案方法：選手のトラッキングデータからの分析モデル名： - 著者所属：Barca Innovation Hub, Zelus Analytics

新規性 1. トラッキングデータからの身体指標の推定 2. ポゼッションバリューモデルとオフボール高強度ランの関連付け 3. 選手のランを文脈化し、その目的や状況をより深く理解する 4. 体指標では無視されがちだった選手やチームのプロフィール作成に新たな側面を加える

トラッキングデータからの身体指標の推定メッシ選手の走行スピード推移

ポゼッションバリューモデルとオフボール高強度ランの関連付けチームのEPV (Expected Possession Value) 増分選手pの高強度ラン β: 回帰係数 Possession
Value：パスを通じてゴールに繋がる可能性

選手のランを文脈化

選手のプロフィール高強度ランによるチームのEPV(Expected Possession Value)への影響攻撃における高強度ランの距離

8.ビッグモデルへの道しるべ A Roadmap for Big Model 深層学習の急速な発展に伴い、複数の下流タスクのためのビッグモデル（BM）の学習が一般的なパラダイムとなる。BMの構築やBMの応用において、研究者は様々な成果を上げています。現時点では、BMの全体的な進捗を整理し、その後の研究を導くような研究成果は不足している。本論文では、BM技術そのものだけでなく、BM育成のための前提条件やBMを用いた応用についても取り上げ、BMのレビューを4つのパートに分けて行っている。資源、モデル、キーテクノロジー、アプ
リケーションの4つのパートに分けて、BMのレビューを行う。具体的には、データ、知識、計算システム、並列学習システム、言語モデル、視覚モデル、マルチモーダルモデル、理論・解釈性、コモンセンス推論、信頼性・安全性、ガバナンス、評価、機械翻訳、テキスト生成、対話、タンパク質研究という16のBM関連トピックを紹介する。各トピックにおいて、現在の研究を明確にまとめ、今後の研究の方向性を提案する。最後に、より一般的な観点から、BMのさらなる発展を結論づける。 https://arxiv.org/abs/2203.14101v4 目的：ビッグモデル全体の進捗を整理しその後の研究を導く成果：ビッグモデルのレビュー論文(200ページ) 方法： - モデル名： - 著者所属：北京智源人工智能研究院、etc

ビッグモデルの４つのパートと16のトピック＋ Commonsense ＋ Parallel Computing

Resource Large Scale Intelligent Computing System (LSICS) Computing system Data
Parallel Computing

Model Language Vision Multi-modal

Key Technology Theory & Interpretability Commonsense Reasoning Reliability & Security
Governance Evaluation • Theory • Transfer Learning Theory, Self-supervised Learning Theory • 説明可能性 • 可視化による説明、知識による説明 Security, Interpretability, Fairness, Robustness, Accountability 評価用のデータセットやベンチマークについて

Application Machine Translation Text Generation Dialogue Protein Research Text-to-Text Generation,
Data-to-Text Generation, Vision-to-Text Generation • Big Dialogue Models: • DialoGPT, Meena, Blender Bot, Plato, Eva • Persona in Conversation

9.正則化とデータ補強の効果はクラスに依存する The Effects of Regularization and Data Augmentation are Class
Dependent 正則化は、オーバーフィッティングを防ぎ、モデルの複雑さを抑制して汎化性能を向上させるための基本的な技術である。現在のDeep Networksは、Data-Augmentation (DA)やweight-decayなどの正則化に大きく依存し、最適な正則化のハイパーパラメータを選択するために構造リスク最小化、すなわちクロスバリデーションを用いている。本研究では、DAや減量などの手法が、クラス間で不公平な、複雑さを低減したモデルを生成することを実証する。例えば、resnet50を用いたImagenetでは、学習中にランダムクロップDAを導入するだけで、「barn spider」分類テストの精度は68%から46%に低下する。さらに驚くべきことに、このような性能低下は、重み減衰のような非情報的な正則化技術を導入した場合にも現れます。これらの結果は、すべてのクラスとサンプルを平均した汎化性能を高めようとするあまり、いくつかのクラスで性能を犠牲にするモデルや正則化手法を導入してしまったことを示しています。例えば、Imagenetで事前学習したresnet50をINaturalistに展開すると、Imagenetの事前学習段階でランダムクロップDAを導入すると、クラス#8889で性能が70%から30%に低下することが分かっています。これらの結果は、クラス依存のバイアスを持たない新しい正則化器を設計することが未解決の研究課題であることを示しています。正則化は、オーバーフィットを防ぎ、モデルの複雑さを抑制することによって汎化性能を向上させるための基本的な技術です。現在の Deep Networksは、Data-Augmentation（DA）やweight-decayなどの正則化に大きく依存し、最適な正則化のハイパーパラメータを選択するために、構造リスク最小化、つまりクロスバリデーションを採用している。 https://arxiv.org/abs/2204.03632v2 目的： Data-Augmentation (DA)やweight-decayなどの手法が、クラス間で不公平な、モデルを生成することを実証する成果：クラス依存のバイアスを持たない新しい正則化器を設計することが未解決の研究課題であることを示した方法： Data-Augmentationやweight-decayの量を変化させながら学習を行いクラスごとの推移を見るモデル名： - 著者所属： Meta AI Research

モデルの複雑さとロス Data-Augmentationやweight-decayなどの正則化によってモデルの複雑さを調整するクロスバリデーションは、大多数のクラスでは非常に良いが、その他のクラスでは任意に悪いモデルを生成する

Data-Augmentationはクラスごとで影響が異なる青線：平均的正答率赤または黒線：個別のクラスの正答率。クラスごとで異なる推移をしているランダムクロップの下限

Weight-decayはクラスごとで影響が異なる DAとして水平フリップのみを採用し、weight decayのパラメータを変化させた場合のクラスごとの性能 weight decay：重みにL2正則化を加える

10.物体検出のためのプレインビジョントランスフォーマーバックボーンの探索 Exploring Plain Vision Transformer Backbones for Object Detection 我々は、物体検出のためのバックボーンネットワークとして、プレーンで非階層的なVision
Transformer (ViT)を探索する。この設計により、事前学習のために階層的なバックボーンを再設計することなく、元のViTアーキテクチャを物体検出用に微調整することができる。このような微調整のための最小限の調整で、私たちのプレーンバックボーン検出器は競争力のある結果を達成することができます。驚くべきことに、我々は以下のことを確認した。(i)単一スケールの特徴マップから単純な特徴ピラミッドを構築することで十分である（一般的なFPN設計を用いない）(ii)非常に少数の交差窓伝搬ブロックに助けられた窓注目（シフトなし）を使用することで十分である。ViTバックボーンをマスクオートエンコーダ(MAE)として事前学習させた本検出器は、階層型バックボーンに基づく先行手法と競合し、ImageNet-1Kの事前学習のみでCOCOデータセットにおいて最大61.3APboxまで到達することができる。本研究がプレーンバックボーン検出器の研究への注目を集めることを期待しています。コードは公開される予定である。 https://arxiv.org/abs/2203.16527v1 目的：物体検知のためのバックボーンの提案成果：単一スケールの特徴マップから単純な特徴ピラミッドを構築することで十分であることを示した方法：実験モデル名： ViTDet 著者所属： Facebook AI Research

plain backbone 階層的バックボーン • 既存手法 • 上位層ほどストライド幅を大きくする • 物体のサイズ差に対応プレーンバックボーン
• 提案手法 • ストライド幅は一定 • Transformerの一般的な構造 Transformer Convolution Transformer Convolution

結果: 階層的 vs プレーン COCOデータセットを用いた検出精度の比較

結果：リソースと精度 APbox : 物体検出精度リソースが多い場合、提案手法であるPlane ViTが良い成績を出している

DeepL.com/Translatorによる翻訳を使用させていただきました

AI最新論文読み会2022年5月11日

AI最新論文読み会2022年5月11日

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Science

Featured

Transcript