Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI最新論文読み会2022年5月11日

 AI最新論文読み会2022年5月11日

AI最新論文読み会2022年5月11日

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Science

Transcript

  1. PaperWithCodeの10本を紹介 1. 機械学習モデルに検出不可能なバックドアを仕込む Planting Undetectable Backdoors in Machine Learning Models

    2. 計算最適化された大規模言語モデルの学習 Training Compute-Optimal Large Language Models 3. ソクラテスモデル。ゼロショット多言語推論を言語で構成する Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language 4. STaR: 推論によるブートストラップ推論 STaR: Bootstrapping Reasoning With Reasoning 5. Make-A-Scene: 人間のプライヤーを用いた情景ベースのテキストから画像への生成 Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors 6. 映像拡散モデル Video Diffusion Models 7. 努力する価値はあるのか?サッカーにおける身体的指標の理解と文脈化 Is it worth the effort? Understanding and contextualizing physical metrics in soccer 8. ビッグモデルへの道しるべ A Roadmap for Big Model 9. 正則化とデータ補強の効果はクラスに依存する The Effects of Regularization and Data Augmentation are Class Dependent 10.物体検出のためのプレインビジョントランスフォーマーバックボーンの探索 Exploring Plain Vision Transformer Backbones for Object Detection https://megalodon.jp/2022-0423-1158-49/https://paperswithcode.com:443/top-social?num_days=30
  2. 1. 機械学習モデルに検出不可能なバックドアを仕込む Planting Undetectable Backdoors in Machine Learning Models 機械学習モデルの学習に必要な計算コストと技術的専門知識を考慮すると、ユーザは学習タスクをサービスプロバイダに委ねるこ

    とができる。我々は、悪意のある学習者が検出不可能なバックドアを分類器に仕込む方法を示す。このようなバックドアを仕込んだ 分類器は、表面上は正常に動作しているが、実際には、学習者がわずかな操作で任意の入力の分類を変更するメカニズムを保持 している。重要なのは、適切な「バックドアキー」がなければ、このメカニズムは隠され、計算量に制限のある観測者には検出できな いことである。我々は、検出不可能なバックドアを仕掛けるための2つのフレームワークを、比類のない保証付きで実証する。まず、 デジタル署名方式を用いて、任意のモデルにバックドアを仕掛ける方法を示す。この構成では、元のモデルとバックドアを仕込んだ バージョンにブラックボックスでアクセスできる場合、両者が異なる単一の入力さえ見つけることは計算上不可能であることが保証 されます。この性質は、バックドアードモデルがオリジナルモデルと同程度の汎化誤差を持つことを意味する。第二に、ランダム フーリエ特徴量(RFF)学習パラダイムやランダムReLUネットワークで学習したモデルに、検出不可能なバックドアを挿入する方法を 示す。この構成では、強力なホワイトボックス識別器に対して検出不能が成り立つ。ネットワークの完全な記述と訓練データがあれ ば、効率的な識別器はモデルが「クリーン」であるかバックドアを含んでいるかを推測することができない。我々の構築した検出不 可能なバックドアは、敵対的な例に対する頑健性という関連した問題にも光を当てている。特に、我々の構成は、「敵対的ロバスト」 分類器と見分けがつかないが、全ての入力が敵対的な例を持っている分類器を生成することができるのです。要約すると、検出不 可能なバックドアの存在は、敵対的ロバスト性を証明する上で重要な理論的障害となる。 https://arxiv.org/abs/2204.06974v1 目的: モデル学習時にバックドア(次スライドで説明)を仕込む方法を示す 成果: 現実的なサンプル数のテストでは発見できないバックドアを仕込むことができることを暗号学を用いて示した 方法: - モデル名: - 著者所属: UC Berkeley, MIT, IAS
  3. Model Backdoor 1. バックドアの設置 1. 現在ではデータの学習を外部の企業に依頼することが多い 2. 銀行がある悪意ある学習代行企業Snoogleにローン審査モデルの学習を依頼したとする 3. 銀行は戻ってきたモデルを少数のテストデータで確認し、精度などに問題がないことを確認した

    2. バックドアの使用 1. 表面上問題ないように見えるにも関わらずSnoogleはモデルにbackdoorを仕掛けており、入力の 一部を変更することで任意のインプットを審査に合格させることができる 2. 例えばローン申請金額の末尾の数字を変えることで審査をパスさせることができる 3. Snoogleはローン審査アドバイザーなどの形で利益を上げることができる
  4. Blackbox, Whitebox • Black-box Undetectable Backdoors • Deep learningなどのblack box

    modelに設置するバックドア • バックドアなしのモデルと同等の汎化誤差を持ち、xと僅かに異なる入力x’を与える ことで出力を任意に変えることができるモデル • White-box Undetectable Backdoors • Random Fourier Feature algorithmなどの(deep learningではなく)ランダムな特徴量 (カーネル)を使う手法において重みやモデル構造などにアクセスできる場合でも見 分けることの出来ないバックドア
  5. backdoorの中和とその限界 • Verifiable Delegation of Learning: 検証可能な学習代表団 • 検証可能なよく使われる学習アルゴリズムの組み合わせによって学習を行う •

    各アルゴリズムが適切に動いていることを検証するシステムと組み合わせて使う • Persistence to Gradient Descent: 根気強い勾配降下法 • 出来上がったモデルに数回の勾配降下法を走らせてもバックドアの無効化を期待する • 効果は限定的である • Randomized Evaluation: ランダム化された評価 • 入力データにランダムな摂動を与える • 悪意ある業者が摂動の範囲を知っているならそれに対応したバックドアを仕掛けること ができる
  6. 2. 計算最適化された大規模言語モデルの学習 Training Compute-Optimal Large Language Models 我々は、与えられた計算予算内で変換言語モデルを学習するための最適なモデルサイズとトークン数を調査する。これは、 学習データ量を一定に保ちながら言語モデルを拡張することに近年注目が集まっている結果です。7000万から160億のパ ラメータを持つ400以上の言語モデルを50億から5000億のトークンで学習させた結果、最適な学習には、モデルサイズと学

    習トークン数が等しく変化する必要があることがわかりました。この仮説を検証するために、Gopherと同じ計算量バジェット で、70Bのパラメータと4倍以上のデータを持つ予測計算最適化モデルChinchillaを学習させました。その結果、Chinchillaは Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), Megatron-Turing NLG (530B)を一様に大きく上回り、下流評価タスクの大部 分において、Gopherを上回る性能を示しました。これは、Chinchillaが微調整や推論に使用する計算量を大幅に削減し、下 流での利用を大幅に促進することも意味しています。その結果、MMLUベンチマークにおいて67.5%の平均精度を達成し、 Gopherと比較して7%以上の改善を示しました。 https://arxiv.org/abs/2203.15556v1 目的: トランスフォーマーモデルにおける最適なモデルサイズと学習トークン数に関する調査 成果: 最適な学習にはモデルサイズと学習トークン数をともに増やす必要がある 方法: 7000万から160億のパラメータを持つ400以上の言語モデルを50億から5000億のトークンで学習 モデル名: Chinchilla 著者所属: DeepMind
  7. 3.ソクラテスモデル。ゼロショット多言語推論を言語で構成する Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language 大規模な基礎モデルは、学習させるデータのドメインによって独自の能力を発揮することができる。これらのドメインは一般的

    ではあるが、かろうじて重複しているに過ぎない場合もある。例えば、視覚言語モデル(VLM)はインターネットスケールの画 像キャプションで学習されるが、大規模言語モデル(LM)はさらに画像のないインターネットスケールのテキスト(例:スプレッド シートやSATの問題など)で学習される。その結果、これらのモデルは異なるドメイン間で異なる形式のコモンセンス知識を保 存する。本研究では、このモデルの多様性が共存可能であり、構造化ソクラテス対話を用いたAIシステムの構築に活用でき ることを示す。この場合、新しいマルチモーダルなタスクは、追加の微調整なしに、異なる既存の基礎モデル間のガイド付き 言語ベースの交換として定式化される。自己中心的知覚的状況で、我々はソクラテスモデル(SM)のケーススタディを行う。 SMは、ビデオQ&AをショートストーリーQ&Aとして定式化することにより、自己中心的ビデオに関する文脈的質問に対する自 由形式の回答を生成するなどの複雑なタスクに対して意味のある結果を与えることができる。さらに、SMはインターネット画 像のキャプションを生成することができ、MSR-VTT 1k-Aでのゼロショットビデオ-テキスト検索では42.8 R@1と最先端技術に匹 敵する性能を持っています。SMは、新しいマルチモーダルな機能を獲得するために、ドメイン固有のデータ収集なしに、ゼロ ショットで基礎モデルを構成する方法を示している。プロトタイプはsocraticmodels.github.ioで公開されています。 https://arxiv.org/abs/2204.00598v1 目的: ファインチューニング無しで新しいタスクに対応する 成果: ビデオQ&A、ビデオ検索などにおいてドメイン固有のデータ収集なしで成果を出した 方法: 言語モデル同士が対話を行うフレームワーク モデル名: Socratic Models 著者所属: Google
  8. ソクラテス対話とは Socratic dialogue (Ancient Greek: Σωκρατικὸς λόγος) is a genre

    of literary prose developed in Greece at the turn of the fourth century BC. The earliest ones are preserved in the works of Plato and Xenophon and all involve Socrates as the protagonist. These dialogues and subsequent ones in the genre present a discussion of moral and philosophical problems between two or more individuals illustrating the application of the Socratic method. The dialogues may be either dramatic or narrative. While Socrates is often the main participant, his presence in the dialogue is not essential to the genre. ソクラテス対話(古代ギリシャ語:Σωκρατικὸς λόγος) は、紀元前4世紀頃にギリシャで発展した文学散文 のジャンルである。最古のものはプラトンやクセノ フォンの著作に残されており、いずれもソクラテスを 主人公としたものである。これらの対話篇とそれに続 く対話篇は、ソクラテスの方法を応用した2人以上の 個人による道徳的・哲学的な問題の議論を提示する ものである。対話は劇形式と物語形式がある。ソクラ テスはしばしば主要な参加者であるが、対話におけ る彼の存在は、このジャンルにとって不可欠なもので はない。 https://en.wikipedia.org/wiki/Socratic_dialogue deeplによる翻訳
  9. コンセプト 既存のVLM (Visual Language Model)、LMs (Large Language Model) 、 ALMs

    (Audio Language Model)、同士が構造 化された対話を行う(中央)。ビデオサーチ、キャプション生成、ビデオQ&A、将来の行動予測をこの対話空間への 新しい参加者として扱う
  10. 4. STaR: 推論によるブートストラップ推論 STaR: Bootstrapping Reasoning With Reasoning 段階的な「思考の連鎖」による理由付けを行うことで、数学や常識的な質問応答のような複雑な推論タスクにおける言語モ デルの性能を向上させることができる。しかし、現在、言語モデルの根拠生成を誘導するためには、膨大な根拠データセッ

    トを構築するか、数発の推論のみを用いて精度を犠牲にする必要がある。我々は、少数の理由付けの例と理由付けのな い大規模なデータセットを繰り返し活用することで、より複雑な推論を次々と実行する能力をブートストラップする手法を提 案する。この技術は "Self-Taught Reasoner"(STaR)と呼ばれ、少数の理由付けの例を用いて多くの質問に対する理由付け を行い、生成された答えが間違っていた場合、正しい答えを与える理由付けを再度行い、最終的に正しい答えを得た全て の理由付けに対して微調整を行い、を繰り返すという単純なループに依存するものである。STaRは複数のデータセットにお いて、最終的な答えを直接予測するように微調整したモデルと比較して大幅に性能が向上し、CommensenseQAにおける 30倍規模の最新言語モデルの微調整に匹敵する性能を発揮することが示されました。このように、STARはモデル自身が生 成した推論から学習することで、モデル自身を向上させることができます。 https://arxiv.org/abs/2203.14465v1 目的: 推論の理由付けを行う 成果: 少数の理由付けの例と理由付けのない大規模なデータセットを用いて多くの質問に理由付けを行う 方法: 理由付けの生成と、修正を繰り返し + “rationalization” モデル名: STaR (self-Taught Reasoner) 著者所属: Google Research
  11. 5. Make-A-Scene: 人間のプライヤーを用いた情景ベースのテキストから画像への生成 Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

    最近のテキストから画像への変換手法は、テキストと画像の間の簡単かつ刺激的な変換機能を提供する。これらの手法 は、生成される画像の忠実度とテキストの関連性を段階的に向上させてきたが、いくつかの重要なギャップが未解決のま ま残っており、適用性と品質を制限している。我々は、(i)シーン形式のテキストを補完するシンプルな制御機構を可能にし、 (ii)主要な画像領域(顔や顕著な物体)に関するドメイン固有の知識を用いることでトークン化プロセスを大幅に改善する要 素を導入し、(iii) 分類器なしのガイドを変換器の使用事例に適応させることで、これらのギャップに対処する新しいテキスト- 画像変換法を提案する。私たちのモデルは、最先端のFIDと人間による評価結果を達成し、512x512ピクセルの解像度で忠 実度の高い画像を生成する能力を引き出し、視覚品質を大幅に向上させます。また、シーン制御機能により、いくつかの新 しい機能を導入しています。(i) シーン編集、(ii) アンカーシーンによるテキスト編集、(iii) 配置ずれテキストプロンプトの克服、 (iv) ストーリーイラストの生成、などである。 https://arxiv.org/abs/2203.13131v1 目的: テキストからの画像生成 成果: 制御可能で人の感覚とあった画像の生成 方法: VQ-VAEとtransformerをベースに、lossを工夫し顔やそのパーツに重み付けを行った学習を行う モデル名: VQ-SEG 著者所属: Meta AI Research
  12. 手法 loss関数の工夫 顔の考慮に関する誤差@VQ-IMG 顔のパーツの再構成誤差@VQ-SEG モノの考慮に関する誤差@VQ-IMG l: layer c: crop (size

    of the top most block) s: segmentation map FE: pre-trained Face Embedding BCE: Binary Cross entropy VGG: pre-trained VGG レイヤー数= 背景(133)+人のパーツ(20) +顔のパーツ(5)+エッジ(1)
  13. 7.努力は報われるか?サッカーにおける身体的指標の理解と文脈化 Is it worth the effort? Understanding and contextualizing physical

    metrics in soccer 我々は、サッカーの身体的側面と技術的・戦術的側面の間の関連性を深く洞察するフレームワークを提示し、トップダウン アプローチにより身体的パフォーマンスと価値創出を関連付けることを可能にするものである。まず、トラッキングデータか らフィジカル指標を推定する。次に、各選手の走りをコンテキスト化し、走りの目的や状況をより深く理解することで、チーム や選手のプロフィール作成に新たな次元を追加します。最後に、ポゼッションバリューモデルとリンクさせることで、オフボー ルでの高強度ランによる付加価値を評価する。この新しいアプローチは、アナリスト、コーチ、スカウト、フィジカルコーチ、 再適応理学療法士など、サッカークラブ内の実務家の非常に異なるプロファイルからの実用的な質問に答えることを可能 にするものである。 https://arxiv.org/abs/2204.02313v1 目的: ある場面で走ることの勝利への価値を推定する、チームは選手のプロフィール作成 成果: ランの文脈化、プロフィール作成への新しい次元の提案 方法: 選手のトラッキングデータからの分析 モデル名: - 著者所属:Barca Innovation Hub, Zelus Analytics
  14. 8.ビッグモデルへの道しるべ A Roadmap for Big Model 深層学習の急速な発展に伴い、複数の下流タスクのためのビッグモデル(BM)の学習が一般的なパラダイムとなる。BMの 構築やBMの応用において、研究者は様々な成果を上げています。現時点では、BMの全体的な進捗を整理し、その後の 研究を導くような研究成果は不足している。本論文では、BM技術そのものだけでなく、BM育成のための前提条件やBMを 用いた応用についても取り上げ、BMのレビューを4つのパートに分けて行っている。資源、モデル、キーテクノロジー、アプ

    リケーションの4つのパートに分けて、BMのレビューを行う。具体的には、データ、知識、計算システム、並列学習システム、 言語モデル、視覚モデル、マルチモーダルモデル、理論・解釈性、コモンセンス推論、信頼性・安全性、ガバナンス、評価、 機械翻訳、テキスト生成、対話、タンパク質研究という16のBM関連トピックを紹介する。各トピックにおいて、現在の研究を 明確にまとめ、今後の研究の方向性を提案する。最後に、より一般的な観点から、BMのさらなる発展を結論づける。 https://arxiv.org/abs/2203.14101v4 目的:ビッグモデル全体の進捗を整理しその後の研究を導く 成果: ビッグモデルのレビュー論文(200ページ) 方法: - モデル名: - 著者所属: 北京智源人工智能研究院、etc
  15. Key Technology Theory & Interpretability Commonsense Reasoning Reliability & Security

    Governance Evaluation • Theory • Transfer Learning Theory, Self-supervised Learning Theory • 説明可能性 • 可視化による説明、知識による説明 Security, Interpretability, Fairness, Robustness, Accountability 評価用のデータセットやベンチマークについて
  16. Application Machine Translation Text Generation Dialogue Protein Research Text-to-Text Generation,

    Data-to-Text Generation, Vision-to-Text Generation • Big Dialogue Models: • DialoGPT, Meena, Blender Bot, Plato, Eva • Persona in Conversation
  17. 9.正則化とデータ補強の効果はクラスに依存する The Effects of Regularization and Data Augmentation are Class

    Dependent 正則化は、オーバーフィッティングを防ぎ、モデルの複雑さを抑制して汎化性能を向上させるための基本的な技術である。現 在のDeep Networksは、Data-Augmentation (DA)やweight-decayなどの正則化に大きく依存し、最適な正則化のハイパーパラ メータを選択するために構造リスク最小化、すなわちクロスバリデーションを用いている。本研究では、DAや減量などの手法が、 クラス間で不公平な、複雑さを低減したモデルを生成することを実証する。例えば、resnet50を用いたImagenetでは、学習中に ランダムクロップDAを導入するだけで、「barn spider」分類テストの精度は68%から46%に低下する。さらに驚くべきことに、この ような性能低下は、重み減衰のような非情報的な正則化技術を導入した場合にも現れます。これらの結果は、すべてのクラス とサンプルを平均した汎化性能を高めようとするあまり、いくつかのクラスで性能を犠牲にするモデルや正則化手法を導入して しまったことを示しています。例えば、Imagenetで事前学習したresnet50をINaturalistに展開すると、Imagenetの事前学習段階 でランダムクロップDAを導入すると、クラス#8889で性能が70%から30%に低下することが分かっています。これらの結果は、ク ラス依存のバイアスを持たない新しい正則化器を設計することが未解決の研究課題であることを示しています。正則化は、 オーバーフィットを防ぎ、モデルの複雑さを抑制することによって汎化性能を向上させるための基本的な技術です。現在の Deep Networksは、Data-Augmentation(DA)やweight-decayなどの正則化に大きく依存し、最適な正則化のハイパーパラメータ を選択するために、構造リスク最小化、つまりクロスバリデーションを採用している。 https://arxiv.org/abs/2204.03632v2 目的: Data-Augmentation (DA)やweight-decayなどの手法が、クラス間で不公平な、モデルを生成することを実証する 成果:クラス依存のバイアスを持たない新しい正則化器を設計することが未解決の研究課題であることを示した 方法: Data-Augmentationやweight-decayの量を変化させながら学習を行いクラスごとの推移を見る モデル名: - 著者所属: Meta AI Research
  18. 10.物体検出のためのプレインビジョントランスフォーマーバックボーンの探索 Exploring Plain Vision Transformer Backbones for Object Detection 我々は、物体検出のためのバックボーンネットワークとして、プレーンで非階層的なVision

    Transformer (ViT)を探索する。こ の設計により、事前学習のために階層的なバックボーンを再設計することなく、元のViTアーキテクチャを物体検出用に微 調整することができる。このような微調整のための最小限の調整で、私たちのプレーンバックボーン検出器は競争力のあ る結果を達成することができます。驚くべきことに、我々は以下のことを確認した。(i)単一スケールの特徴マップから単純な 特徴ピラミッドを構築することで十分である(一般的なFPN設計を用いない)(ii)非常に少数の交差窓伝搬ブロックに助けら れた窓注目(シフトなし)を使用することで十分である。ViTバックボーンをマスクオートエンコーダ(MAE)として事前学習させ た本検出器は、階層型バックボーンに基づく先行手法と競合し、ImageNet-1Kの事前学習のみでCOCOデータセットにおい て最大61.3APboxまで到達することができる。本研究がプレーンバックボーン検出器の研究への注目を集めることを期待し ています。コードは公開される予定である。 https://arxiv.org/abs/2203.16527v1 目的: 物体検知のためのバックボーンの提案 成果: 単一スケールの特徴マップから単純な特徴ピラミッドを構築することで十分であることを示した 方法: 実験 モデル名: ViTDet 著者所属: Facebook AI Research
  19. plain backbone 階層的バックボーン • 既存手法 • 上位層ほどストライド幅を大きくする • 物体のサイズ差に対応 プレーンバックボーン

    • 提案手法 • ストライド幅は一定 • Transformerの一般的な構造 Transformer Convolution Transformer Convolution