2023年2月28日に、「NeurIPS論文読み会」で発表した、本田志温の資料です。
© Recruit Co., Ltd. All Rights Reserved気になった論文20本をまとめて紹介します@NeurIPS 2022 論文読み会2022/2/28株式会社リクルート本田志温
View Slide
© Recruit Co., Ltd. All Rights Reserved自己紹介本田 志温(@shion_honda)プロダクトオーナー @新規事業開発室機械学習エンジニア @データ推進室2020年入社で、NeurIPSには3年連続で参加させていただいています!プライベート:最近は執筆が多め『画像生成AIのしくみ』『画像生成AIのしくみ』hippocampus-garden.com/
© Recruit Co., Ltd. All Rights Reservedおことわり● 元ネタはRecruit Data Blogの『NeurIPS 2022 参加報告 後編』です● 元ネタは自分の興味(深層学習の性質や基盤モデル)に偏っています○ 特に統計的学習理論、強化学習、グラフ、音声、プライバシー、因果推論あたりは手薄です● 本資料はさらに、貢献がわかりやすいものに偏っています
© Recruit Co., Ltd. All Rights Reserved発表する内容● 深層学習とニューラルネットワーク● 大規模言語モデル● 強化学習● コンピュータビジョン● データセットとベンチマーク
© Recruit Co., Ltd. All Rights Reserved発表する内容● 深層学習とニューラルネットワーク● 大規模言語モデル● 強化学習● コンピュータビジョン● データセットとベンチマーク未知の挙動の報告や、既知の現象に対する理論的な説明を紹介します
© Recruit Co., Ltd. All Rights Reservedgrokking現象を説明する仮説:過学習から表現学習への相転移[Power22] [Liu22]Transformerに剰余計算を学習させたときの埋め込み(表現)をPCAで2次元にプロットした図grokking:過学習してしばらく経ってから、急に汎化誤差が下がり始める(正解率が上がり始める)現象※一定の条件下で発生grokkingを説明する仮説を提案。「学習は初期化→過学習→表現学習という順で進む。grokkingとは過学習から表現学習への相転移である。」grokking
© Recruit Co., Ltd. All Rights Reservedデータを適切に選ぶことで、スケーリング則の冪関数の壁を突破従来のスケーリング則:データセットのサイズと損失は冪関数の関係(両対数プロットで直線)※一定の条件下で成立データを倍々で増やしても、得られる性能向上は逓減していく …有益なサンプルのみを選ぶことで効率を改善する「データが不十分なときは簡単なサンプルのみを、十分なときは難しいサンプルのみを残す」※決定境界から遠い(近い)サンプルが簡単(難しい)一部は指数関数まで改善![Sorscher22][Kaplan20]
© Recruit Co., Ltd. All Rights Reserved最適化器ではAdamとSGDがまだまだ現役Adamの収束性を改善する手法( AdaBoundなど)がいろいろ考案されてきたが …Adamはβ1とβ2を適切に選べば必ず収束する ということを理論的に証明。選び方:1. β2をなるべく大きく取る2. β1をβ1<√β2の範囲で選ぶ [Zhang22]SGDのハイパーパラメータ (学習率αやモメンタム係数μ)をHyperSGDで最適化すると、収束が頑健になる[Chandra22]
© Recruit Co., Ltd. All Rights ReservedNNへの攻撃は、敵対的入力だけではないデータセット復元:画像分類モデルから訓練サンプルを復元[Haim22]「手製の」バックドア攻撃 :学習済みモデル(よく使われるオープンソースモデルなど)の重みを直接編集して悪い挙動を仕込む[Hong22]復元画像実際の画像敵対的入力は有名だが、攻撃方法は他にもある[Goodfellow14]
© Recruit Co., Ltd. All Rights Reserved発表する内容● 深層学習とニューラルネットワーク● 大規模言語モデル● 強化学習● コンピュータビジョン● データセットとベンチマーク大規模言語モデルを活用して多様なタスクを解く方法や、計算を効率化するための手法を紹介します
© Recruit Co., Ltd. All Rights ReservedLLMに思考過程を記述させると、難しい問題も解けるようになるGPT-3の従来の使い方具体例に思考の連鎖(chain of thought)を入れる回答を”Let’s think step by step”で始める(だけ!)[Wei22][Kojima22]
© Recruit Co., Ltd. All Rights ReservedLLMに数学やプログラミングの問題を解かせる数学 プログラミング[Lewkowycz22] [Le22]
© Recruit Co., Ltd. All Rights ReservedLLMを改造して、画像や動画を処理させるFlamingo:LLMの各層の前で画像に関する情報を入力できるように改造したもの[Alayrac22]NFNet Chinchilla
© Recruit Co., Ltd. All Rights Reserved強化学習でLLMに協調性を教える(alignment)1. プロンプトと望ましい出力のペアを人手で作る2. 1を教師データとしてGPT-3をファインチューニングする(初期方策)3. 初期方策から複数の出力をサンプルし、人手で好ましい順に序列を与える4. 3を教師データとして報酬モデル(2とは別のGPT-3)を訓練する5. 4の報酬モデルを使って2の方策を強化学習で訓練する(InstructGPT)GPT-3は、大量のテキストコーパスで学習された大規模言語モデルです。2020年にOpenAIによって開発されました。2020年にOpenAIによって開発されました。2020年にOpenAIによって開発されました…GPT-3は、2020年にNVIDIAが開発したGPUです。🤖GPT-3って何ですか?次のトークンを予測するというタスクで訓練されたLLMは、望ましくない挙動をすることがある繰り返し嘘・デタラメGPT-3は、大量のテキストコーパスで学習された大規模言語モデルです。OpenAIが開発した素晴らしい技術です。価値判断(偏見などを含む)alignGPT-3の改善版:InstructGPTChatGPTも同様のアプローチ(RLHF)強化学習初期方策元モデル[Ouyang22]
© Recruit Co., Ltd. All Rights ReservedLLMを効率化する方法:モデルサイズの最適化とメモリIOの削減FLOPsを固定して探索した最適なパラメータ数うわ、私のLLM大きすぎ…?ChinchillaはSOTAモデルと同じFLOPs、半分以下のパラメータ数で同程度の性能を達成。次のボトルネックはデータの量[Hoffman22]FlashAttention [Dao22]最近のGPUは強力なので、memory/overhead-boundになりやすい→SRAMとHBM間のIO削減により、注意機構の計算で● 2-4倍の高速化● 10-20倍のメモリ削減※1つのデータは1回しか使わない設定
© Recruit Co., Ltd. All Rights Reserved発表する内容● 深層学習とニューラルネットワーク● 大規模言語モデル● 強化学習● コンピュータビジョン● データセットとベンチマークオフライン強化学習の設定でTransformerが強みを発揮しているという話をします
© Recruit Co., Ltd. All Rights ReservedDecision Transformerを事前学習して未知ゲームに汎化させるオフライン強化学習:環境との相互作用をせず、過去に収集したデータのみで方策を訓練する≒実況動画を見るだけでゲームをマスターできるか?Decision Transformerは、言語モデリングの要領で行動を選択する強力な新ベースライン将来の報酬和で方策を調節(素人〜達人)未知ゲームへのファインチューニングに成功モデルを大きくすると性能が上がる![Lee22][Chen21]
© Recruit Co., Ltd. All Rights Reserved発表する内容● 深層学習とニューラルネットワーク● 大規模言語モデル● 強化学習● コンピュータビジョン● データセットとベンチマークコンテキスト内学習と拡散モデルを取り上げます
© Recruit Co., Ltd. All Rights Reserved画像でもコンテキスト内学習を実現通常のコンテキスト内学習では、タスク説明を自然言語で行う[Brown20]visual prompting:画像の入出力ペアだけでタスクを説明多様な画像出力タスクを解ける[Bar22]※ちなみに、訓練データはarXivのコンピュータビジョンの論文から集めた9万枚の図
© Recruit Co., Ltd. All Rights Reservedtext-to-imageの忠実度向上の鍵は「強いテキストエンコーダ」Imagenは難しいクエリでも「健闘」テキストとの合致度画像の本物らしさテキストエンコーダ拡散モデル(U-Net)「ラテを作るパンダ」ノイズ[Saharia22]
© Recruit Co., Ltd. All Rights Reserved発表する内容● 深層学習とニューラルネットワーク● 大規模言語モデル● 強化学習● コンピュータビジョン● データセットとベンチマークData-centric AIの時代に重要性が増すデータセット及びベンチマーク作成の研究を紹介します
© Recruit Co., Ltd. All Rights ReservedEmbodied AIの研究を加速させるデータセットとベンチマークここ数年で大きく発展した「与えられた情報」を処理する AIと比較して、Embodied AIには伸びしろがある※Embodied AI:身体性を持ち、物理世界との相互作用から何らかの能力を獲得するエージェントまずはデータや環境が必要MineDojo:Minecraftを元にした、オープンエンドな使い方ができるフレームワーク※wikiやプレイ動画も付属ProcTHOR:相互作用可能な「家」を自動で生成するフレームワーク[Fan22] [Deitke22]
© Recruit Co., Ltd. All Rights ReservedLAION-5B:基盤モデル研究を民主化する大規模データセットOpenCLIPStable Diffusionデータを5倍に増やして本家に勝利LAION-400Mで再現実験に成功OpenAIやGoogleの最近の研究は独自データを利用しているため再現が困難Webから収集した50億組の画像・キャプションペアを公開LAION-5B [Schuhmann22]
© Recruit Co., Ltd. All Rights Reservedおまけ:個人的な展望大規模言語モデルや基盤モデルの今後は?● 画像や動画から視覚的な知識を獲得する○ 例:Flamingo● 「Web上の情報を調べてまとめる」という純粋な情報処理において人間を超える○ 例:Bing Chat● 行動計画や意思決定も実用レベルに達し始める○ 例:Language Models as Zero-ShotPlanners次のフロンティアは?● 音声や動画、3D、そしてマルチモーダル● 強化学習×基盤モデル● Embodied AI基礎技術(スケールするモデル)と 材料(データセットや強化学習のリッチな環境)が揃いつつある