Slide 1

Slide 1 text

NeurIPS 2024 参加報告
 & 論文紹介 (SACPO, Ctrl-G)
 佐藤怜 LINEヤフー株式会社 NeurIPS 2024 論文読み会 2025/01/23

Slide 2

Slide 2 text

自己紹介: 佐藤怜 / Rei Sato
 ● 筑波大学修士22卒 ● LINEヤフーで機械学習エンジニア ○ 近況: LLMのR&D ● NeurIPS 2022, 2023 論文読み会に続き3回目 ● NeurIPS 2024に現地参加 (プロフィールHP) 2

Slide 3

Slide 3 text

NeurIPS 2024概要
 ● 機械学習のトップ国際会議 ● カナダのバンクーバーで開催 ● ↓ 2024年のトレンドワード 1 Large Language Models (2023~) 2 Reinforcement Learning (Persistent) 3 Diffusion Models (2023~) 4 Graph Neural Networks (Persistent) 5 Transformer (Persistent) ↓ Representation Learning (6→24位) ↓ Self-Supervised Learning (7→54位) https://papercopilot.com/paper-list/neurips-paper-list/neurips-2024-paper-list/ 3

Slide 4

Slide 4 text

会議のスケール
 ● 投稿数: 9千(2021), 1万(2022), 1.2万(2023), 1.6万(2024) ● 採択率: 約25%を維持 ● Registrationは抽選が発生(著者は抽選なし) 4

Slide 5

Slide 5 text

● 各社のあれこれを聞いてグッズをゲットする ● 博士号 or 米国での就労資格があると就活に有利 企業ブース
 5

Slide 6

Slide 6 text

Q. なぜ現地参加 A. 論文採択
 Stepwise Alignment for Constrained Language Model Policy Optimization https://openreview.net/forum?id=VrVx83BkQX 6

Slide 7

Slide 7 text

発表した論文: SACPOについて(1)
 ChatGPTのような対話型LLMの応答の質を評価するとき 有用性(どれだけ有益な情報を提供するか)だけでなく 安全性(どれだけ有害な情報の提供をしないか)も重要 LLMレスポンス 2: 法律・安全・倫理の観点 から特別な許可なしに 試みるべきではありま せん 有用性: レスポンス1 > レスポンス2 安全性: レスポンス1 < レスポンス2 LLMレスポンス 1: 材料Aと材料Bを器具C で加工します ユーザープロンプト : 爆弾の作り方を教えて 7

Slide 8

Slide 8 text

発表した論文: SACPOについて(2)
 1行目前半: 有用性rの期待値を最大化するようにLLM πを学習 1行目後半: LLM πが学習前のLLM π_refから乖離しないように正則化 2行目: 安全性gの期待値がbを超えるようにLLM πを制約 解きたい問題 8

Slide 9

Slide 9 text

解きたければ解けばよかろう → 煩雑で不安定 [Safe RLHF] 発表した論文: SACPOについて(3)
 Safe RLHFの手順: (1) 有用性と安全性を評価する関数を教師あり学習 (2) これを最大化するようにLLMを強化学習 → 従来のRLHFの問題を引き継ぐ Safe RLHF: Safe Reinforcement Learning from Human Feedback https://arxiv.org/abs/2310.12773 9

Slide 10

Slide 10 text

SACPOの手順: (1) 有用性を最大化するようにLLMをDPO(教師あり)で学習 (2) (1)のLLMに対して更に安全性 〃 → RLHFがDPOで置換されたことで学習が安定 発表した論文: SACPOについて(4)
 もっと簡便で安定した最適化はないか ? → SACPO 10

Slide 11

Slide 11 text

発表した論文: SACPOについて(5)
 Q. 実用的には優れていてもあくまで元の最適化問題への近似手法? A. いいえ,元の最適化問題に理論的に一致します 11

Slide 12

Slide 12 text

ファーストオーサーであるLINEヤフーの和地が解説 NLPコロキウム第71回 https://www.youtube.com/watch?v=-SKeuQibvoQ もっと詳しく
 12

Slide 13

Slide 13 text

● 3人の発表者が個別に2.5/3時間ほど聴講者の対応をするくらい好評 ● ホットな研究を積極的に宣伝するなら2~4人で臨む必要あり (コストはさておき) 発表の様子
 13

Slide 14

Slide 14 text

論文「Ctrl-G」について(1)
 2行目: 安全性gの期待値がbを超えるようにLLM πを制約 もしgがLLMの応答yがある正規表現にマッチするかどうか を判定するものだったら ...? リマインド : SACPOの最適化問題 14

Slide 15

Slide 15 text

Ctrl-G: 正規表現にマッチするように LLMの出力を誘導する (K) キーワードの集合を与えてそれを含むように回答する (L) 指定された範囲の長さで回答する 論文「Ctrl-G」について(2)
 Adaptable Logical Control for Large Language Models https://arxiv.org/abs/2406.13892 15

Slide 16

Slide 16 text

LLMの追加学習はせず,推論時にトークン生成確率を操作 論文「Ctrl-G」について(3)
 16 ● 計算したい確率 : 生成済みトークン列x

Slide 17

Slide 17 text

論文「Ctrl-G」について(4)
 17 Adaptable Logical Control for Large Language Models https://arxiv.org/abs/2406.13892 LLMをHMMで近似 & 正規表現を DFAで表現 → Forwardアルゴリズムを活用して右辺を計算する