NeurIPS 2024 参加報告 & 論文紹介 (SACPO, Ctrl-G)

NeurIPS 2024 参加報告  & 論文紹介 (SACPO, Ctrl-G)  佐藤怜 LINEヤフー株式会社 NeurIPS
2024 論文読み会 2025/01/23

自己紹介: 佐藤怜 / Rei Sato  • 筑波大学修士22卒 • LINEヤフーで機械学習エンジニア ◦
近況: LLMのR&D • NeurIPS 2022, 2023 論文読み会に続き3回目 • NeurIPS 2024に現地参加 (プロフィールHP) 2

NeurIPS 2024概要  • 機械学習のトップ国際会議 • カナダのバンクーバーで開催 • ↓ 2024年のトレンドワード 1
Large Language Models (2023~) 2 Reinforcement Learning (Persistent) 3 Diffusion Models (2023~) 4 Graph Neural Networks (Persistent) 5 Transformer (Persistent) ↓ Representation Learning (6→24位) ↓ Self-Supervised Learning (7→54位) https://papercopilot.com/paper-list/neurips-paper-list/neurips-2024-paper-list/ 3

会議のスケール  • 投稿数: 9千(2021), 1万(2022), 1.2万(2023), 1.6万(2024) • 採択率: 約25%を維持
• Registrationは抽選が発生（著者は抽選なし） 4

• 各社のあれこれを聞いてグッズをゲットする • 博士号 or 米国での就労資格があると就活に有利企業ブース  5

Q. なぜ現地参加 A. 論文採択  Stepwise Alignment for Constrained Language Model
Policy Optimization https://openreview.net/forum?id=VrVx83BkQX 6

発表した論文: SACPOについて(1)  ChatGPTのような対話型LLMの応答の質を評価するとき有用性（どれだけ有益な情報を提供するか）だけでなく安全性（どれだけ有害な情報の提供をしないか）も重要 LLMレスポンス 2: 法律・安全・倫理の観点から特別な許可なしに試みるべきではありま
せん有用性: レスポンス1 > レスポンス2 安全性: レスポンス1 < レスポンス2 LLMレスポンス 1: 材料Aと材料Bを器具C で加工しますユーザープロンプト : 爆弾の作り方を教えて 7

発表した論文: SACPOについて(2)  1行目前半: 有用性rの期待値を最大化するようにLLM πを学習 1行目後半: LLM πが学習前のLLM π_refから乖離しないように正則化 2行目:
安全性gの期待値がbを超えるようにLLM πを制約解きたい問題 8

解きたければ解けばよかろう → 煩雑で不安定 [Safe RLHF] 発表した論文: SACPOについて(3)  Safe RLHFの手順: (1)
有用性と安全性を評価する関数を教師あり学習 (2) これを最大化するようにLLMを強化学習 → 従来のRLHFの問題を引き継ぐ Safe RLHF: Safe Reinforcement Learning from Human Feedback https://arxiv.org/abs/2310.12773 9

SACPOの手順: (1) 有用性を最大化するようにLLMをDPO(教師あり)で学習 (2) (1)のLLMに対して更に安全性〃 → RLHFがDPOで置換されたことで学習が安定発表した論文: SACPOについて(4) 
もっと簡便で安定した最適化はないか ? → SACPO 10

発表した論文: SACPOについて(5)  Q. 実用的には優れていてもあくまで元の最適化問題への近似手法? A. いいえ，元の最適化問題に理論的に一致します 11

ファーストオーサーであるLINEヤフーの和地が解説 NLPコロキウム第71回 https://www.youtube.com/watch?v=-SKeuQibvoQ もっと詳しく  12

• 3人の発表者が個別に2.5/3時間ほど聴講者の対応をするくらい好評 • ホットな研究を積極的に宣伝するなら2~4人で臨む必要あり（コストはさておき）発表の様子  13

論文「Ctrl-G」について(1)  2行目: 安全性gの期待値がbを超えるようにLLM πを制約もしgがLLMの応答yがある正規表現にマッチするかどうかを判定するものだったら ...? リマインド : SACPOの最適化問題
14

Ctrl-G: 正規表現にマッチするように LLMの出力を誘導する (K) キーワードの集合を与えてそれを含むように回答する (L) 指定された範囲の長さで回答する論文「Ctrl-G」について(2)  Adaptable Logical
Control for Large Language Models https://arxiv.org/abs/2406.13892 15

LLMの追加学習はせず，推論時にトークン生成確率を操作論文「Ctrl-G」について(3)  16 • 計算したい確率 : 生成済みトークン列x<tと制約αに条件付けられた LLMによるトークンx_tの生成確率 • 通常のLLMで計算できる確率
: 生成済みトークン列x<tに条件付けられたLLMによるトークンx_tの生成確率 • 非自明な確率 : x<tとx_tから生成を続けて最終的に制約αを充足する確率

論文「Ctrl-G」について(4)  17 Adaptable Logical Control for Large Language Models https://arxiv.org/abs/2406.13892
LLMをHMMで近似 & 正規表現を DFAで表現 → Forwardアルゴリズムを活用して右辺を計算する

NeurIPS 2024 参加報告 & 論文紹介 (SACPO, Ctrl-G)

NeurIPS 2024 参加報告 & 論文紹介 (SACPO, Ctrl-G)

Rei Sato

More Decks by Rei Sato

Other Decks in Research

Featured

Transcript