Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NeurIPS-23 参加報告 + DPO 解説

Akifumi Wachi
January 18, 2024

NeurIPS-23 参加報告 + DPO 解説

● イベント
NeurIPS 2023 論文読み会
https://lycorptech-jp.connpass.com/event/302510/

● 発表者
Akifumi Wachi (https://akifumi-wachi-4.github.io/website/)

● 対象論文
Direct Preference Optimization: Your Language Model is Secretly a Reward Model
- https://arxiv.org/abs/2305.18290

Akifumi Wachi

January 18, 2024
Tweet

More Decks by Akifumi Wachi

Other Decks in Research

Transcript

  1. "LJGVNJ8BDIJʢ࿨஍ ྎྑʣ ܦྺ • r ɿ*#.౦ژجૅݚڀॴ 3FTFBSDI4DJFOUJTU • r ݱࡏɿ-*/&Ϡϑʔ

    $IJFG3FTFBSDI4DJFOUJTU ݚڀ෼໺ • ڧԽֶश ʴʢ"*4BGFUZ ࣗવݴޠॲཧʣ ஶॻʢڞஶʣ • ʰڧԽֶश͔Β৴པͷͰ͖Δҙࢥܾఆ΁ʱʢࠓिൃചʣ ࠾୒࿦จ • ओஶɿ"""* *+$"* *$.- /FVS*14 /FVS*14 """* • ڞஶɿ&./-1 "$- &./-1 $P/-- 2
  2. ਅ໘໨ཁૉ ট଴ߨԋ • ஶ໊ͳݚڀऀ໊ʹΑΔߨԋ • ಛʹ -PSB"SPZP ͷ l5IF.BOZ'BDFTPG3FTQPOTJCMF"*z͸ૉ੖Β͔ͬͨ͠ •

    (PPHMFʹ͓͚Δ 3FTQPOTJCMF"*ͷऔΓ૊Έʹؔ͢Δൃද Φʔϥϧηογϣϯ • ࠪಡͰߴ͍ධՁΛಘ্ͨҐͷ࿦จͷޱ಄ൃද • ͦͷޙϙελʔηογϣϯͰ΋ൃද͞ΕΔ ֶձʹࢀՃొ࿥ͨ͠ਓ͸ɺΦϯϥΠϯͰ΋ࢹௌͰ͖Δ 6
  3. ਅ໘໨ཁૉ ϙελʔηογϣϯ ˡ ΦϑϥΠϯࢀՃͷ୉ޣຯ͸͜Ε ൃදऀଆ • աૄ͍ͬͯΔϙελʔ͸جຊతʹͳ͍ • ࣍ʑͱਓ͕དྷͯ೤৺ʹฉ͍ͯ͘ΕΔͷͰָ͍͠ ௌߨऀଆ

    • ීஈಡΜͰ͍Δ࿦จͷஶऀ͕ී௨ʹϙελʔൃදͯ͠Δ • ཪ࿩ɾͿͬͪΌ͚࿩ɾࠓޙͷల๬ͱ͔ฉ͚Δ • Ͳͷϙελʔ΋࣭͕ߴͯ҆͘৺ײ͕͋Δ • αοΧʔ৔͘Β͍ͷ޿͞ͷձ৔ʹϙελʔ໿ຕ º ϙελʔηογϣϯճ 7
  4. 5XP0VUTUBOEJOH.BJO5SBDL1BQFST • 1SJWBDZ"VEJUJOHXJUI0OF  5SBJOJOH3VO • "SF&NFSHFOU"CJMJUJFTPG-BSHF-BOHVBHF.PEFMTB.JSBHF 0VUTUBOEJOH.BJO5SBDL3VOOFS6QT • 4DBMJOH%BUB$POTUSBJOFE-BOHVBHF.PEFMT

    • %JSFDU1SFGFSFODF0QUJNJ[BUJPO:PVS-BOHVBHF.PEFMJT4FDSFUMZB3FXBSE.PEFM 0VUTUBOEJOH%BUBTFUTBOE#FODINBSLT1BQFST • $MJN4JN"MBSHFNVMUJTDBMFEBUBTFUGPSIZCSJEQIZTJDT.-DMJNBUFFNVMBUJPO • %FDPEJOH5SVTU"$PNQSFIFOTJWF"TTFTTNFOUPG5SVTUXPSUIJOFTTJO(15.PEFMT ड৆࿦จͷ͏ͪ൒෼͕େن໛ݴޠϞσϧ --. ؔ࿈ #FTU1BQFS"XBSE 8 ৄࡉɿIUUQTCMPHOFVSJQTDDBOOPVODJOHUIFOFVSJQTQBQFSBXBSET
  5. 12 3-)'ͷύΠϓϥΠϯ ˢ ڭࢣ͋Γֶश ʢ4'5ʣ ˢ 1SFGFSFODFEBUB ͰใुϞσϧΛֶश ˢ ֶशͨ͠ใुϞσϧ

    Λ༻͍ͯڧԽֶश *NBHFUBLFOGSPN0VZBOH   1SFGFSFODFEBUBճ౴ͷ࣭Λਓ͕ؒൺֱɾϥϯΩϯάͨ͠σʔλͷ͜ͱ 4UFQ 4UFQ 4UFQ
  6. 13 3-)'ʢใुϞσϧͷֶशʣ ≻ ճ౴" 8JOOFS ճ౴# -PTFS ใुϞσϧΛֶश ʢճ౴ͷྑ͞Λ࣮਺Ͱฦ͢ʣ ڧԽֶशʢ110ʣ

    1SFGFSFODFEBUB ͸ #SBEMFZ5FSSZϞσϧʹै͏ͱ͢Δ ϓϩϯϓτ 8JOOFS -PTFS ใुϞσϧ͸ೋ஋෼ྨͷଛࣦؔ਺Λ༻͍ͯ࠷దԽ ˢ ϩδεςΟοΫؔ਺
  7. 14 3-)'ʢڧԽֶशϑΣʔζʣ ֶशͨ͠ใुϞσϧΛ༻͍ͯڧԽֶश ਓ͕ؒ޷Έͦ͏ͳճ౴ Λํࡦʹग़ྗ͍ͤͨ͞ ڧԽֶशʮલʯͷํࡦ ͱဃ཭͞ΕΔͱࠔΔ σʔλ͕ີ ใुϞσϧ͕ਖ਼֬ σʔλ͕ૄ

    ใु͕աେʹධՁ ͞Ε͍ͯΔՄೳੑ͕͋Δ ≻ ճ౴" 8JOOFS ճ౴# -PTFS ใुϞσϧΛֶश ʢճ౴ͷྑ͞Λ࣮਺Ͱฦ͢ʣ ڧԽֶशʢ110ʣ ͋Δఔ౓ ͔͍ۙͮͤͨ
  8. • 3-)'ͷʮใुϞσϧͷֶशʯʴʮڧԽֶशʯΛ؆ུԽ͢Δ࠷దԽ໰୊ΛఏҊ • %10%JSFDU1SFGFSFODF0QUJNJ[BUJPO • ͳΜ͔ۙࣅͰ΋ͨ͠ΜͰ͔͢ʁ ˠ ͍͍͑ɺ਺ֶతʹ౳ՁͰ͢ 16 %10

    = ౳Ձ ใुϞσϧͷֶशʢ4UFQʣ ڧԽֶशʢ4UFQʣ ͬͪ͜ͷ΄͏͕ղ͖΍͍͢ *NBHFUBLFOGSPN3BGBJMPW   3BGBJMPW   %JSFDU1SFGFSFODF0QUJNJ[BUJPO:PVS-BOHVBHF.PEFMJT4FDSFUMZB3FXBSE.PEFM *O/FVS*14
  9. 18 %10ͷཧ࿦ʢ̎ʣ FYQͱ MPHͷؔ܎ • ೚ҙͷํࡦ 𝝅 ʹରͯ͠ɺ্ͷࣜΛຬͨ͢Α͏ͳใु 𝒓 ͕ଘࡏ͢Δ

    • ࠷దํࡦ 𝝅∗ ͱਅͷใुؔ਺ 𝒓∗ ͷରԠؔ܎਺ֶతʹهड़Ͱ͖Δ ΋͏গࣜ͠มܗ͢Δͱɾɾɾ
  10. 19 λΠτϧʹ΋෬ઢ͕ɾɾɾ • ํࡦ -. 𝝅 ͱใु 𝒓 ͕ʮදͱཪͷؔ܎ʯʹͳ͍ͬͯΔʂʂ Direct

    Preference Optimization: Your Language Model is Secretly a Reward Model
  11. 21 %10ͷཧ࿦ʢ̏ʣ ͜ͷ෼഑ؔ਺ͷܭࢉ͕େม ใुؔ਺ 𝑟 ͕ 1SFGFSFODFEBUBʹ߹க͢ΔΑ͏ɺํࡦ 𝜋 Λֶश͢Ε͹ 0,

    ͋Εɺ3-)'ʹ͓͚ΔใुϞσϧͷଛࣦؔ਺ͬͯɾɾɾ ճ౴ͷ 8JOOFSͱ -PTFSͷใुͷ͚ࠩͩ෼͔Ε͹Α͍ ଛࣦؔ਺ͷܭࢉ͔Β ͷ߲ΛফͤΔʢඒ͍͠ɾɾɾʣ
  12. 23 ڧԽֶश͸ऴΘͬͨͷ͔ʁ • %10͸ʮڧԽֶशͷ͔ͳΓಛघͳέʔεʯͱ౳Ձ • ใुϞσϧ͕ #SBEMFZ5FSSZϞσϧʹै͏ • ํࡦ͕ҎԼͷࣜͰ࠷దԽ͞ΕΔʢX,-μΠόʔδΣϯεʣ ظ଴ྦྷੵ͞Εͯͳ͍ใु

    ʢͲͪΒ͔ͱ͍͏ͱจ຺͖ͭόϯσΟοτʣ • 3-)'͕ͨ·ͨ·౎߹ͷྑ͍ಛघέʔεͩͬͨͱ΋ݴ͑Δ • ڧԽֶशશମ͕ऴΘͬͨΘ͚Ͱ͸ͳ͍ͱࢥ͍·͢ʢ3-)'͸΍͹͍͔΋ʁʣ
  13. 24 %10ͷ࣮༻ੑ • ஶ໊ͳ 044ʢ53- 0QFO3-)'ʣʹ΋ଓʑͱ࣮૷ • %10Λ༻͍ͯϑΝΠϯνϡʔχϯά͞ΕͨݴޠϞσϧ΋ଓʑͱެ։ • ݴޠϞσϧͷΈͳΒͣɺը૾ॲཧʹ΋೾ٴ

    4UBCMF--.;FQIZS# ʢ*NBHF4UBCJMJUZ"*ʣ 5 ̈ uMV W ʢ*NBHF"*ʣ Wallace +. "Diffusion Model Alignment Using Direct Preference Optimization." arXiv preprint arXiv:2311.12908 (2023). %JGGVTJPO%10 8BMMBDF 
  14. 26 ·ͱΊ • /FVS*14͸ຊ౰ʹྑֶ͍ձͰ͢ • ࿦จൃදͰ΋ௌߨͰ΋ࢀՃ͢ΔՁ஋͸ؒҧ͍ͳ͋͘Γ·͢ • ड৆࿦จͷҰͭͰ͋Δ %10Λ঺հ͠·ͨ͠ •

    ݩ࿦จΛಡΜͰΈ͍ͯͩ͘͞ɻษڧʹͳΔͱࢥ͍·͢ • ͜ͷࢿྉʹؔͯ͠ɺ࣭໰΍ؒҧ͍ͷࢦఠͳͲ͍͟͝·ͨ͠Β ϝʔϧʹͯ͝࿈བྷ͓ئ͍͠·͢ XBDIJBLJGVNJ <BU>HNBJMDPN
  15. 27 ิ଍ʢ̍ʣ ,-ͷఆٛ max{𝑋 − 𝛽𝑌} = min{Y − X/𝛽}ʢ𝛽

    > 0ʣ MPHͱ FYQͷؔ܎ log 𝑋 1/𝑍 − log 𝑍 = log 𝑋 =
  16. 28 ิ଍ʢ̎ʣ લϖʔδͷଓ͖ = ,-ͷఆٛ = 𝑍 ͸ 𝑥 ͷΈʹґଘ͢Δؔ਺

    ͳͷͰ min ! ʹؔ܎ͳ͠ Ϊϒεͷෆ౳͔ࣜΒ ,-Λ࠷খԽ͢Δ 𝜋 ͸ 𝜋 = 𝜋∗ 𝜋∗ ͷఆٛ