Slide 1

Slide 1 text

/FVS*14ࢀՃใࠂ %10࿦จղઆ "LJGVNJ8BDIJ࿨஍ ྎྑ /FVS*14࿦จಡΈձ ೥݄೔ ˞%10࿦จղઆ͸ϖʔδ͔Β 1

Slide 2

Slide 2 text

"LJGVNJ8BDIJʢ࿨஍ ྎྑʣ ܦྺ • r ɿ*#.౦ژجૅݚڀॴ 3FTFBSDI4DJFOUJTU • r ݱࡏɿ-*/&Ϡϑʔ $IJFG3FTFBSDI4DJFOUJTU ݚڀ෼໺ • ڧԽֶश ʴʢ"*4BGFUZ ࣗવݴޠॲཧʣ ஶॻʢڞஶʣ • ʰڧԽֶश͔Β৴པͷͰ͖Δҙࢥܾఆ΁ʱʢࠓिൃചʣ ࠾୒࿦จ • ओஶɿ"""* *+$"* *$.- /FVS*14 /FVS*14 """* • ڞஶɿ&./-1 "$- &./-1 $P/-- 2

Slide 3

Slide 3 text

/FVS*14Ͳ͏ͩͬͨʁ • ௒ָ͔ͬͨ͠ʂʂ • ػցֶशʹڵຯͷ͋ΔਓΈΜͳʹΦεεϝͰ͖Δ 3 ͓ࡇΓཁૉ ਅ໘໨ཁૉ

Slide 4

Slide 4 text

͓ࡇΓཁૉ اۀϒʔε • ࠓΛͱ͖Ί͘ #JH5FDI͕ϒʔεΛߏ͑Δ • ਓࡐ֫ಘɾब৬׆ಈͷ৔ • ϊϕϧςΟ͕΋Β͑ͯͪΐͬͽΓخ͍͠ 4 (PPHMF "QQMF .JDSPTPGU $PIFSF *#. .FUB

Slide 5

Slide 5 text

͓ࡇΓཁૉ ༗໊ਓ͕͍Δ • νϡʔϦϯά৆ड৆ऀͱ͔͕ී௨ʹձ৔Λา͍ͯΔ • ग़൛ࣾͷϒʔεͰαΠϯձͱ͔΍ͬͯΔ • ͔ͩΒͳΜͩͬͯ࿩Ͱ͸͋Δ͕ɺ΍ͬͺϞνϕ͸্͕Δ 5 5FTUPGUJNF"XBSE (SFH$PSSBEP BOE+FGGSFZ%FBO ,FWJO1.VSQIZͷαΠϯձ !.*51SFTTϒʔε ʢࢲ΋ങͬͪΌͬͨʣ

Slide 6

Slide 6 text

ਅ໘໨ཁૉ ট଴ߨԋ • ஶ໊ͳݚڀऀ໊ʹΑΔߨԋ • ಛʹ -PSB"SPZP ͷ l5IF.BOZ'BDFTPG3FTQPOTJCMF"*z͸ૉ੖Β͔ͬͨ͠ • (PPHMFʹ͓͚Δ 3FTQPOTJCMF"*ͷऔΓ૊Έʹؔ͢Δൃද Φʔϥϧηογϣϯ • ࠪಡͰߴ͍ධՁΛಘ্ͨҐͷ࿦จͷޱ಄ൃද • ͦͷޙϙελʔηογϣϯͰ΋ൃද͞ΕΔ ֶձʹࢀՃొ࿥ͨ͠ਓ͸ɺΦϯϥΠϯͰ΋ࢹௌͰ͖Δ 6

Slide 7

Slide 7 text

ਅ໘໨ཁૉ ϙελʔηογϣϯ ˡ ΦϑϥΠϯࢀՃͷ୉ޣຯ͸͜Ε ൃදऀଆ • աૄ͍ͬͯΔϙελʔ͸جຊతʹͳ͍ • ࣍ʑͱਓ͕དྷͯ೤৺ʹฉ͍ͯ͘ΕΔͷͰָ͍͠ ௌߨऀଆ • ීஈಡΜͰ͍Δ࿦จͷஶऀ͕ී௨ʹϙελʔൃදͯ͠Δ • ཪ࿩ɾͿͬͪΌ͚࿩ɾࠓޙͷల๬ͱ͔ฉ͚Δ • Ͳͷϙελʔ΋࣭͕ߴͯ҆͘৺ײ͕͋Δ • αοΧʔ৔͘Β͍ͷ޿͞ͷձ৔ʹϙελʔ໿ຕ º ϙελʔηογϣϯճ 7

Slide 8

Slide 8 text

5XP0VUTUBOEJOH.BJO5SBDL1BQFST • 1SJWBDZ"VEJUJOHXJUI0OF 5SBJOJOH3VO • "SF&NFSHFOU"CJMJUJFTPG-BSHF-BOHVBHF.PEFMTB.JSBHF 0VUTUBOEJOH.BJO5SBDL3VOOFS6QT • 4DBMJOH%BUB$POTUSBJOFE-BOHVBHF.PEFMT • %JSFDU1SFGFSFODF0QUJNJ[BUJPO:PVS-BOHVBHF.PEFMJT4FDSFUMZB3FXBSE.PEFM 0VUTUBOEJOH%BUBTFUTBOE#FODINBSLT1BQFST • $MJN4JN"MBSHFNVMUJTDBMFEBUBTFUGPSIZCSJEQIZTJDT.-DMJNBUFFNVMBUJPO • %FDPEJOH5SVTU"$PNQSFIFOTJWF"TTFTTNFOUPG5SVTUXPSUIJOFTTJO(15.PEFMT ड৆࿦จͷ͏ͪ൒෼͕େن໛ݴޠϞσϧ --. ؔ࿈ #FTU1BQFS"XBSE 8 ৄࡉɿIUUQTCMPHOFVSJQTDDBOOPVODJOHUIFOFVSJQTQBQFSBXBSET

Slide 9

Slide 9 text

ͦͷଞݸਓతͳײ૝ 9 ՚΍͔ͳͱ͜Ζ͸ج൫Ϟσϧʢ--.ͳͲʣͷ࿩͕΍͸Γଟ͍ • ট଴ߨԋɾड৆࿦จɾاۀϒʔεͳͲ Φʔϥϧɾϙελʔηογϣϯ͸௨ৗӦۀ • ࠓ·Ͱ௨Γͷػցֶशͷݚڀ͕ଟ࣮ͯ͘ՈͷΑ͏ͳ҆৺ײ • ʮࣗ෼΋--.΍ͬͨ΄͏͕ྑ͍ͷ͔ͳʔɻͰ΋ͳʔʯΈ͍ͨͳ೰Έ͸ଟ͘ͷਓ͕࣋ͬͯΔ ຊ౰ʹྑֶ͍ձͩͱײͨ͡ • ָ͗ͯ͢͠ே͔Β൩·Ͱֶձձ৔ʹ͍ͨ • ௅ઓ͢Δ͚ͩͷՁ஋͸ؒҧ͍ͳ͋͘Δͱࢥ͍·͢ʂʢདྷ೥͸όϯΫʔόʔ 🇨🇦ʣ

Slide 10

Slide 10 text

ຊ೔ಡΉ࿦จ • ड৆࿦จͷҰͭʢ0VUTUBOEJOH.BJO5SBDL3VOOFS6QTʣ • ΋ͷ͘͢͝Α͘ॻ͚͍ͯΔ࿦จɻ࿦จࣥචͷ͓खຊʹΦεεϝ • ࢖ΘΕ͍ͯΔ਺ֶͷςΫχοΫɾཧ࿦ͱ࣮ݧʹΑΔ෬ઢճऩͳͲ࠷ߴͷڭࡐ 10

Slide 11

Slide 11 text

11 എܠɿݴޠϞσϧͷΞϥΠϝϯτ 3-)' • ݴޠϞσϧͷΞϥΠϝϯτͱ͸ʁ • ݴޠϞσϧΛਓؒͷझ޲ʹ߹க͢ΔΑ͏ʹϑΝΠϯνϡʔχϯά͢Δ͜ͱ • 3-)' 3FJOGPSDFNFOU-FBSOJOHGSPN)VNBO'FFECBDL <> ͕Α͘༻͍ΒΕΔ 0VZBOH 5SBJOJOHMBOHVBHFNPEFMTUPGPMMPXJOTUSVDUJPOTXJUIIVNBOGFFECBDL *O/FVS*14

Slide 12

Slide 12 text

12 3-)'ͷύΠϓϥΠϯ ˢ ڭࢣ͋Γֶश ʢ4'5ʣ ˢ 1SFGFSFODFEBUB ͰใुϞσϧΛֶश ˢ ֶशͨ͠ใुϞσϧ Λ༻͍ͯڧԽֶश *NBHFUBLFOGSPN0VZBOH 1SFGFSFODFEBUBճ౴ͷ࣭Λਓ͕ؒൺֱɾϥϯΩϯάͨ͠σʔλͷ͜ͱ 4UFQ 4UFQ 4UFQ

Slide 13

Slide 13 text

13 3-)'ʢใुϞσϧͷֶशʣ ≻ ճ౴" 8JOOFS ճ౴# -PTFS ใुϞσϧΛֶश ʢճ౴ͷྑ͞Λ࣮਺Ͱฦ͢ʣ ڧԽֶशʢ110ʣ 1SFGFSFODFEBUB ͸ #SBEMFZ5FSSZϞσϧʹै͏ͱ͢Δ ϓϩϯϓτ 8JOOFS -PTFS ใुϞσϧ͸ೋ஋෼ྨͷଛࣦؔ਺Λ༻͍ͯ࠷దԽ ˢ ϩδεςΟοΫؔ਺

Slide 14

Slide 14 text

14 3-)'ʢڧԽֶशϑΣʔζʣ ֶशͨ͠ใुϞσϧΛ༻͍ͯڧԽֶश ਓ͕ؒ޷Έͦ͏ͳճ౴ Λํࡦʹग़ྗ͍ͤͨ͞ ڧԽֶशʮલʯͷํࡦ ͱဃ཭͞ΕΔͱࠔΔ σʔλ͕ີ ใुϞσϧ͕ਖ਼֬ σʔλ͕ૄ ใु͕աେʹධՁ ͞Ε͍ͯΔՄೳੑ͕͋Δ ≻ ճ౴" 8JOOFS ճ౴# -PTFS ใुϞσϧΛֶश ʢճ౴ͷྑ͞Λ࣮਺Ͱฦ͢ʣ ڧԽֶशʢ110ʣ ͋Δఔ౓ ͔͍ۙͮͤͨ

Slide 15

Slide 15 text

15 3-)'͸ෳࡶɾෆ҆ఆ *NBHFUBLFOGSPN;IFOH ;IFOH 4FDSFUTPG3-)'JOMBSHFMBOHVBHFNPEFMTQBSU*110 BS9JW QSFQSJOUBS9JW ʮ͋ͱ͸ 110ͰڧԽֶश͢Δ͚ͩʯͱ͸ݴ͏΋ͷͷɾɾɾ

Slide 16

Slide 16 text

• 3-)'ͷʮใुϞσϧͷֶशʯʴʮڧԽֶशʯΛ؆ུԽ͢Δ࠷దԽ໰୊ΛఏҊ • %10%JSFDU1SFGFSFODF0QUJNJ[BUJPO • ͳΜ͔ۙࣅͰ΋ͨ͠ΜͰ͔͢ʁ ˠ ͍͍͑ɺ਺ֶతʹ౳ՁͰ͢ 16 %10 = ౳Ձ ใुϞσϧͷֶशʢ4UFQʣڧԽֶशʢ4UFQʣ ͬͪ͜ͷ΄͏͕ղ͖΍͍͢ *NBHFUBLFOGSPN3BGBJMPW 3BGBJMPW %JSFDU1SFGFSFODF0QUJNJ[BUJPO:PVS-BOHVBHF.PEFMJT4FDSFUMZB3FXBSE.PEFM *O/FVS*14

Slide 17

Slide 17 text

17 %10ͷཧ࿦ʢ̍ʣ 3-)'ʹ͓͚Δํࡦ࠷దԽ໰୊ ͜ͷ໰୊ͷ࠷దղ͕ղੳతʹಘΒΕΔ ʢ ਖ਼نԽͷͨΊͷ෼഑ؔ਺ʣ ใुؔ਺ 𝒓 ͕ܾ·Δ ˠ DMPTFEGPSNͷ࠷దղ͕ಘΒΕΔ ಋग़ʹ͍ͭͯ͸ɺ࠷ޙϖʔδʹ ิ଍εϥΠυ͕͋Γ·͢

Slide 18

Slide 18 text

18 %10ͷཧ࿦ʢ̎ʣ FYQͱ MPHͷؔ܎ • ೚ҙͷํࡦ 𝝅 ʹରͯ͠ɺ্ͷࣜΛຬͨ͢Α͏ͳใु 𝒓 ͕ଘࡏ͢Δ • ࠷దํࡦ 𝝅∗ ͱਅͷใुؔ਺ 𝒓∗ ͷରԠؔ܎਺ֶతʹهड़Ͱ͖Δ ΋͏গࣜ͠มܗ͢Δͱɾɾɾ

Slide 19

Slide 19 text

19 λΠτϧʹ΋෬ઢ͕ɾɾɾ • ํࡦ -. 𝝅 ͱใु 𝒓 ͕ʮදͱཪͷؔ܎ʯʹͳ͍ͬͯΔʂʂ Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Slide 20

Slide 20 text

20 %10ͷཧ࿦ʢ̏ʣ ͜ͷ෼഑ؔ਺ͷܭࢉ͕େม ใुؔ਺ 𝑟 ͕ 1SFGFSFODFEBUBʹ߹க͢ΔΑ͏ɺํࡦ 𝜋 Λֶश͢Ε͹ 0, ੜ੒͞Ε͏Δ͋ΒΏΔճ౴ʹؔ͢ΔЄ

Slide 21

Slide 21 text

21 %10ͷཧ࿦ʢ̏ʣ ͜ͷ෼഑ؔ਺ͷܭࢉ͕େม ใुؔ਺ 𝑟 ͕ 1SFGFSFODFEBUBʹ߹க͢ΔΑ͏ɺํࡦ 𝜋 Λֶश͢Ε͹ 0, ͋Εɺ3-)'ʹ͓͚ΔใुϞσϧͷଛࣦؔ਺ͬͯɾɾɾ ճ౴ͷ 8JOOFSͱ -PTFSͷใुͷ͚ࠩͩ෼͔Ε͹Α͍ ଛࣦؔ਺ͷܭࢉ͔Β ͷ߲ΛফͤΔʢඒ͍͠ɾɾɾʣ

Slide 22

Slide 22 text

22 %10ͷཧ࿦ʢ̐ʣ 3-)' ใुϞσϧͷֶश ڧԽֶश %10 ౳Ձʢۙࣅ΍௥ՃͷԾఆͳ͠ʣ ใुؔ਺͕ #SBEMFZ5FSSZϞσϧ ʹै͏ɺͱ͍͏Ծఆ͸ 3-)'ͷஈ֊͔Β ˣ

Slide 23

Slide 23 text

23 ڧԽֶश͸ऴΘͬͨͷ͔ʁ • %10͸ʮڧԽֶशͷ͔ͳΓಛघͳέʔεʯͱ౳Ձ • ใुϞσϧ͕ #SBEMFZ5FSSZϞσϧʹै͏ • ํࡦ͕ҎԼͷࣜͰ࠷దԽ͞ΕΔʢX,-μΠόʔδΣϯεʣ ظ଴ྦྷੵ͞Εͯͳ͍ใु ʢͲͪΒ͔ͱ͍͏ͱจ຺͖ͭόϯσΟοτʣ • 3-)'͕ͨ·ͨ·౎߹ͷྑ͍ಛघέʔεͩͬͨͱ΋ݴ͑Δ • ڧԽֶशશମ͕ऴΘͬͨΘ͚Ͱ͸ͳ͍ͱࢥ͍·͢ʢ3-)'͸΍͹͍͔΋ʁʣ

Slide 24

Slide 24 text

24 %10ͷ࣮༻ੑ • ஶ໊ͳ 044ʢ53- 0QFO3-)'ʣʹ΋ଓʑͱ࣮૷ • %10Λ༻͍ͯϑΝΠϯνϡʔχϯά͞ΕͨݴޠϞσϧ΋ଓʑͱެ։ • ݴޠϞσϧͷΈͳΒͣɺը૾ॲཧʹ΋೾ٴ 4UBCMF--.;FQIZS# ʢ*NBHF4UBCJMJUZ"*ʣ 5 ̈ uMV W ʢ*NBHF"*ʣ Wallace +. "Diffusion Model Alignment Using Direct Preference Optimization." arXiv preprint arXiv:2311.12908 (2023). %JGGVTJPO%10 8BMMBDF

Slide 25

Slide 25 text

25 %10ͷཪ࿩ ϙελʔηογϣϯͰஶऀʹฉ͍ͨ ͲͷΑ͏ʹ %10Λࢥ͍͍ͭͨͷ͔ʁ • 3-)'Λ࠶ݱ͠Α͏ͱͯ͠શવ্ख͍͔͘ͳ͍ɻ࠷ॳ͸ۙࣅͱ͔ͯ͠ ΋ͬͱγϯϓϧͳํ๏Λ࡞Ζ͏ͱࢥ͍ͬͯͨ • ͦͨ͠Βಉ͡ʹͳͬͯͼͬ͘Γͨ͠ %10஀ੜ͢Δͷૣ͘Ͷʁ • τʔλϧͰ਺ϲ݄ɻ3-)'ͱ %10ͷ౳Ձੑʹؾ͍͔ͮͯΒ͸ര଎ • /FVS*14ʹؒʹ߹ΘͤΔͨΊʹؤுͬͨ

Slide 26

Slide 26 text

26 ·ͱΊ • /FVS*14͸ຊ౰ʹྑֶ͍ձͰ͢ • ࿦จൃදͰ΋ௌߨͰ΋ࢀՃ͢ΔՁ஋͸ؒҧ͍ͳ͋͘Γ·͢ • ड৆࿦จͷҰͭͰ͋Δ %10Λ঺հ͠·ͨ͠ • ݩ࿦จΛಡΜͰΈ͍ͯͩ͘͞ɻษڧʹͳΔͱࢥ͍·͢ • ͜ͷࢿྉʹؔͯ͠ɺ࣭໰΍ؒҧ͍ͷࢦఠͳͲ͍͟͝·ͨ͠Β ϝʔϧʹͯ͝࿈བྷ͓ئ͍͠·͢ XBDIJBLJGVNJ HNBJMDPN

Slide 27

Slide 27 text

27 ิ଍ʢ̍ʣ ,-ͷఆٛ max{𝑋 − 𝛽𝑌} = min{Y − X/𝛽}ʢ𝛽 > 0ʣ MPHͱ FYQͷؔ܎ log 𝑋 1/𝑍 − log 𝑍 = log 𝑋 =

Slide 28

Slide 28 text

28 ิ଍ʢ̎ʣ લϖʔδͷଓ͖ = ,-ͷఆٛ = 𝑍 ͸ 𝑥 ͷΈʹґଘ͢Δؔ਺ ͳͷͰ min ! ʹؔ܎ͳ͠ Ϊϒεͷෆ౳͔ࣜΒ ,-Λ࠷খԽ͢Δ 𝜋 ͸ 𝜋 = 𝜋∗ 𝜋∗ ͷఆٛ