[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ

ਂ૚ج൫ϞσϧͷͨΊͷڧԽֶश ڻ͖͔Βཧ࿦ʹ΋ͱͮ͘ೲಘ΁ "LJGVNJ8BDIJ࿨஍ ྎྑ *#*4νϡʔτϦΞϧ!ԭೄ ೥݄೔ 1

"LJGVNJ8BDIJʢ࿨஍ ྎྑʣ ܦྺ • r ɿ*#.౦ژجૅݚڀॴ 3FTFBSDI4DJFOUJTU • r ݱࡏɿ-*/&Ϡϑʔ
4FOJPS$IJFG3FTFBSDI4DJFOUJTU ݚڀ෼໺ • ڧԽֶश ºʢ"*4BGFUZ ࣗવݴޠॲཧʣ ஶॻʢڞஶʣ • ʰڧԽֶश͔Β৴པͰ͖Δҙࢥܾఆ΁ʱ • ֿ໺͞Μɿ *#*4νϡʔτϦΞϧ • ڪਆ͞Μɿ *#*4اըηογϣϯߨԋ • ٶޱ͞Μɿ *#*4νϡʔτϦΞϧ

ຊνϡʔτϦΞϧͷ໨త • ਂ૚ج൫ϞσϧʢFH େن໛ݴޠϞσϧɾ֦ࢄϞσϧʣ ʹର͢ΔڧԽֶशԠ༻ʹؔ͢Δجૅ஌ࣝΛఏڙ͠·͢ • ଓʑͱ৽͍͠ख๏ɾ࿦จɾϞσϧ͕ొ৔͢ΔࡢࠓͰ͕͢ɺ ڻ͍ͯ͹͔Γ͍·ͤΜ͔ʁ • ৆ຯظݶͷ௕͍ɺݎ࣮ͳݚڀ੒ՌͷΈऔΓѻ͍·͢
• ՚΍͔ͳɾ࠷ઌ୺ͷݚڀ੒ՌΛ঺հ͢Δ͜ͱΛ໨తͱ͠·ͤΜ • ಛఆͷ࣮ݧઃఆʢݴޠϞσϧɾσʔληοτͳͲʣͰͷΈ ݟΒΕΔڍಈ΋ଟ͍ͷͰɺ͢΂ͯΛਅʹड͚Δͷ͸ةݥ • ࢲͷൃදΛࡘʹ 4MBDLͰ੝Γ্͕͍͚ͬͯͨͩΔͱ޾͍Ͱ͢

໨࣍ ਂ૚ج൫ϞσϧΛڧԽֶशͷ࿮૊ΈͰଊ͑Δ ਂ૚ج൫ϞσϧºڧԽֶशͷओཁղ๏ ςετ࣌ਪ࿦ͱڧԽֶशͷؔ࿈ੑ ࠓޙͷ՝୊ͱల๬

ڧԽֶशͱ͸ʁ Reinforcement learning is a computational approach to understanding and
automating goal-directed learning and decision making. – Sutton & Barto (1998) Reinforcement learning is the problem faced by an agent that must learn behavior through trial-and-error interactions with a dynamic environment. – Kaelbling+ (1996) 強化学習とは、逐次的意思決定を取り扱うための数理的枠組みである。 ‒ 梶野+ (2024) <>4VUUPO#BSUP 3FJOGPSDFNFOUMFBSOJOH"OJOUSPEVDUJPO$BNCSJEHF.*5QSFTT <>,BFMCMJOH 3FJOGPSDFNFOUMFBSOJOH"TVSWFZ +PVSOBMPGBSUJGJDJBMJOUFMMJHFODFSFTFBSDI <>ֿ໺ ڧԽֶश͔Β৴པͰ͖Δҙࢥܾఆ΁ αΠΤϯεࣾ

ڧԽֶशͱ͸ʁ 強化学習とは、⽬的思考型の学習や意思決定を理解し⾃動化するための計算論的アプローチである。 – Sutton & Barto (1998) 強化学習とは、動的な環境との試⾏錯誤的な相互作⽤を通じて⾏動を学習しなければならないエージェントが直⾯する問題である。
– Kaelbling+ (1996) <>4VUUPO#BSUP 3FJOGPSDFNFOUMFBSOJOH"OJOUSPEVDUJPO$BNCSJEHF.*5QSFTT <>,BFMCMJOH 3FJOGPSDFNFOUMFBSOJOH"TVSWFZ +PVSOBMPGBSUJGJDJBMJOUFMMJHFODFSFTFBSDI <>ֿ໺ ڧԽֶश͔Β৴པͰ͖Δҙࢥܾఆ΁ αΠΤϯεࣾ 強化学習とは、逐次的意思決定を取り扱うための数理的枠組みである。 ‒ 梶野+ (2024)

ڧԽֶश 㱠 ΞϧΰϦζϜͷू߹ ڧԽֶशͱ͸ɾɾɾ ຊདྷෳࡶͳҙࢥܾఆ໰୊Λɺ ਺ཧతʹରॲՄೳͳ໰୊ͱͯ͠औΓѻ͏࿮૊Έ ࢲࣗ਎͸ɺ෺ཧֶͱྨࣅੑΛײ͍ͯ͡Δ ࣗવքͷෳࡶͳݱ৅ →
਺ࣜͱ͍͏ʮ͜ͱ͹ʯͰهड़ → ղੳతɾ਺஋తʹղ͘ © Ansys

ʮڧԽֶशΛ࢖͏ʯͱ͸ʁ ڧԽֶशతͳݟํͰ ໰୊Λଊ͑Δ ڧԽֶशతͳํ๏Ͱ ͦͷ໰୊Λղ͘

ʮڧԽֶशΛ࢖͏ʯͱ͸ʁ ڧԽֶशతͳݟํͰ ໰୊Λଊ͑Δ ڧԽֶशతͳํ๏Ͱ ͦͷ໰୊Λղ͘ ͪ͜Β͕࿩୊ʹ ͳΔ͜ͱ͕ଟ͍ ·ͣͬͪ͜Λ ཧղ͢΂͖

ڧԽֶशͷ࿮૊ΈͰ໰୊Λଊ͑Δ ڧԽֶशͷຊ࣭ͱ͸ʁ ˠ ઐ໳ՈͷؒͰ΋ҙݟ͕࣮͸ׂΕ͍ͯΔ 4MBDLͰΞϯέʔτऔΒ͍ͤͯͩ͘͞ ใुؔ਺ ஗Ԇใु
୳ࡧͱ׆༻ ঢ়ଶભҠ ͦͷଞʢฦ৴ཝ΁ʣ

ڧԽֶशͷ࿮૊ΈͰ໰୊Λଊ͑Δ ࠓճͷൃදʹݶͬͯݴ͑͹ ڧԽֶशͷຊ࣭ ใु SFXBSE ਂ૚ج൫Ϟσϧ ೖྗ ग़ྗ ڧԽֶशʹ͓͚Δํࡦ
• զʑͷ໨త ೖྗͱग़ྗͷϖΞΛʮྑ͍΋ͷʯʹ͢Δ͜ͱ • ใु ʮྑ͞ʯΛ਺஋Ͱදͨ͠΋ͷ

ڧԽֶश͕༻͍ΒΕΔϨδʔϜ ࣄલֶश ࣄޙֶश ςετ࣌ ਪ࿦ ڧԽֶशͷ࿮૊Έ͕༻͍ΒΕΔ • ࣄલֶशʹڧԽֶशΛద༻͢Δݚڀ΋ଘࡏ͢Δ͕ɺ શ͘ҰൠతͰ͸ͳ͍ͷͰຊߨԋͰ͸ׂѪ
• %POH 3FJOGPSDFNFOU1SF5SBJOJOH BS9JW QSFQSJOUBS9JW • )BUBNJ[BEFI 3-13FJOGPSDFNFOUBTB1SFUSBJOJOH0CKFDUJWF BS9JW QSFQSJOU BS9JW

ڧԽֶश͕༻͍ΒΕΔֶशϨδʔϜ ࣄલֶशࡁΈͷ ਂ૚ج൫Ϟσϧ 8FC্ͷςΩετɾ ը૾σʔλΛ༻͍ͨ ࣗݾڭࢣ͋Γֶश ʮֶशͷ໨తʯ ݴޠ΍ը૾ͷ൚༻తͳ දݱೳྗͷ֫ಘ
㱠 ೖྗͱग़ྗͷϖΞΛྑ͘͢Δ͜ͱ

ڧԽֶश͕༻͍ΒΕΔֶशϨδʔϜ ࣄલֶशࡁΈͷ ਂ૚ج൫Ϟσϧ ΑΓྑ͍ ਂ૚ج൫Ϟσϧ ڧԽֶश ʮֶशͷ໨తʯ ೖྗͱग़ྗͷϖΞΛྑ͘͢Δ͜ͱ •
ਪ࿦ೳྗͷ޲্ • ਓؒͷՁ஋؍ʹΞϥΠϝϯτ ஫ҙɿڧԽֶशͷલʹ 4VQFSWJTFE'JOFUVOJOH 4'5 Λࢪ͢͜ͱ΋ଟ͍ ʮֶशͷ໨తʯ ݴޠ΍ը૾ͷ൚༻తͳ දݱೳྗͷ֫ಘ

ڧԽֶश͕༻͍ΒΕΔֶशϨδʔϜ ΑΓྑ͍ ਂ૚ج൫Ϟσϧ ࣄલֶशࡁΈͷ ਂ૚ج൫Ϟσϧ ࣄલֶशϞσϧ ͸ɺਅͷใुؔ਺ ʹؔͯ͠ੑೳෆे෼ ˠ
ࣄલֶशϞσϧΛར༻ͭͭ͠ɺੑೳΛ޲্ͤͨ͞ ͕ཉ͍͠ ڧԽֶश

ਂ૚ج൫Ϟσϧʹ͓͚ΔڧԽֶश໰୊ 3FWFSTF,-μΠόʔδΣϯε෇͖ͷใु࠷େԽ ਅͷใु͕େ͖͘ͳΔ Α͏ͳํࡦ͕ཉ͍͠ ڧԽֶशલͷํࡦͱ ဃ཭͞ΕΔͱࠔΔ • Α͘༻͍ΒΕΔ ཧղ͠΍͍͢
3FWFSTF,-ΛຊߨԋͰ͸࠾༻ • ਖ਼ଇԽʹଞͷ 𝑓EJWFSHFODFΛ༻͍Δ͜ͱ΋Մೳʢ8BOH ʣ 8BOH #FZPOE3FWFSTF,-(FOFSBMJ[JOH%JSFDU1SFGFSFODF0QUJNJ[BUJPOXJUI%JWFSTF%JWFSHFODF$POTUSBJOUTz *O*$-3

ͳͥਖ਼ଇԽ͕ඞཁͳͷ͔ʁ ,-ਖ਼ଇԽ͕ऑ͗͢Δʢ ͕খ͗͢͞Δʣˠ ੜ੒่͕յ Q: Have you ever dropped
food on the floor accidentally and then picked it up to eat it? A: I have done this before… Это явно не рекомендуется, потому что Food на floor может содержать бактерии, которые нежелательны для потребления. ࢲࣗ਎͕ૺ۰࣮ͨ͠ྫɿଞͷݴޠΛ࿩࢝͠ΊΔ ͦͷଞʹ΋ɺಉ͡ݴ༿ͷ܁Γฦ͠ɺҙຯͷͳ͍จࣈྻͷग़ྗͳͲ

࠷దղ͕࣮͸෼͔͍ͬͯΔ ղੳతʹղ͚Δ • ಋग़͕ؾʹͳΔํ͸ɺ"QQFOEJYࢀর • FYQ͕ొ৔͢Δͷ͸ɺ3FWFSTF,-Λ༻͍͍ͯΔ͔Β • ଞͷμΠόʔδΣϯεΛ༻͍Ε͹ผͷดܗ͕ࣜొ৔ 8BOH
Wang+. "Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints." In ICLR (2024).

࠷దղΛຯΘ͍·͠ΐ͏ • ใुͷେ͖͍ (𝑥, 𝑦) ʹରͯ͠ੜ੒֬཰Λେ͖͘͢Δ

࠷దղΛຯΘ͍·͠ΐ͏ • ใुͷେ͖͍ (𝑥, 𝑦) ʹରͯ͠ੜ੒֬཰Λେ͖͘͢Δ • ෼഑ؔ਺ʹΑͬͯਖ਼نԽ

͜ͷ࠷దղɺೲಘײ͋Δʁ ʢ্ͷ۟ʣ͋͠ͼ͖ͷ ࢁௗͷඌͷ ͩ͠Γඌͷ ʢԼͷ۟ʣ௕ʑ͠໷Λ ͻͱΓ͔΋৸Ή ʢԼͷ۟ʣ෋࢜ͷߴྮʹ ઇ͸߱Γͭͭ ͱ͢Δͱɺ
ˠ ใु ˠ ใु ͳͷͰɺ ͔ͭ

ҙݟू໿ͱͯ͠ͷղऍ ͜ͷղͷܗঢ়͸ -PHBSJUINJD0QJOJPO1PPMJOHͷݹͷݚڀͰ΋ొ৔ ࣄલֶशϞσϧ ใुϞσϧ ॏΈ Ͱҙݟू໿ • (FOFTU
"HHSFHBUJOHPQJOJPOTUISPVHIMPHBSJUINJDQPPMJOH5IFPSZBOEEFDJTJPO • )FTLFT 4FMFDUJOHXFJHIUJOHGBDUPSTJOMPHBSJUINJDPQJOJPOQPPMT *O/FVS*14

ҙݟू໿ͱͯ͠ͷղऍ ͜ͷղͷܗঢ়͸ -PHBSJUINJD0QJOJPO1PPMJOHͷݹͷݚڀͰ΋ొ৔ • (FOFTU "HHSFHBUJOHPQJOJPOTUISPVHIMPHBSJUINJDQPPMJOH5IFPSZBOEEFDJTJPO •
)FTLFT 4FMFDUJOHXFJHIUJOHGBDUPSTJOMPHBSJUINJDPQJOJPOQPPMT *O/FVS*14 ࣄલֶशϞσϧ ใुϞσϧ ॏΈ Ͱҙݟू໿ ͜͏͍͏ͷ͕ʮࣗવͩʯ ͱΈͳ͞Ε͍ͯ·͢ʂ

ҙݟू໿ͱͯ͠ͷղऍ ͜ͷղͷܗঢ়͸ -PHBSJUINJD0QJOJPO1PPMJOHͷݹͷݚڀͰ΋ొ৔ • (FOFTU "HHSFHBUJOHPQJOJPOTUISPVHIMPHBSJUINJDQPPMJOH5IFPSZBOEEFDJTJPO •
)FTLFT 4FMFDUJOHXFJHIUJOHGBDUPSTJOMPHBSJUINJDPQJOJPOQPPMT *O/FVS*14 ࣄલֶशϞσϧ ใुϞσϧ ͜͏͍͏ͷ͕ʮྑ͍ʯͱ ใुؔ਺Ͱఆٛ͞Ε͍ͯ·͢ʂ ॏΈ Ͱҙݟू໿ ͜͏͍͏ͷ͕ʮࣗવͩʯ ͱΈͳ͞Ε͍ͯ·͢ʂ

·ͱΊɿڧԽֶशͷ࿮૊ΈͰఆࣜԽ͢Δ • ਂ૚ج൫ϞσϧͷͨΊʹڧԽֶशΛ࢖͏ 㲈 ใुʹ΋ͱ͍ͮͯೖग़ྗͷϖΞΛʮྑ͍΋ͷʯʹ͢Δ • ਖ਼ଇԽ෇͖ͷใु࠷େԽʹΑͬͯఆࣜԽ͞ΕΔ͜ͱ͕ଟ͍ • 3FWFSTF,-Λ༻͍ͨ৔߹ʹ͸ɺ࠷దղ͸ҎԼͷΑ͏ʹॻ͚Δ
ʮڧԽֶशΛ࢖͏ʯͱܾ৺ͨ͠ஈ֊Ͱɺ҉໧ͷ͏ͪʹ ʮˢͷΑ͏ͳܗͷਂ૚ج൫ϞσϧΛ໨ࢦ͠·͢ʂʯͱએݴ͍ͯ͠Δ

ڧԽֶश͕ͳͥ׆༂࢝͠Ίͨʁ ڧԽֶशଆͷϒϨΠΫεϧʔ͕͋ͬͨʁ 4DIVMNBO 1SPYJNBMQPMJDZPQUJNJ[BUJPOBMHPSJUINT BS9JW QSFQSJOUBS9JW ͷग़དྷ͕ѱ͍ͱͲ͏͠Α͏΋ͳ͍
ݸਓతͳݟղɿࣄલֶशʢ Ћʣͷஈ֊Ͱྑ͍ --.͕Ͱ͖͔ͨΒ Α͘࢖ΘΕ͍ͯΔΞϧΰϦζϜͷҰͭ͸ 110 • 4DIVMNBO ʹΑͬͯ ೥ʹൃද͞Εͨ΋ͷ ˠ /0 ༨ஊɿόχελʔޮՌ΋͋Δͱࢥ͏ɻN૸ඵ୆ଓग़ͩ͋͢͠Ε

ঢ়ଶભҠͷऔΓѻ͍ํ • ͜Ε·ͰͷߨԋͰ͸ɺ෼͔Γ΍͢͞༏ઌͰ จ຺෇͖όϯσΟοτͱݺ͹ΕΔઃఆͰઆ໌͍ͯͨ͠ • จ຺෇͖όϯσΟοτ ڧԽֶशͷಛघέʔε • ೥·Ͱ͸͜ͷઃఆ͚ͩ෼͔͍ͬͯΕ͹ྑ͔ͬͨͷ͕ͩɺ
ࠓͱͳͬͯ͸ෆे෼ͳͷͰଞͷઃఆ΋঺հ͢Δ ਂ૚ج൫Ϟσϧ ೖྗ ग़ྗ ڧԽֶशʹ͓͚Δํࡦ

ঢ়ଶભҠͷऔΓѻ͍ํ • lҰൠͷzڧԽֶश໰୊Ͱ΋ͬͱ΋Α͘༻͍ΒΕΔఆࣜԽ ˠ Ϛϧίϑܾఆաఔ .BSLPW%FDJTJPO1SPDFTT .%1 ࣍ঢ়ଶ ใु
ํࡦ ߦಈ ݱঢ়ଶ ෳ਺ϧʔϓ

จ຺෇͖όϯσΟοτ • ঢ়ଶ ͕༩͑ΒΕΔ ˠ ߦಈΛҰճ͚ܾͩఆ ˠ ใु͕༩͑ΒΕΔ •
ʮঢ়ଶભҠʯͱ͍͏֓೦͕ͳ͍ • ʮঢ়ଶʯͰ͸ͳ͘ʮจ຺ʯͱ͍͏༻ޠΛ༻͍Δ ࣍ঢ়ଶ ใु ํࡦ ߦಈ ݱঢ়ଶ Ұճ͚ͩ

.%1Xܾఆతͳঢ়ଶભҠ • จ຺෇͖όϯσΟοτΑΓҰஈ֊ෳࡶͳఆࣜԽ • ݴޠϞσϧͷੜ੒͸ɺܾఆతͳભҠΛ΋ͭ .%1ͱ΋ΈͳͤΔ • ߦಈ ࣍τʔΫϯ
• ࣍ঢ়ଶ ঢ়ଶͱߦಈͷ࿈݁ʢܾఆతʣ [“I”, “love”, “ramen”, “and”, “gyoza”, “!”]

.%1Xܾఆతͳঢ়ଶભҠ [“I”, “love”, “ramen”, “and”, “gyoza”, “!”] • จ຺෇͖όϯσΟοτΑΓҰஈ֊ෳࡶ
• ݴޠϞσϧͷੜ੒͸ɺܾఆతͳભҠΛ΋ͭ .%1ͱ΋ΈͳͤΔ • ߦಈ ࣍τʔΫϯ • ࣍ঢ়ଶ ঢ়ଶͱߦಈͷ࿈݁

.%1Xܾఆతͳঢ়ଶભҠ • จ຺෇͖όϯσΟοτΑΓҰஈ֊ෳࡶ • ݴޠϞσϧͷੜ੒͸ɺܾఆతͳભҠΛ΋ͭ .%1ͱ΋ΈͳͤΔ • ߦಈ ࣍τʔΫϯ
• ࣍ঢ়ଶ ঢ়ଶͱߦಈͷ࿈݁ ใु ํࡦ ߦಈ ݱঢ়ଶ ෳ਺ϧʔϓ ࣍ঢ়ଶ

.%1X֬཰తͳঢ়ଶભҠ • ۙ೥͸ɺ֬཰తͳભҠΛ΋ͭ .%1ͰϞσϧԽ͢Δέʔε΋૿Ճ • ྫ ֦ࢄϞσϧɿϊΠζ͕ଘࡏ͢ΔͨΊɺঢ়ଶભҠ΋֬཰త • ྫ
ର࿩ΤʔδΣϯτɿ૬ख͕ͲͷΑ͏ͳฦ౴Λͯ͘͠Δ͔֬཰త • ஫ʣର࿩Λ .%1ͰఆࣜԽ͢ΔࢼΈ͸೥୅ʹ΋ଘࡏ ࣍ঢ়ଶ ใु ํࡦ ߦಈ ݱঢ়ଶ ෳ਺ϧʔϓ

5PLFOMFWFM.%1ͷ৔߹ͷ࠷దղ • จ຺෇͖όϯσΟοτ ˠ 5PLFOMFWFM.%1΁ͷ֦ு΋Մೳ • ɿ ͔Βελʔτͯ͠࠷దํࡦ͕ಘΒΕΔকདྷใुͷ࿨ Rafailov+.
“From r to Q* Your Language Model is Secretly a Q-Function.” In COLM. 2024

࠷దղΛ֫ಘ͢Δͷ͸೉͍͠ɾɾɾ 3FWFSTF,-ਖ਼ଇԽ෇͖ͷڧԽֶशͷ࠷దղ͸ ೲಘײ͋ΔͷͰ͸ͳ͍Ͱ͠ΐ͏͔ʁ ҰํͰɺ࠷దղΛ࣮ࡍʹ֫ಘ͢Δ͜ͱ͸ࠔ೉ ཧ༝ᶃ ਅͷใुؔ਺ ͕෼͔Βͳ͍͔Β ཧ༝ᶄ ঢ়ଶۭ͕ؒେ͖͍͔Β
ˠ ෼഑ؔ਺ ͷܭࢉ͕ࠔ೉͔ͩΒ ڧԽֶशݚڀͷݤɿ͍͔ʹͯ͠ΑΓྑ͍ۙࣅղΛ֫ಘ͢Δ͔ʁ

ใुΛͲͷΑ͏ʹϞσϧԽ͢Δ͔ʁ ओ؍తͳʮྑ͞ʯ ٬؍తͳʮྑ͞ʯ ਓؒͷϑΟʔυόοΫ ʹΑΔใु ݕূՄೳͳใु ϓϩηεใु "*ʹΑΔϑΟʔυόοΫ ࣗಈධՁई౓
• େ൒ͷέʔεͰ্ͷਤ͸తΛࣹ͍ͯΔ͕ɺ࣮ࡍʹ͸ڥք͕ᐆດ • ੺ͷ༻్Ͱ஀ੜͨ͠ख๏͕ɺ੨ͷ༻్Ͱ࢖ΘΕΔͳͲ

ਓؒͷϑΟʔυόοΫʹΑΔڧԽֶश • 3-)'3FJOGPSDFNFOU-FBSOJOHGSPN)VNBO'FFECBDL • ຊདྷ͸ʮਓؒͷϑΟʔυόοΫͰڧԽֶशΛ͓͜ͳ͏ʯͱ͍͏ ࣈٛ௨Γͷҙຯͩͬͨʢ$ISJTUJBOP "SVNVHBO ʣ •
$IBU(15͕িܸత͗ͯ͢ɺڱٛͷ 3-)'͕৐ͬऔͬͨ • ຊߨԋͰ΋ɺ0QFO"*͕ $IBU(15ొ৔࣌ʹ༻͍͍ͯͨͱ͞ΕΔ ڱٛͷ 3-)'ΛऔΓѻ͏ • $ISJTUJBOP %FFQSFJOGPSDFNFOUMFBSOJOHGSPNIVNBOQSFGFSFODFT*O/FVS*14 • "SVNVHBN %FFQSFJOGPSDFNFOUMFBSOJOHGSPNQPMJDZEFQFOEFOUIVNBOGFFECBDL BS9JW QSFQSJOU BS9JW

3-)'ͷओ໨త 3-)' • 3-)'ͷओ໨త ΞϥΠϝϯτʢ"MJHONFOUʣ • "*ͷ໨ඪɾৼΔ෣͍ɾӨڹ͕ɺਓؒͷҙਤɾՁ஋ɾنൣ ʹԊ͏Α͏ʹઃܭɾӡ༻͢Δ͜ͱ •
0QFO"*͕ఏҊͨ͠ 3-)'ͷͨΊͷύΠϓϥΠϯ͕ྲྀߦ 0VZBOH 0VZBOH 5SBJOJOHMBOHVBHFNPEFMTUPGPMMPXJOTUSVDUJPOTXJUIIVNBOGFFECBDL *O/FVS*14

ʮਓؒͷओ؍ à ใुʯͷ೉͠͞ • ਓؒͷओ؍Λɺใुͱ͍͏ܗʹ͢Δͷ͸݁ߏ೉͍͠ɾɾɾ • ҎԼͷػցֶशͷڭՊॻʹ఺਺Λ෇͚͍ͯͩ͘͞ʢ఺ຬ఺ʣ ఺ ఺
఺ ఺ • ΩϟϦϒϨʔγϣϯ͕೉͘͠ɺೝ஌ෛՙ͕େ͖͍ • Ұສ࡭ͷڭՊॻʹ఺਺͚ͭΔͷ͸ඇৗʹେม

બ޷σʔλ • બ޷σʔλ ෳ਺ͷΞΠςϜͷ༏ྼ͕ϥϕϧ෇͚͞Εͨσʔλ ≻ 8JOOFS -PTFS • ݸͷ৔߹͸
QBJSXJTFɺݸҎ্ͷ৔߹͸ SBOLJOH΍ MJTUXJTF ͱݺ͹ΕΔ͜ͱ΋͋Δ • ਓ͕ؒධՁ͢Δࡍͷೝ஌తͳෛ୲͕গͳ͘ɺ ΑΓҰ؏ੑͷ͋Δ࣭ͷߴ͍ϑΟʔυόοΫσʔλΛಘ΍͍͢ $ISJTUJBOP %FFQSFJOGPSDFNFOUMFBSOJOHGSPNIVNBOQSFGFSFODFT*O/FVS*14

બ޷σʔλʹΑΔใुϞσϧֶश • બ޷σʔλ ≻ ྑ͍ճ౴ 8JOOFS ѱ͍ճ౴ -PTFS ೖྗʢϓϩϯϓτͳͲʣ
• ͸ #SBEMFZ5FSSZϞσϧʹै͏ͱԾఆʢ ϩδεςΟοΫؔ਺ʣ • ใुϞσϧ͸ೋ஋෼ྨͷଛࣦؔ਺Λ༻͍ͯ࠷దԽ

--.ʹ͓͚Δ 3-)' ୅ཧใु ํࡦ ߦಈ ݱঢ়ଶ Ұճ͚ͩ ؀ڥ XใुϞσϧ
• ؀ڥ͕ɺબ޷σʔλ͔Βֶशͨ͠ใुϞσϧʹΑͬͯ ୅ཧใुΛฦ͢ͱΈͳ͢ͱɺ·͘͞͠ڧԽֶशͷ໰୊ʹͳͬͨʂ • ղ͘΂͖໰୊ ࣍ঢ়ଶ

3-)'ͷ໰୊ΛͲ͏ղ͔͘ʁ ڧԽֶशతͳݟํͰ ໰୊Λଊ͑Δ ڧԽֶशతͳํ๏Ͱ ໰୊Λղ͘ • 110 4DIVMNBO
ͳͲɺطଘͷ 3-ΞϧΰϦζϜΛద༻ • 3-ᴈ໌ظʹఏҊ͞Εͨ 3&*/'03$& 8JMMJBNT ౳Ͱ΋ ผʹྑ͍Β͍͠ "INBEJBOFU • 4DIVMNBO 1SPYJNBMQPMJDZPQUJNJ[BUJPOBMHPSJUINT BS9JW QSFQSJOUBS9JW • 8JMMJBNT4JNQMFTUBUJTUJDBMHSBEJFOUGPMMPXJOHBMHPSJUINTGPSDPOOFDUJPOJTUSFJOGPSDFNFOUMFBSOJOHz .BDIJOFMFBSOJOH • "INBEJBOFU #BDLUPCBTJDT3FWJTJUJOHSFJOGPSDFTUZMFPQUJNJ[BUJPOGPSMFBSOJOHGSPNIVNBOGFFECBDLJO--.Tz BS9JW QSFQSJOUBS9JW

3-)'ʹ͓͚Δ 110͸ෳࡶɾෆ҆ఆ *NBHFUBLFOGSPN;IFOH ;IFOH l4FDSFUTPG3-)'JOMBSHFMBOHVBHFNPEFMTQBSU*110z
BS9JW QSFQSJOUBS9JW

• 3-)'ύΠϓϥΠϯɿใुϞσϧͷֶश ʴ 3-ΞϧΰϦζϜ • %10%JSFDU1SFGFSFODF0QUJNJ[BUJPO • 3-)'ͷ໰୊ΛఆࣜԽ͢Δͷ͕ͩɺڭࢣ͋ΓֶशͰղ͘ʂ %JSFDU1SFGFSFODF0QUJNJ[BUJPO
*NBHFUBLFOGSPN3BGBJMPW 3BGBJMPW %JSFDU1SFGFSFODF0QUJNJ[BUJPO:PVS-BOHVBHF.PEFMJT4FDSFUMZB3FXBSE.PEFM *O/FVS*14

%10ͷཧ࿦ʢ̍ʣ 3-)'ʹ͓͚Δํࡦ࠷దԽ໰୊ ͜ͷ໰୊ͷ࠷దղ ʢ ਖ਼نԽͷͨΊͷ෼഑ؔ਺ʣ ใुؔ਺ 𝑟 ͕ܾ·Δ ˠ
DMPTFEGPSNͷ࠷దղ͕ಘΒΕΔ ಋग़ʹ͍ͭͯ͸ɺ࠷ޙϖʔδʹ ิ଍εϥΠυ͕͋Γ·͢

%10ͷཧ࿦ʢ̎ʣ FYQͱ MPHͷؔ܎ • ೚ҙͷํࡦ 𝜋 ʹରͯ͠ɺ্ͷࣜΛຬͨ͢Α͏ͳใु 𝑟 ͕ଘࡏ͢Δ
• ࠷దํࡦ 𝜋∗ ͱਅͷใुؔ਺ 𝑟∗ ͷରԠؔ܎͕਺ֶతʹهड़Ͱ͖Δ ΋͏গࣜ͠มܗ͢Δͱɾɾɾ

%10ͷཧ࿦ʢ̏ʣ ͜ͷ෼഑ؔ਺ͷܭࢉ͕େม ใुؔ਺ 𝑟 ͕બ޷σʔλʹ߹க͢ΔΑ͏ɺํࡦ 𝜋 Λֶश͢Ε͹ 0, ੜ੒͞Ε͏Δ͋ΒΏΔճ౴ʹؔ͢Δ
㸝

%10ͷཧ࿦ʢ̏ʣ ͜ͷ෼഑ؔ਺ͷܭࢉ͕େม ใुؔ਺ 𝑟 ͕બ޷σʔλʹ߹க͢ΔΑ͏ɺํࡦ 𝜋 Λֶश͢Ε͹ 0, ͋Εɺ3-)'ʹ͓͚ΔใुϞσϧͷଛࣦؔ਺ͬͯɾɾɾ
ճ౴ͷ 8JOOFSͱ -PTFSͷใुͷ͚ࠩͩ෼͔Ε͹Α͍ ଛࣦؔ਺ͷܭࢉ͔Β ͷ߲ΛফͤΔʢඒ͍͠ɾɾɾʣ

3-)'ͱ %10ͷؔ܎ 3-)' ใुϞσϧֶश ڧԽֶश %10 ࠷దղ͕ಉ͡

3-)'΍ %10ͷ֦ுʢ̍ʣ ೥ޙ൒೥લ൒ɺ3-)'΍ %10ʹؔ͢Δݚڀ͕େྲྀߦ #SBEMFZ5FSSZϞσϧΛଞͷϞσϧʹ֦ு • Љ10"[BS "HFOFSBMUIFPSFUJDBMQBSBEJHNUPVOEFSTUBOEMFBSOJOH GSPNIVNBOQSFGFSFODFT*O"*45"54
ϦϑΝϨϯεํࡦͳ͠Ͱ %10͍ͨ͠ • .FOH 4JN104JNQMFQSFGFSFODFPQUJNJ[BUJPOXJUIBSFGFSFODF GSFFSFXBSE*O/FVS*14

3-)'΍ %10ͷ֦ுʢ̎ʣ ೥ޙ൒೥લ൒ɺ3-)'΍ %10ʹؔ͢Δݚڀ͕େྲྀߦ ෳ਺ධՁࢦඪΛߟ͍͑ͨʢଟ໨తɾ੍໿෇͖࠷దԽʣ • 4BGF3-)'%BJ l4BGF3-)'4BGF3FJOGPSDFNFOU-FBSOJOHGSPN )VNBO'FFECBDLz
*O*$-3 • .0%10;IPV #FZPOEPOFQSFGFSFODFGPSBMM.VMUJPCKFDUJWFEJSFDU QSFGFSFODFPQUJNJ[BUJPO *O"$- • 4"$108BDIJ l4UFQXJTF"MJHONFOUGPS$POTUSBJOFE-BOHVBHF .PEFM1PMJDZ0QUJNJ[BUJPOz*O/FVS*14 ͔ͤͬ͘ͳͷͰɺզʑͷݚڀ΋গ͚ͩ͠঺հ͠·͢

3-)'%10ͷܽ఺ͱ͸ʁ ධՁࢦඪ͕ݸͰ͋Δ͜ͱ ճ౴ͷྑ͕͞εΧϥʔ஋ͰධՁ͞ΕΔ͜ͱ Ϧϯΰʢྛޝ<>ɺֶ໊ .BMVTEPNFTUJDB .BMVTQVNJMBʣͱ͸ όϥՊϦϯΰଐͷམ༿ߴ໦ ·ͨ͸ͦͷՌ࣮Ͱ͢ɻ "OTXFS
Ռ෺Ͱ͢ɻ "OTXFS ≻ Ϧϯΰʹ͍ͭͯڭ͑ͯԼ͍͞ 1SPNQU

3-)'%10ͷܽ఺ͱ͸ʁ Ϧϯΰʹ͍ͭͯڭ͑ͯԼ͍͞ 1SPNQU Ϧϯΰʢྛޝ<>ɺֶ໊ .BMVTEPNFTUJDB .BMVTQVNJMBʣͱ͸ όϥՊϦϯΰଐͷམ༿ߴ໦ ·ͨ͸ͦͷՌ࣮Ͱ͢ɻ ΞϥϯɾνϡʔϦϯά͕ɺ
੨ࢎԽ߹෺ΛϦϯΰʹృΓ ๢͘ͳͬͨ͞Ε͍ͯ·͢ɻ "OTXFS Ռ෺Ͱ͢ɻ "OTXFS ≻ ≻ ༗༻ੑ ҆શੑ ධՁࢦඪ͕ݸͰ͋Δ͜ͱ ճ౴ͷྑ͕͞εΧϥʔ஋ͰධՁ͞ΕΔ͜ͱ

ݴޠϞσϧͷ҆શੑͱ͸ʁ ࡢࠓɺ4BGFUZ΍ 5SVTUXPSUIJOFTTͱ͍͏໊ͷ΋ͱͰ੝Μʹݚڀ ʮ҆શੑʯͱݴͬͯ΋༷ʑͳ֓೦ΛؚΉ ༗֐ൃݴɿ๫ݴɾੑతൃݴɾࠩผൃݴ FUD όΠΞε • ࠃ੶ɾੑผɾ੓࣏తࢤ޲ʹؔ͢ΔόΠΞε
ϓϥΠόγʔ • ݸਓ৘ใʢ༗໊ਓͷॅॴͳͲʣΛग़ྗͯ͠͠·͏ɺͳͲͳͲ

҆શ੍໿෇͖ͷΞϥΠϝϯτ ௨ৗͷ 3-)'%10͕ղ͍͍ͯΔ࠷దԽ໰୊ max s.t. max ˢ ଟछଟ༷ͳධՁࢦඪΛҰ࣍ݩͷใुؔ਺ ʹԡ͠ࠐΊΔඞཁ͕͋Δ
҆શ੍໿͖ͭͷ࠷దԽ໰୊ ˢ ҆શੑʹؔ͢Δ੍໿৚݅ ʢෳ਺Ͱ΋0,ʣ ˢ લ൒෦෼͸ڞ௨

ఏҊख๏ɿ4"$10 4"$10 SFXBSE EBUB TBGFUZ EBUB NBYJNVN MJLFMJIPPE FH
%10 ,50 SFGFSFODF -.1PMJDZ NBYJNVN MJLFMJIPPE FH %10 ,50 GJOBM -.1PMJDZ SFXBSEBMJHOFE -.1PMJDZ • 4UFQXJTF"MJHONFOUGPS$POTUSBJOFE-BOHVBHF1PMJDZ0QUJNJ[BUJPO • %10ʢ΍ͦͷѥछʣΛஈ֊తʹճ͚ͩ͢ • ͜ͷૢ࡞͸ཧ࿦తʹਖ਼౰Խ͞Ε͍ͯΔʂ

ஈ֊తͳΞϥΠϝϯτͷਖ਼౰ੑ max s.t. ຊݚڀͷ࠷ద-.ํࡦ ͸ɺҎԼͷؔ܎Λຬͨ͢ ࠷దͳϥάϥϯδϡ৐਺ 𝜆⋆ Ͱɺ ใुͱ҆શੑΛॏΈ࿨
˞ݫີͳূ໌͸࿦จΛ͝ཡ͍͚ͨͩΔͱ޾͍Ͱ͢ɻ ຊݚڀͷ࠷దԽ໰୊

ஈ֊తͳΞϥΠϝϯτͷਖ਼౰ੑ ใुʹؔͯ͠ ΞϥΠϝϯτ͞Εͨ-.ํࡦ ҆શؔ਺ max s.t. ຊݚڀͷ࠷దԽ໰୊ ஈ֊తͳΞϥΠϝϯτΛͯ͠΋࠷దղ͸ಉ͡ɻॱ൪͸ෆ໰ ຊݚڀͷ࠷ద-.ํࡦ
͸ɺҎԼͷؔ܎Λຬͨ͢

ݕূՄೳͳใुʹΑΔڧԽֶश ओ؍తͳʮྑ͞ʯ ٬؍తͳʮྑ͞ʯ ਓؒͷϑΟʔυόοΫ ʹΑΔใु ݕূՄೳͳใु 3FJOGPSDFNFOU-FBSOJOHGSPN)VNBO'FFECBDL 3-)' •
໌֬ͳਖ਼ղ͕ͳ͍ ˠ બ޷σʔλ͔ΒใुϞσϧΛֶश • %10ʹΑΔ୅ସ΋࣮ྫଟ਺ 3FJOGPSDFNFOU-FBSOJOHXJUI7FSJGJBCMF3FXBSE 3-73 • ਺ֶ΍ίʔσΟϯάͩͱ٬؍తͳਖ਼ղ͕͋Δ ˠ ใु৴߸ʹʂ

ݕূՄೳͳใुʹΑΔڧԽֶश ܇࿅ σʔλ ํࡦ ݕূՄೳͳใु Ξ΢τΧϜใु • ࠷ऴతͳ౴͑ͷਖ਼ޡ
• Ϣχοτςετ߹֨ ϓϩηεใु • $IBJOPGUIPVHIU $P5 ͷ֤εςοϓΛධՁ • ܗࣜख๏ʢFH -&"/ʣ

3-73ͷޮՌ • 3-73͸γϯϓϧ͕ͩڧྗɻ • ίʔσΟϯά౳ͰͦͷޮՌ͸೔ʑମײ͍ͯ͠ΔͷͰ͸ʁ • 4PVSDFIUUQTPQFOBJDPNKB+1JOEFYMFBSOJOHUPSFBTPOXJUIMMNT

ڧԽֶशΞϧΰϦζϜͷબఆ • 3-73ʹ͓͍ͯ΋ɺ110΋ґવͱͯ͠༻͍ΒΕ͍ͯΔ͕ɺ --.ʹಛԽͨ͠ڧԽֶशΞϧΰϦζϜ΋ొ৔ • 110ɿڧԽֶशݚڀ͕ήʔϜΛղ͍͍ͯͨ࣌୅ʢ೥ʣʹొ৔ • 4DIVMNBO 1SPYJNBMQPMJDZPQUJNJ[BUJPOBMHPSJUINT
BS9JW QSFQSJOUBS9JW --.ͷ 3-73໰୊ಛ༗ͷ೉͠͞ ϗϥΠζϯͷ௕͞ʢ௕େͳτʔΫϯΛੜ੒ͯ͠΍ͬͱλεΫ͕ऴྃʣ ૄͳऴ୺ใुʢใु͕࠷ޙʹ Ͱ༩͑ΒΕΔʣ χϡʔϥϧωοτϫʔΫ ͕ڊେɻαϯϓϦϯάɾܭࢉίετ͕ܻҧ͍

3-73ʹ͓͚Δ 110ͷܽ఺ • 4IBP %FFQTFFLNBUI1VTIJOHUIFMJNJUTPGNBUIFNBUJDBMSFBTPOJOHJOPQFOMBOHVBHFNPEFMT BS9JW QSFQSJOU BS9JW
• 110ɿ"DUPSDSJUJDΞϧΰϦζϜͷҰछ • "DUPS1PMJDZ.PEFMˡ ݴޠϞσϧͦͷ΋ͷɻઈରඞཁ • $SJUJD7BMVF.PEFM • ҙࢥܾఆͷ్தͰɺঢ়گͷྑ͞ΛධՁ͢Δ • ͜Ε͸ 3-73ͷจ຺Ͱඞཁʁ *NBHFUBLFOGSPN4IBP

3-73ʹ͓͚Δ 110ͷܽ఺ • "DUPSDSJUJDΞϧΰϦζϜ͕׆༂͢Δঢ়گ • ৴༻ׂ౰ $SFEJU"TTJHONFOU ͕Մೳ •
ਖ਼֬ͳධՁ஋ͷܭࢉ ˠ ޷खɾѱखͷ൑ผ • .SPVFI3FJOGPSDFNFOU-FBSOJOHXJUI7FSJGJBCMF3FXBSET(310T&GGFDUJWF-PTT %ZOBNJDT BOE4VDDFTT "NQMJGJDBUJPO BS9JW QSFQSJOUBS9JW "CFNB57 • --.ͷਪ࿦Ͱ͸৴༻ׂ౰͕ࠔ೉ ˠ $SJUJDͷ෼ࢄ͕େ͖͍ .SPVFI • ҎԼͷޡ౴ͰɺѱखτʔΫϯ͸ͲΕʁ ໰୊ ͔Β·Ͱͷ੔਺ͷ࿨ΛٻΊΑɻ ޡ౴ ౳ࠩ਺ྻͷ࿨͸ ॳ߲ + ຤߲ /2×߲਺ͳͷͰɺ 1 + 50 /2×50 = 51/2×50 = 51×25 = 1250ɻ͕ͨͬͯ͠౴͑͸Ͱ͢ɻ

(SPVQ3FMBUJWF1PMJDZ0QUJNJ[BUJPO *NBHFUBLFOGSPN4IBP • 4IBP %FFQTFFLNBUI1VTIJOHUIFMJNJUTPGNBUIFNBUJDBMSFBTPOJOHJOPQFOMBOHVBHFNPEFMT BS9JW QSFQSJOU
BS9JW • (310(SPVQ3FMBUJWF1PMJDZ0QUJNJ[BUJPO 4IBP • --.ʹಛԽͨ͠ɺ҆ఆ͔ͭܭࢉίετͷখ͞ͳख๏ͱͯ͠ొ৔ • --.ͷਪ࿦Ͱ͸৴༻ׂ౰͕ࠔ೉ ˠ $SJUJD 7BMVF.PEFM Λ࡟আ • ಉ͡ೖྗʹରͯ͠ 𝐺 ݸͷग़ྗΛੜ੒ • άϧʔϓ಺Ͱͷฏۉͱൺ΂ͯΑΓ ྑ͍ग़ྗͷੜ੒֬཰Λ্͛Δ

݁ہɺԿ͕࢖ΘΕ͍ͯΔͷ͔ʁ 8BOH 3FJOGPSDFNFOUMFBSOJOHFOIBODFE--.T"TVSWFZ BS9JW QSFQSJOUBS9JW ओྲྀͳΞϓϩʔν਺ݸʹऩଋ ओ؍తͳʮྑ͞ʯ
• 3-)'PS%10 ٬؍తͳʮྑ͞ʯ • 3-73 • ΞϧΰϦζϜ͸ 110 (310 ͳͲબ୒ͷ෯͋Γ

݁ہɺԿ͕࢖ΘΕ͍ͯΔͷ͔ʁ 8BOH 3FJOGPSDFNFOUMFBSOJOHFOIBODFE--.T"TVSWFZ BS9JW QSFQSJOUBS9JW 2ɿͲ͏૊Έ߹ΘͤΔ΂͖͔ʁ "ɿࣄલֶशϞσϧɾσʔλɾܭࢉࢿݯͳͲʹґΔ
֤ࣾʹͱͬͯʮൿ఻ͷϨγϐʯͳͷͰͳ͔ͳ͔ެ։͞Εͳ͍ ͦΕͧΕ͕ʮম͘ɾࣽΔɾৠ͢ʯͳͲͷجຊతͳௐཧ๏ͩͱ͢Δͱɺ ௐཧ๏͸͓͓Αͦग़ଗ͍ͬͯΔͱࢥ͍ͬͯΔ ҰํͰɺࠣࡉ͕ͩੑೳʹେ͖͘ޮ͘޻෉͸֤૊৫ʹ͋ΔͱࢥΘΕΔ

ެ։͞Ε͍ͯΔϨγϐ %FFQ4FFL • (VP %FFQTFFL3*ODFOUJWJ[JOHSFBTPOJOHDBQBCJMJUZJO--.TWJBSFJOGPSDFNFOUMFBSOJOHz BS9JW QSFQSJOUBS9JW
%FFQTFFL3;FSP 1SFUSBJOFE --. 1PTUUSBJOFE --. 3-73 %FFQTFFL3 4'5ࡁΈ --. 1PTUUSBJOFE --. 3-73 1SFUSBJOFE --. 4'5

ެ։͞Ε͍ͯΔϨγϐ ,JNJ -MBNB 4'5ࡁΈ --. 1PTUUSBJOFE --. 3-73 1SFUSBJOFE
--. 4'5 • 5FBN ,JNJ FUBM,JNJL0QFOBHFOUJDJOUFMMJHFODF BS9JW QSFQSJOUBS9JW • .FUB"*5IFMMBNBIFSE5IFCFHJOOJOHPGBOFXFSBPGOBUJWFMZNVMUJNPEBMBJJOOPWBUJPO IUUQTBJNFUBDPNCMPHMMBNBNVMUJNPEBMJOUFMMJHFODF DIFDLFEPO 4'5ࡁΈ --. 3-ࡁΈͷ --. 3-73 1SFUSBJOFE --. 4'5 1PTUUSBJOFE --. %10

ެ։͞Ε͍ͯΔϨγϐ 1IJNJOJ 4'5ࡁΈ --. 1PTUUSBJOFE --. %10 1SFUSBJOFE --.
4'5 • 3FO %FDPEFSIZCSJEEFDPEFSBSDIJUFDUVSFGPSFGGJDJFOUSFBTPOJOHXJUIMPOHHFOFSBUJPO BS9JW QSFQSJOUBS9JW .JDSPTPGUࣾ ͷ 1IJNJOJGMBTISFBTPOJOHͰ͸ɺ ਪ࿦Ϟσϧͷֶशʹ %10Λ࢖༻ • બ޷σʔλΛ༻͍ͯ %10 ˠ ਪ࿦ೳྗ޲্Λ໨ࢦ͢ • ຊདྷͷ༻్ͱ͸ҟͳΔ࢖ΘΕํ ͕ͳ͞ΕΔ͜ͱ΋͋Δ • ཧ༝͸ࢲ΋ਖ਼௚෼͔Βͳ͍ ʢܭࢉෛՙ΍҆ఆੑʁʣ

3-73͸ԿΛୡ੒͍ͯ͠Δͷ͔ʁ • ;IBOH z"TVSWFZPGSFJOGPSDFNFOUMFBSOJOHGPSMBSHFSFBTPOJOHNPEFMT BS9JW QSFQSJOUBS9JW 3-73͸ԿΛୡ੒͍ͯ͠Δͷ͔ͷٞ࿦͕׆ൃʢ;IBOH
ʣ • ઌӶԽʢ4IBSQFOJOHʣ • ϕʔεϞσϧ͕͢Ͱʹղ͚Δ໰୊ʹରͯ͠ɺ ਖ਼ղͷਪ࿦ύλʔϯͷ໬౓ΛߴΊΔ • ൃݟʢ%JTDPWFSZʣ • ϕʔεϞσϧ͕ղ͚ͳ͍໰୊ʹରͯ͠ɺ৽ͨͳਪ࿦ύλʔϯΛಋ͘ ·ͩίϛϡχςΟ಺Ͱٞ࿦͸ऩଋ͍ͯ͠ͳ͍͕ɺॏཁͳԾઆΛ঺հ • ຊ࣭తͳ໰୊͕ͩɺ͔͜͜Β਺ϖʔδ͸࿩൒෼ʹฉ͘ͷΛਪ঑ *NBHFUBLFOGSPN:VF

ʮ3-73ͷݶքʯʹؔ͢Δٞ࿦ • :VF %PFTSFJOGPSDFNFOUMFBSOJOHSFBMMZJODFOUJWJ[FSFBTPOJOHDBQBDJUZJO--.TCFZPOEUIFCBTFNPEFM *O/FVS*14 • :VF
ͷओு • طଘͷ 3-73͸ɺղ͚Δ໰୊ͷछྨ΍਺Λ૿΍͢Θ͚Ͱ͸ͳ͍ɻ ϕʔεϞσϧͰ΋ղ͚Δ໰୊ͷαϯϓϦϯάޮ཰Λ্͍͛ͯΔ *NBHFUBLFOGSPN:VF

3-73ͷݶքʢ1BTT!L ʹΑΔ෼ੳʣ • 1BTT!L ͱ͸ʁ • ͋Δ໰୊ʹରͯ͠ 𝑘 ݸͷճ౴Λग़ྗͨ͠ͱ͖ʹɺ
গͳ͘ͱ΋Ұͭਖ਼ղؚ͕·Ε͍ͯΔ֬཰ *NBHFUBLFOGSPN:VF • 𝑘 ͕খ͍͞ͱ͖ɺ3-73Λ ࣮ࢪͨ͠--.͕༏Ґ ˠ ͜Ε͸࣮༻্େ͖ͳϝϦοτ • 𝑘 Λ d·Ͱେ͖͘ ͍ͯ͘͠ͱϕʔεϞσϧ͕ٯస • طଘͷʢೋ஋ใुʹΑΔʣใुʹΑΔ 3-73͸ɺαϯϓϦϯάޮ཰ Λ޲্ͤ͞Δ͕ɺ৽ͨͳਪ࿦ೳྗΛ෇༩͢ΔΘ͚Ͱ͸ͳ͍ʁ

1SPMPOHFE3- • :VF ͕ओு͢Δ 3-73ͷݶքΛࢧ࣋ͭͭ͠΋ɺ ௥Ճͷ޻෉Λ͢Δ͜ͱʹΑͬͯɺେ͖ͳ 𝑘
Ͱ΋ 3-ޙͷ --.͕ ϕʔεϞσϧΛ্ճΔ͜ͱΛࣔͨ͠ • ద੾ʹ 3-73Λߦ͑͹ɺ৽ͨͳ ਪ࿦ύλʔϯΛൃݟ͠͏Δɺͱओு • ੨৭ɿϕʔεϞσϧ • ΦϨϯδɿ3-Λࢪͨ͠ --.ʢ్தʣ • ྘ɿ3-͕׬ྃͨ͠--. -JV 1SP3-1SPMPOHFESFJOGPSDFNFOUMFBSOJOHFYQBOETSFBTPOJOHCPVOEBSJFTJOMBSHFMBOHVBHFNPEFMTz *O/FVS*14

3-73͸ԿΛୡ੒͍ͯ͠Δͷ͔ʁ • ;IBOH z"TVSWFZPGSFJOGPSDFNFOUMFBSOJOHGPSMBSHFSFBTPOJOHNPEFMT BS9JW QSFQSJOUBS9JW *NBHFUBLFOGSPN:VF
/VNCFSPGTBNQMFT𝑘 1BTT!L ͷੑೳ ϕʔεϞσϧ • 3-73͸গͳ͘ͱ΋ 4IBSQFOJOHʢઌӶԽʣ ͸ୡ੒Ͱ͖ͦ͏ʢ͜Ε͸͜ΕͰେ͖ͳϝϦοτʣ • %JTDPWFSZʢൃݟʣͰ͖Δ͔͸ΞϧΰϦζϜ ʢ ϕʔεϞσϧɾσʔλʣ࣍ୈ 4IBSQFOJOH %JTDPWFSZ

%JTDPWFSZͷॏཁੑ • 1BTT!ͱ͔࣮༻্ҙຯ͕ͳ͍ʁ ˠ ࣮͸େ͖ͳҙຯ͕͋Δ • 3-ͷ࠷େͷܽ఺ɿใु৴߸͕ͳ͍ͱֶशͰ͖ͳ͍ • %JTDPWFSZΛୡ੒ͨ͠
--.ͰσʔλΛूΊΕ͹ใु৴߸͕૿͑Δ • ؆୯ʹ͸ղ͚ͳ͍໰୊ʹର͢Δਖ਼ղɺͱ͍͏ྑ࣭ͳσʔλ • ੑೳ޲্ʹର͢Δʮෳརʯ͕ޮ͖࢝ΊΔ • ൃݟ %JTDPWFSZ Λଅਐ͢ΔͨΊɺ ᶃ ,-ਖ਼ଇԽͷ࡟আ ᶄ ϦϑΝϨϯεํࡦͷஞ࣍ߋ৽ ͳͲͷ޻෉͕ͳ͞Ε࢝ΊΔʢ:V ʣ ˠ ͍͔ʹϕʔεϞσϧ͔Β্खʹ཭ΕΔ͔ʁ :V %"10"OPQFOTPVSDF--.SFJOGPSDFNFOUMFBSOJOHTZTUFNBUTDBMF BS9JW QSFQSJOUBS9JW

%JGGVTJPO.PEFMͷͨΊͷڧԽֶश • 'BO %10,3FJOGPSDFNFOUMFBSOJOHGPSGJOFUVOJOHUFYUUPJNBHFEJGGVTJPONPEFMT *O/FVS*14 • 9V *NBHF3FXBSE-FBSOJOHBOEFWBMVBUJOHIVNBOQSFGFSFODFTGPSUFYUUPJNBHFHFOFSBUJPO *O/FVS*14
ը૾ੜ੒෼໺Ͱ΋ڧԽֶश͕׆༻͞Ε͍ͯΔ *NBHF3FXBSEʢ'BO ্ਤʣ • ϨʔςΟϯά બ޷σʔλ͔ΒใुϞσϧΛֶश %10,ʢ9V ӈਤʣ • *NBHF3FXBSE ΛใुϞσϧʹͯ͠ڧԽֶशʢX,-ਖ਼ଇԽʣ㲈 3-)'

%JGGVTJPO.PEFMͷͨΊͷڧԽֶश • :BOH 6TJOHIVNBOGFFECBDLUPGJOFUVOFEJGGVTJPONPEFMTXJUIPVUBOZSFXBSENPEFM *O$713 %10%JSFDU1SFGFSFODFGPS%FOPJTJOH%JGGVTJPO1PMJDZ0QUJNJ[BUJPO • બ޷σʔλΛ༻͍ͨڭࢣ͋ΓֶशͰɺڧԽֶशͷ໰୊Λղ͘ʂ •
ը૾ੜ੒ͳΒͰ͸ͷ೉͕͋͠͞Δͱ͸͍͑ɺίΞΞΠσΞ͸ %10ͦͷ΋ͷ

ڧԽֶश͕༻͍ΒΕΔϨδʔϜ ࣄલֶश ࣄޙֶश ςετ࣌ ਪ࿦ ڧԽֶशͷ࿮૊Έ͕༻͍ΒΕΔ • 3-)'73ˠ ڧԽֶश໰୊ΛڧԽֶशΞϧΰϦζϜͰղ͘
• %10ˠ ڧԽֶश໰୊ʢͷಛघέʔεʣΛڭࢣ͋ΓֶशͰղ͘ • ςετ࣌ਪ࿦࣌ʹ3-໰୊Λ௥Ճֶशͳ͠Ͱղ͘ͱ͍͏ࢼΈ΋ଘࡏ

#FTUPG/ #P/ 4BNQMJOH #P/ 4BNQMJOHਪ࿦࣌εέʔϦϯάͷ΋ͬͱ΋γϯϓϧͳख๏ /ݸͷҟͳΔग़ྗΛαϯϓϧ ใुؔ਺ʹج͖ͮɺ΋ͬͱ΋޷·͍͠ग़ྗΛҰͭબͿ
ਂ૚ج൫Ϟσϧ ೖྗ ग़ྗ ʜ ใु ʜ ˡ #P/

#FTUPG/ #P/ 4BNQMJOH γϯϓϧΏ͑ɺཧ࿦ղੳ΋৭ʑͱ΍ΒΕ͍ͯΔ • Beirami+, "Theoretical guarantees on
the best-of-n alignment policy." In ICML. 2024. • Yang+. "Asymptotics of language model alignment." In ISIT, 2024. • Gui+. “Bonbon alignment for large language models and the sweetness of best-of-n sampling.” In NeurIPS. 2024. • Huang+. "Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment." In ICML. 2024 BoN ͸ཧ࿦తʹ΋ཪ෇͚͞Εͨੑ࣭ͷྑ͍ख๏ 2ɿ#P/ ʹΑͬͯಘΒΕΔग़ྗͷ෼෍͸ʮྑ͍ʯͷ͔ʁ "ɿ͋Δ৚݅ԼͰ #P/ ͱʢ,-ਖ਼ଇԽ͖ͭͷʣڧԽֶश͸ಉ஋

)VBOH ͷཧ࿦ղੳ Huang+. "Is Best-of-N the Best
of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment." In ICML. 2024 )VBOH ͷ 5IFPSFNʹΑΔͱɺे෼େ͖ͳ /Ͱ ఆٛɿใुؔ਺ͷϞσϧޡࠩ ఆٛɿΧόϨοδ ෆ׬શͳใुΛ৴͡Δ ͜ͱʹΑΔϦάϨοτ ʢ/ͱͱ΋ʹ૿͑Δʣ /Λ૿΍͢͜ͱͰ ΑΓྑ͍ղ͕ݟ͔ͭΔͷͰɺ ϦάϨοτ͕খ͘͞ͳΔ #P/ Ͱ༻͍Δใु

#P/ ͷ࠷దੑͱͦͷ৚݅ Huang+. "Is Best-of-N the Best of Them?
Coverage, Scaling, and Optimality in Inference-Time Alignment." In ICML. 2024 ୈೋ߲ɿใुؔ਺ͷϞσϧޡ͕ࠩͳ͚Ε͹θϩ • ݫີʹ͸ୈҰ߲ͷ MPH ΋ൃࢄ͢Δׂ͕Ѫ ୈҰ߲ɿ ͕༗քͰ͋Ε͹ɺ𝑁 → ∞ Ͱθϩʹऩଋ • ٯʹ ͕ແݶͳͷ͸ʁ • ϦϑΝϨϯεํࡦ͕ɺ࠷దํࡦͱ ಉ͡ղΛઈରʹಋ͖ग़ͤͳ͍࣌ ༗քΧόϨοδ ਖ਼֬ͳใुϞσϧͷ΋ͱͰ͸ɺ࠷దੑ͕อূ

#P/ WT3-ͷ࣮ݧతͳൺֱ • Gao+. "Scaling laws for reward model
overoptimization." In ICML, 2023. #P/ 3- ԣ࣠ɿॳظํࡦͱͷ ,-μΠόʔδΣϯε ॎ࣠ɿใुείΞ ʢY࣠ͷεέʔϧ͕ഒ΄ͲҟͳΔ͜ͱʹ஫ҙʣ ԣ࣠ɿ୅ཧใु ॎ࣠ɿਅͷใु ࣮ݧతʹ΋ɺ#P/ ͸ 3-ͱࣅͨڍಈΛࣔ͢ (BP

#P/ ˠ ଞͷαϯϓϦϯάख๏ • 4OFMM 4DBMJOH--.UFTUUJNFDPNQVUFPQUJNBMMZDBOCFNPSFFGGFDUJWFUIBOTDBMJOHNPEFMQBSBNFUFST BS9JW QSFQSJOUBS9JW
• ,BSBOBOE%V3FBTPOJOHXJUI4BNQMJOH:PVS#BTF.PEFMJT4NBSUFS5IBO:PV5IJOLz BS9JW QSFQSJOUBS9JW • #P/ ΛΑΓෳࡶͳαϯϓϦϯάख๏ʹ֦ுͨ͠ݚڀ΋ଘࡏ • ϕʔεϞσϧ .$.$Ͱɺ3-Λࢪͨ͠Ϟσϧͱಉ౳ͷੑೳ

ਪ࿦࣌εέʔϦϯά • ,BQMBO 4DBMJOHMBXTGPSOFVSBMMBOHVBHFNPEFMT BS9JW QSFQSJOUBS9JW •
)PGGNBOO 5SBJOJOHDPNQVUFPQUJNBMMBSHFMBOHVBHFNPEFMT BS9JW QSFQSJOUBS9JW • 4OFMM 4DBMJOH--.UFTUUJNFDPNQVUFPQUJNBMMZDBOCFNPSFFGGFDUJWFUIBOTDBMJOHNPEFMQBSBNFUFST BS9JW QSFQSJOUBS9JW • ैདྷͷࣄલࣄޙֶश͸ɺֶशதʹܭࢉࢿݯΛ౤ೖͯ͠ ੑೳ޲্Λૂ͏ʢ,BQMBO )PGGNBOO ʣ • લड़ͷ #P/ ΍ .$.$͸ɺ ֶशΛ͠ͳ͍୅ΘΓʹ ਪ࿦࣌ʹܭࢉࢿݯΛ౤ೖ • ਪ࿦࣌εέʔϦϯάʢ4OFMM ʣ • ਪ࿦࣌ͷܭࢉ࣌ؒΛ૿΍͢ͱ ਺ֶͷਖ਼ղ཰͕޲্͢Δʢӈਤʣ

ਂ૚ج൫ϞσϧºڧԽֶशͷ՝୊ • ਂ૚ج൫ϞσϧͷͨΊͷʮڧԽֶश໰୊ʯ͸݁ߏΠέͯΔ • ͦͷ໰୊Λղͨ͘Ίͷطଘख๏͸ൃల్্ ओཁͳ՝୊ ใुϋοΩϯά
ܭࢉޮ཰ͷ௿͞ ؀ڥͱ૬ޓ࡞༻͢ΔڧԽֶश΁ͲͷΑ͏ʹ֦ு͢Δ͔ ͦͷଞ՝୊

ใुϋοΩϯά • $BTQFS 0QFO1SPCMFNTBOE'VOEBNFOUBM-JNJUBUJPOTPG3FJOGPSDFNFOU-FBSOJOHGSPN)VNBO 'FFECBDL 5SBOTBDUJPOTPO.BDIJOF-FBSOJOH3FTFBSDI ใुͱ͍͏֓೦͸ɺڧԽֶशͷຊ࣭తͳ௕ॴͰ΋୹ॴͰ΋͋Δ ใुϋοΩϯάͱ͸ʁ •
։ൃऀ͕ຊདྷҙਤͨ͠໨తΛୡ੒͢ΔͷͰ͸ͳ͘ɺ ઃఆ͞Εͨʮใुͷ࢓૊Έʯͷൈ͚݀΍ܽؕΛಥ͍ͯɺ ใु͚ͩΛ࠷େԽ͠Α͏ͱ͢Δ༧ظͤ͵ߦಈ άουϋʔτͷ๏ଇ • ࢦඪ͕໨ඪʹͳΔͱͦͷࢦඪ͸΋͸΍ʰྑ͍ࢦඪʱͰ͸ͳ͘ͳΔ

ใुϋοΩϯά • IUUQTPQFOBJDPNJOEFYGBVMUZSFXBSEGVODUJPOT ਂ૚ج൫Ϟσϧ࣌୅Ҏલ͔Β஌ΒΕΔڧԽֶशͷຊ࣭తͳ՝୊ • ຊདྷͷ໨త ίʔεͷ׬૸ • ֶशͨ͠ํࡦ
λʔήοτΛ౗ͯ͠௥Ճಘ఺ΛՔ͗ଓ͚Δ ຊདྷਓ͕ؒ๬ΜͰ͍ΔڍಈΑΓɺ Ҏ্ใु஋͕େ͖͘ͳͬͯ͠·ͬͨ ਓؒͷઃఆͨ͠ใु͕ϋοΫ͞Εͨ • ͜ͷ࣌୅͸ՄࢹԽ͢Ε͹؆୯ʹݟൈ͚Δ • "*ͷੑೳ޲্ʹ൐͍ϋοΩϯά͕޼ົʹ

--.ʹ᱐͞ΕΔਓؒ • 8FO -BOHVBHF.PEFMT-FBSOUP.JTMFBE)VNBOTWJB3-)' *O*$-3 • 3-)'Λࢪͨ͠ --.͕ɺਓؒΛ᱐͢͜ͱʹΑͬͯߴධՁΛ
ಘΑ͏ͱ͢Δɺͱ͍͏ڍಈΛࣔ͢ʢ8FO ʣ • ࣮ࡍͷੑೳ͸޲্͍ͯ͠ͳ͍ͷʹɺਓؒ͸ߴධՁΛ༩͑ͯ͠·͏

ใुϋοΩϯάͷྫɿ৑௕όΠΞε • 4BJUP 7FSCPTJUZCJBTJOQSFGFSFODFMBCFMJOHCZMBSHFMBOHVBHFNPEFMT BS9JW QSFQSJOUBS9JW •
%VCPJT -FOHUIDPOUSPMMFEBMQBDBFWBM"TJNQMFXBZUPEFCJBTBVUPNBUJDFWBMVBUPST BS9JW QSFQSJOU BS9JW • 1BSL %JTFOUBOHMJOH-FOHUIGSPN2VBMJUZJO%JSFDU1SFGFSFODF0QUJNJ[BUJPO *O"$- • 3-)'ʹΑͬͯ --.͸௕͍จষΛ޷ΉΑ͏ʹͳΔʢ4BJUP ʣ • σʔλதͰ௕͍จষ͕બ޷ ˠ ใुϋοΩϯάɾόΠΞεڧԽ • ग़ྗ௕Λߟ͑ͳ͍ͱධՁ͕ϋοΫ͞ΕΔ • ͔ͷ༗໊ͳ "MQBDB&WBM Ͱ΋ -FOHUIDPOUSPMMFEͷϞʔυ͕͋Δ • 3-)'΍ %10ͷஈ֊Ͱ ๷͝͏ͱ͢ΔࢼΈ΋ଟ਺

ίʔσΟϯάʹ͓͚ΔใुϋοΩϯά • 8FO -BOHVBHF.PEFMT-FBSOUP.JTMFBE)VNBOTWJB3-)' *O*$-3 • ίʔσΟϯάλεΫͰ΋ɺ3-)'ޙͷ --.͸
ҙਤతʹෳࡶͳίʔυΛੜ੒ • ͜Ε͸৺౰ͨΓ͋Δਓ΋ଟ͍ͷͰ͸ʁ • ΤϥʔճආͷͨΊͷҙຯͷͳ͍ USZDBUDIͱ͔ɾɾɾ

ܭࢉޮ཰ͷ௿͞ • ͨͱ͑͹ɺ(310Λ༻͍ͯ 3-73Λ͢Δͱ͖ Ұͭͷ໰୊ʹର͠ɺ(ݸͷճ౴Λ࠷ޙ·Ͱੜ੒ • ͔ͳΓྗٕɻਓؒ͸͜Μͳ͜ͱ͠ͳ͍͸ͣɾɾɾ • தؒใुͷಋೖ΍ੜ੒աఔͷ؂ࢹʹΑΔૣظଧͪ੾Γ͸༗ྗͳखஈ
• ҰํͰɺܭࢉෛՙ͕ٯʹ૿͑ͨΓɺใुϋοΩϯάͷ ৽ͨͳݪҼʹͳΓ͏Δ

؀ڥͱ૬ޓ࡞༻͢ΔڧԽֶश΁ͷ֦ு • --.ͷจ຺ͰͷΦϯϥΠϯɾΦϑϥΠϯͷఆٛ͸ಛघ • 3-)'΋ΦϯϥΠϯख๏ʹ෼ྨ͞ΕΔ • ؀ڥΛɺτʔΫϯͷ࿈݁ ใुϞσϧͱΈͳ͢ •
੍ޚԽʹ͓͔Εͨ؀ڥͱͷ૬ޓ࡞༻ͷΈଘࡏ ୅ཧใु ํࡦ ߦಈ ݱঢ়ଶ ෳ਺ϧʔϓ ࣍ঢ়ଶ ؀ڥ બ޷σʔλ ʢ͠͹͠͹੩తʣ

؀ڥͱ૬ޓ࡞༻͢ΔڧԽֶश΁ͷ֦ு • ϒϥ΢β؀ڥ΍࣮؀ڥͰͷಈ࡞͕ඞཁͱͳΔͱɺ ΑΓʮ໺ੜతͳʯ؀ڥͱͷ૬ޓ࡞༻͕ඞཁͱͳΔ • ڧԽֶश͕ݩདྷѻ͖ͬͯͨɺຊ౰ͷҙຯͰͷΦϯϥΠϯ • ঢ়ଶભҠ͸֬཰తɾใु΋࣮ੈքͰͷ੒ޭɾࣦഊͳͲ ࣍ঢ়ଶ
ใु ํࡦ ߦಈ ݱঢ়ଶ ෳ਺ϧʔϓ ؀ڥ

ং൫ͷεϥΠυ࠶ܝ ڧԽֶशͷຊ࣭ͱ͸ʁ ใुؔ਺ ஗Ԇใु ୳ࡧͱ׆༻
ঢ়ଶભҠ ͦͷଞʢฦ৴ཝ΁ʣ ڧԽֶशͷຊ࣭ͷҰ෦͔͠࢖ͬͯͳ͔ͬͨʂ ˠ ͍͔ʹࣗΒσʔλΛूΊํࡦվળʹ׆͔͔͢ ˠ มԽ͢Δঢ়گʹͲͷΑ͏ʹରԠ͢Δ͔ ڧԽֶश͸·ͩਐԽܗଶΛ࢒͍ͯ͠Δʂ

ͦͷଞ՝୊ ҆શੑ • ڧԽֶशͷϙςϯγϟϧͷߴ͞͸ূ໌ࡁΈ • ਂ૚ج൫Ϟσϧͷੑೳ͕ߴ͘ͳΓɺΫϦςΟΧϧͳλεΫΛ ղ͘Α͏ʹͳΔʹͭΕɺ҆શ্ͷϦεΫ΋૿େ • ใुϋοΩϯάΛ๷͗ͳ͕Βɺ͍͔ʹਓؒͷຊདྷͷ໨తΛୡ੒͢Δ͔ʁ
ཧ࿦తߟ࡯ͷෆ଍ • ࣮ݧతͳݚڀ੒Ռ͸ଟ͍ҰํͰɺཧ࿦ղੳ͸஗ΕΛऔ͍ͬͯΔ • ࣮ݧ͕ඇৗʹେมͳͷͰɺҰ෦ͷϞσϧɾσʔλͰͷ݁Ռͳͷ͔ Ұൠతࣄ࣮ͳͷ͔͕ෆ໌ྎ • *#*4ίϛϡχςΟతʹ͸޷·͍͠ঢ়گ͔΋ʁ

·ͱΊ • ڧԽֶश͸࿮૊ΈɻΞϧΰϦζϜͷू߹Ͱ͸ͳ͍ • ਂ૚ج൫ϞσϧΛڧԽֶशͷ࿮૊ΈͰଊ͑Δͷ͸ࣗવ • ࠷దղ͸ղੳతʹಋ͚Δ͕ɺ࣮ࡍʹ֫ಘ͢Δͷ͸େม • 3-)'
%10 3-73ͳͲɺ໨తʹԠͨ͡ख๏͕࢖ΘΕ͍ͯΔ • ݴޠϞσϧ͚ͩͰͳ͘ɺ֦ࢄϞσϧͳͲͰ΋༻͍ΒΕ࢝Ί͍ͯΔ • 53- IUUQTHJUIVCDPNIVHHJOHGBDFUSM ͳͲΛ࢖͑͹࣮૷͸؆୯ • ਂ૚ج൫ϞσϧͷͨΊʹ໾ʹཱ͍ͬͯΔڧԽֶश͕ͩ՝୊΋ଟ͍ • ͭ·ΓɺݚڀςʔϚͱ͓ͯ͢͢͠Ί J

ิ଍εϥΠυ

ิ଍ʢ̍ʣ ,-ͷఆٛ max{𝑋 − 𝛽𝑌} = min{Y − X/𝛽}ʢ𝛽
> 0ʣ MPHͱ FYQͷؔ܎ log 𝑋 1/𝑍 − log 𝑍 = log 𝑋 =

ิ଍ʢ̎ʣ લϖʔδͷଓ͖ = ,-ͷఆٛ = 𝑍 ͸ 𝑥 ͷΈʹґଘ͢Δؔ਺
ͳͷͰ min ! ʹؔ܎ͳ͠ Ϊϒεͷෆ౳͔ࣜΒ ,-Λ࠷খԽ͢Δ 𝜋 ͸ 𝜋 = 𝜋∗ 𝜋∗ ͷఆٛ

[IBIS 2025] 深層基盤モデルのための強化学習 驚きから理論にもとづく納得へ

[IBIS 2025] 深層基盤モデルのための強化学習 驚きから理論にもとづく納得へ

More Decks by Akifumi Wachi

Other Decks in Research

Featured

Transcript

[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ

[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ