AlphaGoの論文について

Mastering the game of Go with deep neural networks and
tree search @Shunter

About Myself ࣗݾ঺հ

ࣗݾ঺հ 4 ໊લ 4 ݹ઒ढ़ଠ 4 ৬ۀ 4 גࣜձࣾ NTTυίϞ
4 ৽نࣄۀ։ൃ 4 ษڧձࢀՃ΁ͷಈػ 4 ৽نϏδωεʹਓ޻஌ೳ ͷՄೳੑΛײ͓ͯ͡Γɺ ͖ͪΜͱཧղΛ͍ͨͨ͠ Ίɻ

About Paper ࿦จʹ͍ͭͯ

࿦จʹ͍ͭͯ 4 2016೥1݄27೔ʹɺͦΕ·Ͱ ͸ਓ޻஌ೳ͕উͭ͜ͱ͕೉͠ ͍ͱݴΘΕ͍ͯͨޟʹ͓͍ ͯɺGoogle(DeepMind) ͕ ։ൃͨ͠ʮAlphaGoʯ͕ϓ ϩΛഁͬͨɻ 4
ͦΕ·Ͱ௨ৗͷޟͰػց͕ϓ ϩʹউͬͨྫ͕ແ͘ɺউͭͷ ʹ10೥͔͔ΔͱݴΘΕ͍ͯͨ ͜ͱΛୡ੒ɻ 4 ຊ࿦จ͸͜ͷʮAlphGoʯʹ ͍ͭͯͷ࿦จͰ͋Δɻ

⚪ Background ⚫ എܠ

ͳͥޟ͸೉͍͠ͷ͔ʁ 4 ήʔϜͷ৘ใ͸ɺ ͱ͍͏Ձ஋ؔ਺ͰදݱͰ͖Δɻ 4 ͸ήʔϜͷঢ়ଶͰɺͦͷঢ়ଶ͔ΒՁ஋ʢήʔϜͷ݁ ՌʣΛฦ͢ɻ 4 ήʔϜʹউͭʹ͸ɺՁ஋؍਺Λ࢖ͬͯɺ࠷దͳखΛ࠶ؼ తʹܭࢉ͢Ε͹͍͍ɻ
4 खॱ͸ɺ୳ࡧ໦Ͱදݱ͕Ͱ͖ɺͦͷେ͖͞͸ Ͱ͋Δɻ 4 : ࣍खͰબ୒Մೳͳީิͷ਺ʢ༿਺ʣ 4 : ήʔϜͷ௕͞ʢਂ͞ʣ

ͳͥޟ͸೉͍͠ͷ͔ʁ 4 : ࣍खͰબ୒Մೳͳީิͷ਺ʢ༿਺ʣ 4 : ήʔϜͷ௕͞ʢਂ͞ʣ 4 νΣε 4
4 4 ޟ 4 4 ! 4 શ෦୳͢ͷ͸ݱ࣮త͡Όͳ͍...

୳ࡧྖҬΛݮΒͨ͢Ίͷ ޻෉ 4 ํࡦؔ਺ Λ࢖ͬͯɺ༿਺Λ࡟ݮ 4 ঢ়ଶ ʹ͓͚ΔՄೳͳߦಈ ͷ֬཰ ෼෍
4 ϞϯςΧϧϩ୳ࡧ໦(MCST) 4 ϥϯμϜʹਐΊͯΈͯɺٯࢉΛ͠ ͯํࡦؔ਺ͷ஋Λߋ৽ 4 AlphaGo·ͰͰ࠷ڧͷޟAI͸MCST Λ࢖͍ͬͯͨɻ 4 ͜Ε·ͰͷՁ஋ؔ਺ ɺٴͼํࡦؔ਺ ͸ઢܗܭࢉ 4 AlphaGo͸͜ΕΒͷؔ਺ΛDeep LearningͰֶशͤͨ͞ɻ

⚪ Pipeline ⚫ ֶशύΠϓϥΠϯ

ֶशύΠϓϥΠϯ 4 ࣮σʔλ͔ΒֶͿʢڭࢣ͋ Γʣ 4 : ؆қํࡦؔ਺(SLP1)ɺ ύϥϝʔλ 4 :
௨ৗํࡦؔ਺ (SLP2)ɺύϥϝʔλ 4 AIಉ࢜ͰઓΘͤͯڧԽ 4 : ڧԽֶशํࡦؔ਺ (RLP)ɺύϥϝʔλ 4 : Ձ஋ؔ਺ɺύϥϝʔλ

⚪ Supervised leaerning of policy network ⚫ ڭࢣ͋Γֶश ํࡦؔ਺

ํࡦؔ਺ 4 ڭࢣσʔλΛݩʹֶश͞ΕΔ NN 4 ৞ΈࠐΈ૚ ͱ ReNLU ͷަ ޓ
4 ࠷ޙ͸SoftmaxͰɺ࣍ʹ ଧͯΔखͷ֬཰෼෍Λฦ͢ 4 ϥϯμϜͳ൫໘͔Β֬཰త ޯ഑্ঢ๏(SGA)Ͱֶश

2छྨͷํࡦؔ਺ : ڭࢣ͋Γֶशํࡦؔ਺ɺύϥϝʔλ 4 ύϑΥʔϚϯεॏࢹ 4 ҰճͷΞΫγϣϯΛ༧ଌ͢ΔͨΊʹɺ3ms 4 ਖ਼֬ੑ͸ 57.0%
ʢઌߦ༧ଌثͰ͸44.4%͕࠷ߴʣ : ؆қํࡦؔ਺ɺύϥϝʔλ 4 ಛ௃ྔΛগͳ͘ɺ׆ੑԽؔ਺ʹ ReLUΛ࢖ͬͨ΋ͷ 4 ҰճͷΞΫγϣϯΛ༧ଌ͢ΔͨΊʹɺ2μs 4 ਖ਼֬ੑ͸ 24.2%

⚪ Reinforcement learning of policy networks ⚫ ڧԽֶश ํࡦؔ਺

ڧԽֶश ํࡦؔ਺ 4 ઌ΄Ͳͷํࡦؔ਺ͷύϥϝʔλ Λෳ੡ 4 ৽ͨʹํࡦؔ਺ Λ࡞੒ 4 ํࡦؔ਺ಉ࢜Λ࢖ͬͯɺઓΘͤΔ
4 ରઓ૬ख͸աڈͷύϥϝʔλͷঢ়ଶ͔ΒϥϯμϜʹ 4 ϥϯμϜʹ͢Δ͜ͱͰաֶश๷ࢭ 4 ใुؔ਺ ΛԾఆɻ 4 : ਐߦ͍ͯ͠Δ࣌ؒ, : ֬ఆͨ࣌ؒ͠ 4 ࢼ߹ΛਐΊͯɺউ͕ͪ1, ෛ͚͕0 4 ࢼ߹͕֬ఆͨ͠Βใुؔ਺Λ࢖ͬͯɺḪͬͯ

ڧԽֶश ํࡦؔ਺ͷධՁ 4 ڭࢣ͋Γֶशͷํࡦؔ਺ ͱ͘Β΂ͯ 80% ͷউ ཰ 4 KGS
ୈ̎Ґͷ࣮ྗͷΦʔϓϯιʔεAIɺPachi ͱ΋ରܾ 4 MCS ϕʔεɻ̍ख͋ͨΓ10ສͷݕࡧɻ 4 RLP ͷউ཰͸ 85% (SLP͸ 11%)

⚪ Reinforcement learning of value networks ⚫ ڧԽֶश Ձ஋ؔ਺

Ձ஋؍਺ 4 : ϙϦγʔpͷ࣌ʹ͋Δঢ়ଶ͔ΒɺউͯΔظ଴஋Λฦ͢ 4 ࣮ࡍʹ׬શͳՁ஋؍਺( )Λ࡞Δͷ͸೉͍͠ͷͰ ઌʹ࡞ͬͨ࠷ڧͷํ਑ؔ਺ ( )͔Βࢉग़
: 4 ύϥϝʔλ͸ : 4 ωοτϫʔΫߏ଄͸ɺํ਑ؔ਺ʹ͍͕ۙɺग़ྗ͕̍ͭɻ 4 ঢ়ଶ(s) ͱ ݁Ռ(z) ͷ૊Έ߹ΘͤΛڭࢣͱֶͯ͠शΛ͍ͯ͘͠ɻ

Ձ஋؍਺ͷֶशͷࣦഊ 4 ਓؒͷعේ͚ͩͰֶश͠Α͏ͱ͢Δͱɺաֶश͕ى͖΍͢ ͍ɻ 4 Ұ࿈ͷعේ͸࿈ଓ͓ͯ͠Γɺউͪෛ͚ͷ৘ใΛҰ؏ͯ͠อ ͍࣋ͯ͠ΔͨΊ 4 MSEֶ͕शσʔλͰ 19%
͕ͩ ݕূσʔλͰ 37% ͱͳͬ ͯ͠·ͬͨɻ 4 RLPͷعේ͔Β3000ສ݅ͷʮผࢼ߹ʯͷ(s,z)ηοτΛநग़ 4 MSEֶ͕शσʔλͰ22.6%, ݕূ༻σʔλͰ 23.4% 4 ̎ͭʹ͕ࠩগͳ͍ͷͰաֶश͍ͯ͠ͳ͍ɻ

⚪ Searching with policy and value networks ⚫ ํ਑ͱՁ஋ؔ਺ʹΑΔݕࡧ

ݕࡧํ๏ جຊతʹ͸MCTSɻ̐ͭͷϑΣʔζʹผΕΔɻ 4 બ୒ɺ֦ுɺධՁɺอଘ

બ୒ ( Selection ) 4 ߦಈՁ஋ؔ਺QͱϘʔφεؔ਺ͷ߹ܭ͕࠷େʹͳΔ΋ͷΛબͿɻ 4 Ϙʔφεؔ਺͸ɺͦͷঢ়ଶͷ֬཰( )ͱ๚໰ճ਺( )Ͱܾ·Δɻ
: ڭࢣ͋Γֶशͷํࡦؔ਺ 4 ๚໰ճ਺͕૿͑Δ΄ͲɺP͕ݮ͍ͬͯ͘ͷ͸ɺ֦ுΛଅਐ͢Δͨ Ί

֦ுͱධՁ ( Expantion & Evaluation ) 4 ͕ࠓ·ͰγϛϡϨʔγϣϯͨ͜͠ͱͳ͍( )ͩ ͬͨ৔߹ʹ͸ɺ༿Λ֦ு͢Δɻ
4 ֦ுͨ͋͠ͱʹɺͦͷ୺ʹ͍ͭͯධՁΛߦ͏ɻ(ධՁؔ਺ ) 4 ͸ ؆қํࡦؔ਺ Λ࢖ͬͯઓΘͤͨ݁Ռ[0,1] 4 ύϥϝʔλ Λ࢖ͬͯɺՁ஋؍਺ͱૉૣ͍γϛϡϨʔγϣ ϯʹΑΔ݁ՌΛࠞͥ͋Θ͍ͤͯΔɻ

อଘ ( Backup ) 4 γϛϡϨʔγϣϯ͕ऴΘͬͨΒɺ֤༿ϊʔυͷؔ਺Λߋ৽͍ͯ͘͠ɻ 4 ๚໰ճ਺ͱߦಈՁ஋؍਺Qͷߋ৽ ͸ ճ໨ʹ
Λ௨͔ͬͨͲ͏͔ɻ[1,0] γϛϡϨʔγϣϯ͕ऴΘͬͨஈ֊Ͱɺϧʔτ͔Β ͕Ұ൪େ͖͍$ $a$ߦಈΛબ୒͢Δɻ

ิ଍ 4 ͷܭࢉ͸ ΑΓ ͷ΄͏͕ྑ͍ 4 ͷܭࢉ͸ٯɻ ΑΓ ͷ΄͏͕ྑ͍ɻ 4
͸࠷దͳ̍खΛ୳͢΂͘࠷దԽ͞Ε͓ͯΓɺ֬཰෼෍ͱͯ͠͸ ͔ͨΑΔɻ 4 ͸ਓؒͷଧͬͨखͷू߹Ͱ͋Γɺଧͪͦ͏ͳखΛΑΓද͍ͯ͠ Δɻ 4 MCTS ͷγϛϡϨʔγϣϯ͸CPUͰඇಉظϚϧνεϨου࣮ߦ 4 Ձ஋؍਺΍ํࡦؔ਺͸GPUͰฒߦͰॲཧ͍ͯ͠Δɻ 4 AlphaGo ͸ 40εϨουɺ48CPUs, 8GPUs 4 ෼ࢄAlphaGo ͸ 40εϨουɺ1202CPUsɺ176GPUs

⚪ How Strong Alpha Go is? ⚫ ݁Ռ

ΠϩϨʔτ (WikipediaΑΓ) 4 ήʔϜͷ݁Ռ͸ҰํͷউͪɺҰํͷෛ͚ͷΈͱ͠ɺҾ͖෼͚͸ߟྀ͠ͳ͍ ʢ0.5উ0.5ഊͱѻ͏΋ͷͱ͢Δʣɻ 4 200఺ͷϨʔτ͕ࠩ͋ΔରہऀؒͰ͸ɺϨʔτͷߴ͍ଆ͕໿76ύʔηϯ τͷ֬཰Ͱউར͢Δɻ 4 ฏۉతͳରہऀͷϨʔτΛ1500ͱ͢Δɻ
4 ͸ఆ਺஋Ͱ͋ΓɺϓϩϨϕϧͰ͸16ɺ௨ৗ͸32ΛͱΔ͜ͱ͕ଟ͍ɻ

͍ΖΜͳGoͷϓϩάϥϜͱͷൺֱ

ωοτϫʔΫͷ༗ແʹΑΔൺֱ

ΞʔΩςΫνϟʹΑΔൺֱ

⚪ ͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠ɻ ⚫

AlphaGoの論文について

AlphaGoの論文について

Shunta Furukawa

More Decks by Shunta Furukawa

Other Decks in Technology

Featured

Transcript

Mastering the game of Go with deep neural networks and

About Myself ࣗݾ঺հ

ࣗݾ঺հ 4 ໊લ 4 ݹ઒ढ़ଠ 4 ৬ۀ 4 גࣜձࣾ NTTυίϞ

About Paper ࿦จʹ͍ͭͯ

࿦จʹ͍ͭͯ 4 2016೥1݄27೔ʹɺͦΕ·Ͱ ͸ਓ޻஌ೳ͕উͭ͜ͱ͕೉͠ ͍ͱݴΘΕ͍ͯͨޟʹ͓͍ ͯɺGoogle(DeepMind) ͕ ։ൃͨ͠ʮAlphaGoʯ͕ϓ ϩΛഁͬͨɻ 4

⚪ Background ⚫ എܠ

ͳͥޟ͸೉͍͠ͷ͔ʁ 4 ήʔϜͷ৘ใ͸ɺ ͱ͍͏Ձ஋ؔ਺ͰදݱͰ͖Δɻ 4 ͸ήʔϜͷঢ়ଶͰɺͦͷঢ়ଶ͔ΒՁ஋ʢήʔϜͷ݁ ՌʣΛฦ͢ɻ 4 ήʔϜʹউͭʹ͸ɺՁ஋؍਺Λ࢖ͬͯɺ࠷దͳखΛ࠶ؼ తʹܭࢉ͢Ε͹͍͍ɻ

ͳͥޟ͸೉͍͠ͷ͔ʁ 4 : ࣍खͰબ୒Մೳͳީิͷ਺ʢ༿਺ʣ 4 : ήʔϜͷ௕͞ʢਂ͞ʣ 4 νΣε 4

୳ࡧྖҬΛݮΒͨ͢Ίͷ ޻෉ 4 ํࡦؔ਺ Λ࢖ͬͯɺ༿਺Λ࡟ݮ 4 ঢ়ଶ ʹ͓͚ΔՄೳͳߦಈ ͷ֬཰ ෼෍

⚪ Pipeline ⚫ ֶशύΠϓϥΠϯ

ֶशύΠϓϥΠϯ 4 ࣮σʔλ͔ΒֶͿʢڭࢣ͋ Γʣ 4 : ؆қํࡦؔ਺(SLP1)ɺ ύϥϝʔλ 4 :

⚪ Supervised leaerning of policy network ⚫ ڭࢣ͋Γֶश ํࡦؔ਺

ํࡦؔ਺ 4 ڭࢣσʔλΛݩʹֶश͞ΕΔ NN 4 ৞ΈࠐΈ૚ ͱ ReNLU ͷަ ޓ

2छྨͷํࡦؔ਺ : ڭࢣ͋Γֶशํࡦؔ਺ɺύϥϝʔλ 4 ύϑΥʔϚϯεॏࢹ 4 ҰճͷΞΫγϣϯΛ༧ଌ͢ΔͨΊʹɺ3ms 4 ਖ਼֬ੑ͸ 57.0%

⚪ Reinforcement learning of policy networks ⚫ ڧԽֶश ํࡦؔ਺

ڧԽֶश ํࡦؔ਺ 4 ઌ΄Ͳͷํࡦؔ਺ͷύϥϝʔλ Λෳ੡ 4 ৽ͨʹํࡦؔ਺ Λ࡞੒ 4 ํࡦؔ਺ಉ࢜Λ࢖ͬͯɺઓΘͤΔ

ڧԽֶश ํࡦؔ਺ͷධՁ 4 ڭࢣ͋Γֶशͷํࡦؔ਺ ͱ͘Β΂ͯ 80% ͷউ ཰ 4 KGS

⚪ Reinforcement learning of value networks ⚫ ڧԽֶश Ձ஋ؔ਺

Ձ஋؍਺ 4 : ϙϦγʔpͷ࣌ʹ͋Δঢ়ଶ͔ΒɺউͯΔظ଴஋Λฦ͢ 4 ࣮ࡍʹ׬શͳՁ஋؍਺( )Λ࡞Δͷ͸೉͍͠ͷͰ ઌʹ࡞ͬͨ࠷ڧͷํ਑ؔ਺ ( )͔Βࢉग़

Ձ஋؍਺ͷֶशͷࣦഊ 4 ਓؒͷعේ͚ͩͰֶश͠Α͏ͱ͢Δͱɺաֶश͕ى͖΍͢ ͍ɻ 4 Ұ࿈ͷعේ͸࿈ଓ͓ͯ͠Γɺউͪෛ͚ͷ৘ใΛҰ؏ͯ͠อ ͍࣋ͯ͠ΔͨΊ 4 MSEֶ͕शσʔλͰ 19%

⚪ Searching with policy and value networks ⚫ ํ਑ͱՁ஋ؔ਺ʹΑΔݕࡧ

ݕࡧํ๏ جຊతʹ͸MCTSɻ̐ͭͷϑΣʔζʹผΕΔɻ 4 બ୒ɺ֦ுɺධՁɺอଘ

બ୒ ( Selection ) 4 ߦಈՁ஋ؔ਺QͱϘʔφεؔ਺ͷ߹ܭ͕࠷େʹͳΔ΋ͷΛબͿɻ 4 Ϙʔφεؔ਺͸ɺͦͷঢ়ଶͷ֬཰( )ͱ๚໰ճ਺( )Ͱܾ·Δɻ

֦ுͱධՁ ( Expantion & Evaluation ) 4 ͕ࠓ·ͰγϛϡϨʔγϣϯͨ͜͠ͱͳ͍( )ͩ ͬͨ৔߹ʹ͸ɺ༿Λ֦ு͢Δɻ

อଘ ( Backup ) 4 γϛϡϨʔγϣϯ͕ऴΘͬͨΒɺ֤༿ϊʔυͷؔ਺Λߋ৽͍ͯ͘͠ɻ 4 ๚໰ճ਺ͱߦಈՁ஋؍਺Qͷߋ৽ ͸ ճ໨ʹ

ิ଍ 4 ͷܭࢉ͸ ΑΓ ͷ΄͏͕ྑ͍ 4 ͷܭࢉ͸ٯɻ ΑΓ ͷ΄͏͕ྑ͍ɻ 4

⚪ How Strong Alpha Go is? ⚫ ݁Ռ

ΠϩϨʔτ (WikipediaΑΓ) 4 ήʔϜͷ݁Ռ͸ҰํͷউͪɺҰํͷෛ͚ͷΈͱ͠ɺҾ͖෼͚͸ߟྀ͠ͳ͍ ʢ0.5উ0.5ഊͱѻ͏΋ͷͱ͢Δʣɻ 4 200఺ͷϨʔτ͕ࠩ͋ΔରہऀؒͰ͸ɺϨʔτͷߴ͍ଆ͕໿76ύʔηϯ τͷ֬཰Ͱউར͢Δɻ 4 ฏۉతͳରہऀͷϨʔτΛ1500ͱ͢Δɻ

͍ΖΜͳGoͷϓϩάϥϜͱͷൺֱ

͍ΖΜͳGoͷϓϩάϥϜͱͷൺֱ

ωοτϫʔΫͷ༗ແʹΑΔൺֱ

ΞʔΩςΫνϟʹΑΔൺֱ

⚪ ͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠ɻ ⚫