Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AlphaGoの論文について

 AlphaGoの論文について

AlphaGoの論文「Mastering the game of Go with deep neural networks and tree search」について発表した際の資料です。

Shunta Furukawa

April 09, 2016
Tweet

More Decks by Shunta Furukawa

Other Decks in Technology

Transcript

  1. ࣗݾ঺հ 4 ໊લ 4 ݹ઒ढ़ଠ 4 ৬ۀ 4 גࣜձࣾ NTTυίϞ

    4 ৽نࣄۀ։ൃ 4 ษڧձࢀՃ΁ͷಈػ 4 ৽نϏδωεʹਓ޻஌ೳ ͷՄೳੑΛײ͓ͯ͡Γɺ ͖ͪΜͱཧղΛ͍ͨͨ͠ Ίɻ
  2. ࿦จʹ͍ͭͯ 4 2016೥1݄27೔ʹɺͦΕ·Ͱ ͸ਓ޻஌ೳ͕উͭ͜ͱ͕೉͠ ͍ͱݴΘΕ͍ͯͨޟʹ͓͍ ͯɺGoogle(DeepMind) ͕ ։ൃͨ͠ʮAlphaGoʯ͕ϓ ϩΛഁͬͨɻ 4

    ͦΕ·Ͱ௨ৗͷޟͰػց͕ϓ ϩʹউͬͨྫ͕ແ͘ɺউͭͷ ʹ10೥͔͔ΔͱݴΘΕ͍ͯͨ ͜ͱΛୡ੒ɻ 4 ຊ࿦จ͸͜ͷʮAlphGoʯʹ ͍ͭͯͷ࿦จͰ͋Δɻ
  3. ୳ࡧྖҬΛݮΒͨ͢Ίͷ ޻෉ 4 ํࡦؔ਺ Λ࢖ͬͯɺ༿਺Λ࡟ݮ 4 ঢ়ଶ ʹ͓͚ΔՄೳͳߦಈ ͷ֬཰ ෼෍

    4 ϞϯςΧϧϩ୳ࡧ໦(MCST) 4 ϥϯμϜʹਐΊͯΈͯɺٯࢉΛ͠ ͯํࡦؔ਺ͷ஋Λߋ৽ 4 AlphaGo·ͰͰ࠷ڧͷޟAI͸MCST Λ࢖͍ͬͯͨɻ 4 ͜Ε·ͰͷՁ஋ؔ਺ ɺٴͼํࡦؔ਺ ͸ઢܗܭࢉ 4 AlphaGo͸͜ΕΒͷؔ਺ΛDeep LearningͰֶशͤͨ͞ɻ
  4. ֶशύΠϓϥΠϯ 4 ࣮σʔλ͔ΒֶͿʢڭࢣ͋ Γʣ 4 : ؆қํࡦؔ਺(SLP1)ɺ ύϥϝʔλ 4 :

    ௨ৗํࡦؔ਺ (SLP2)ɺύϥϝʔλ 4 AIಉ࢜ͰઓΘͤͯڧԽ 4 : ڧԽֶशํࡦؔ਺ (RLP)ɺύϥϝʔλ 4 : Ձ஋ؔ਺ɺύϥϝʔλ
  5. ํࡦؔ਺ 4 ڭࢣσʔλΛݩʹֶश͞ΕΔ NN 4 ৞ΈࠐΈ૚ ͱ ReNLU ͷަ ޓ

    4 ࠷ޙ͸SoftmaxͰɺ࣍ʹ ଧͯΔखͷ֬཰෼෍Λฦ͢ 4 ϥϯμϜͳ൫໘͔Β֬཰త ޯ഑্ঢ๏(SGA)Ͱֶश
  6. 2छྨͷํࡦؔ਺ : ڭࢣ͋Γֶशํࡦؔ਺ɺύϥϝʔλ 4 ύϑΥʔϚϯεॏࢹ 4 ҰճͷΞΫγϣϯΛ༧ଌ͢ΔͨΊʹɺ3ms 4 ਖ਼֬ੑ͸ 57.0%

    ʢઌߦ༧ଌثͰ͸44.4%͕࠷ߴʣ : ؆қํࡦؔ਺ɺύϥϝʔλ 4 ಛ௃ྔΛগͳ͘ɺ׆ੑԽؔ਺ʹ ReLUΛ࢖ͬͨ΋ͷ 4 ҰճͷΞΫγϣϯΛ༧ଌ͢ΔͨΊʹɺ2μs 4 ਖ਼֬ੑ͸ 24.2%
  7. ڧԽֶश ํࡦؔ਺ 4 ઌ΄Ͳͷํࡦؔ਺ͷύϥϝʔλ Λෳ੡ 4 ৽ͨʹํࡦؔ਺ Λ࡞੒ 4 ํࡦؔ਺ಉ࢜Λ࢖ͬͯɺઓΘͤΔ

    4 ରઓ૬ख͸աڈͷύϥϝʔλͷঢ়ଶ͔ΒϥϯμϜʹ 4 ϥϯμϜʹ͢Δ͜ͱͰաֶश๷ࢭ 4 ใुؔ਺ ΛԾఆɻ 4 : ਐߦ͍ͯ͠Δ࣌ؒ, : ֬ఆͨ࣌ؒ͠ 4 ࢼ߹ΛਐΊͯɺউ͕ͪ1, ෛ͚͕0 4 ࢼ߹͕֬ఆͨ͠Βใुؔ਺Λ࢖ͬͯɺḪͬͯ
  8. ڧԽֶश ํࡦؔ਺ͷධՁ 4 ڭࢣ͋Γֶशͷํࡦؔ਺ ͱ͘Β΂ͯ 80% ͷউ ཰ 4 KGS

    ୈ̎Ґͷ࣮ྗͷΦʔϓϯιʔεAIɺPachi ͱ΋ରܾ 4 MCS ϕʔεɻ̍ख͋ͨΓ10ສͷݕࡧɻ 4 RLP ͷউ཰͸ 85% (SLP͸ 11%)
  9. Ձ஋؍਺ 4 : ϙϦγʔpͷ࣌ʹ͋Δঢ়ଶ͔ΒɺউͯΔظ଴஋Λฦ͢ 4 ࣮ࡍʹ׬શͳՁ஋؍਺( )Λ࡞Δͷ͸೉͍͠ͷͰ ઌʹ࡞ͬͨ࠷ڧͷํ਑ؔ਺ ( )͔Βࢉग़

    : 4 ύϥϝʔλ͸ : 4 ωοτϫʔΫߏ଄͸ɺํ਑ؔ਺ʹ͍͕ۙɺग़ྗ͕̍ͭɻ 4 ঢ়ଶ(s) ͱ ݁Ռ(z) ͷ૊Έ߹ΘͤΛڭࢣͱֶͯ͠शΛ͍ͯ͘͠ɻ
  10. Ձ஋؍਺ͷֶशͷࣦഊ 4 ਓؒͷعේ͚ͩͰֶश͠Α͏ͱ͢Δͱɺաֶश͕ى͖΍͢ ͍ɻ 4 Ұ࿈ͷعේ͸࿈ଓ͓ͯ͠Γɺউͪෛ͚ͷ৘ใΛҰ؏ͯ͠อ ͍࣋ͯ͠ΔͨΊ 4 MSEֶ͕शσʔλͰ 19%

    ͕ͩ ݕূσʔλͰ 37% ͱͳͬ ͯ͠·ͬͨɻ 4 RLPͷعේ͔Β3000ສ݅ͷʮผࢼ߹ʯͷ(s,z)ηοτΛநग़ 4 MSEֶ͕शσʔλͰ22.6%, ݕূ༻σʔλͰ 23.4% 4 ̎ͭʹ͕ࠩগͳ͍ͷͰաֶश͍ͯ͠ͳ͍ɻ
  11. બ୒ ( Selection ) 4 ߦಈՁ஋ؔ਺QͱϘʔφεؔ਺ͷ߹ܭ͕࠷େʹͳΔ΋ͷΛબͿɻ 4 Ϙʔφεؔ਺͸ɺͦͷঢ়ଶͷ֬཰( )ͱ๚໰ճ਺( )Ͱܾ·Δɻ

    : ڭࢣ͋Γֶशͷํࡦؔ਺ 4 ๚໰ճ਺͕૿͑Δ΄ͲɺP͕ݮ͍ͬͯ͘ͷ͸ɺ֦ுΛଅਐ͢Δͨ Ί
  12. ֦ுͱධՁ ( Expantion & Evaluation ) 4 ͕ࠓ·ͰγϛϡϨʔγϣϯͨ͜͠ͱͳ͍( )ͩ ͬͨ৔߹ʹ͸ɺ༿Λ֦ு͢Δɻ

    4 ֦ுͨ͋͠ͱʹɺͦͷ୺ʹ͍ͭͯධՁΛߦ͏ɻ(ධՁؔ਺ ) 4 ͸ ؆қํࡦؔ਺ Λ࢖ͬͯઓΘͤͨ݁Ռ[0,1] 4 ύϥϝʔλ Λ࢖ͬͯɺՁ஋؍਺ͱૉૣ͍γϛϡϨʔγϣ ϯʹΑΔ݁ՌΛࠞͥ͋Θ͍ͤͯΔɻ
  13. อଘ ( Backup ) 4 γϛϡϨʔγϣϯ͕ऴΘͬͨΒɺ֤༿ϊʔυͷؔ਺Λߋ৽͍ͯ͘͠ɻ 4 ๚໰ճ਺ͱߦಈՁ஋؍਺Qͷߋ৽ ͸ ճ໨ʹ

    Λ௨͔ͬͨͲ͏͔ɻ[1,0] γϛϡϨʔγϣϯ͕ऴΘͬͨஈ֊Ͱɺϧʔτ͔Β ͕Ұ൪େ͖͍$ $a$ߦಈΛબ୒͢Δɻ
  14. ิ଍ 4 ͷܭࢉ͸ ΑΓ ͷ΄͏͕ྑ͍ 4 ͷܭࢉ͸ٯɻ ΑΓ ͷ΄͏͕ྑ͍ɻ 4

    ͸࠷దͳ̍खΛ୳͢΂͘࠷దԽ͞Ε͓ͯΓɺ֬཰෼෍ͱͯ͠͸ ͔ͨΑΔɻ 4 ͸ਓؒͷଧͬͨखͷू߹Ͱ͋Γɺଧͪͦ͏ͳखΛΑΓද͍ͯ͠ Δɻ 4 MCTS ͷγϛϡϨʔγϣϯ͸CPUͰඇಉظϚϧνεϨου࣮ߦ 4 Ձ஋؍਺΍ํࡦؔ਺͸GPUͰฒߦͰॲཧ͍ͯ͠Δɻ 4 AlphaGo ͸ 40εϨουɺ48CPUs, 8GPUs 4 ෼ࢄAlphaGo ͸ 40εϨουɺ1202CPUsɺ176GPUs