入門AlphaGo

ೖ໳AlphaGo 0x64෺ޠ ୈ07໷ “AI” @na_o_ys

͝஫ҙ • ࿦จʹॻ͔Ε͍ͯͳ͍ಠࣗௐࠪ΍ਪଌؚ͕· Ε·͢ • Ұߟ࡯ͩͱࢥͬͯݟ͍ͯͩ͘͞

AlphaGoͱ͸ • ॳΊͯϓϩع࢜ΛഁͬͨғޟAI

ୈҰ෦:  AlphaGoʹࢸΔ·Ͱ

׬શ৘ใήʔϜ • ΦηϩɺνΣεɺকعɺғޟɺetc • ϥϯμϜੑ͕ແ͘ɺ࠷ળख͕ଘࡏ͢Δ • (ݪཧతʹ͸) ઌखඞউɾޙखඞউɾҾ͖෼͚

ήʔϜ໦ • શ୳ࡧͰ࠷ળख͕ٻ·Δ • ܭࢉྔతʹෆՄೳ … ݱہ໘ 1खޙ 2खޙ

ධՁؔ਺ • ൫໘Λ༩͑ΔͱείΞ (༧૝উ཰ͳͲ) Λฦؔ͢਺ • কع΍νΣεͳΒɺۨͷଛಘ΍ޮ͖ͷ਺Λݩʹܭࢉ • ήʔϜ໦ͷ୳ࡧൣғ(ਂ͞)ΛݶఆͰ͖Δ ݱہ໘
1खޙ 2खޙ ධՁ஋ˠ 0.1 0.8 0.3 0.4

ධՁؔ਺ͷ༗ޮੑ • ύϥϝʔλͷબఆɾઃఆ͕ΩϞ • ख࡞ۀ: νΣεͰਓؒΛ௒͑ͨ • ػցֶश: কعͰ΋ਓؒΛ௒͑ͨ •
ғޟ͸ෳࡶੑͷͨΊʹ·ͱ΋ͳධՁؔ਺Λ࡞Εͳ͔ͬ ͨ

ݪ࢝ϞϯςΧϧϩ๏ • ϥϯμϜʹऴہ·Ͱଧͭ (ϩʔϧΞ΢τ) Λ܁Γฦͯ͠ɺউ཰Λܭ ࢉ͢Δํ๏ ϩʔϧΞ΢τΛ܁Γฦͯ͠ উ཰Λܭࢉ উ཰ 7/10
উ཰ 3/10

ϞϯςΧϧϩ໦୳ࡧ (MCTS) • ݪ࢝ϞϯςΧϧϩ๏ΛධՁؔ਺తʹ࢖͏ • n खઌͰϩʔϧΞ΢τ • ༿ͷউ཰Λܭࢉ ※͞Βʹ༿ͷউ཰ʹԠͯ͡ಈతʹࢬמΓɾల։͠ɺ୳ࡧਫ਼౓Λ্͛Δ

ϙϦγʔؔ਺ • f (ہ໘, ࣍ͷҰख) • ࣍ͷҰखͷࣗવ͞Λ͋ΒΘ֬͢཰ີ౓ؔ਺ • عේσʔλ͔Βͷֶश͕༰қ •
ϩʔϧΞ΢τ࣌ʹ࢖͑Δ • ϥϯμϜʹଧͭͷͰ͸ͳ͘ɺ·ͱ΋ͳखΛଧͨͤΔ • ͨͩ͠ߴ଎ʹಈ࡞͢Δඞཁ͕͋Δ

MCTSͷڧ͞ • ϙϦγʔؔ਺ͷ޻෉ͳͲͰΞϚνϡΞߴஈʹඖఢ͢Δڧ͞· Ͱਐา • ϓϩʹ͸ٴ͹ͳ͍ • େہ؍ʹ༏ΕΔ • ʮڱ͘ਂ͍ಡΈʯ͕ऑ͍
• खΛ޿͘ಡΉͨΊ

AlphaGo͕΍ͬͨ͜ͱ • جຊ͸MCTS • ༷ʑͳ޻෉ • CNN(৞ΈࠐΈχϡʔϥϧωοτϫʔΫ) • ڧԽֶश •
ධՁؔ਺ • ฒྻ෼ࢄΞϧΰϦζϜ • MCTS ʹͦΕΒΛ૊ΈࠐΜͩ

ୈೋ෦: AlphaGo

2ͭͷϙϦγʔؔ਺ͱ 1ͭͷධՁؔ਺ ϩʔϧΞ΢τϙϦγʔ ϩʔϧΞ΢τʹ࢖͏ ௒ߴ଎ɾ௿ਫ਼౓ 4-ϙϦγʔ ୳ࡧॱংΛܾΊΔ ௿଎ɾߴਫ਼౓ ධՁؔ਺ ༿ͷධՁ஋(উ཰)Λ௚઀ܭࢉ
ϩʔϧΞ΢τʹΑΔউ཰ͱ଍͠߹ΘͤΔ

ϩʔϧΞ΢τϙϦγʔ • ϩʔϧΞ΢τ(ϥϯμϜϓϨΠ)ʹ࢖͏ϙϦγʔؔ਺ • ߴ଎ੑɹʼɹਫ਼౓ • ਓؒͷعේ800ສہ໘͔Βֶश • ઢܗιϑτϚοΫεؔ਺ •
2ϚΠΫϩඵ (௒ߴ଎) • عේͱͷࢦ͠खҰக཰: 24.2%

SLϙϦγʔ • ໦ͷ୳ࡧॱংΛܾΊΔϙϦγʔؔ਺ • ਫ਼౓ɹʼɹߴ଎ੑ • ਓؒͷعේ3000ສہ໘͔Βֶश • 13૚CNN(৞ΈࠐΈχϡʔϥϧωοτϫʔΫ) •
ը૾ೝࣝͰΑ͘࢖ΘΕΔ • ௿଎: 3ϛϦඵ • عේͱͷࢦ͠खҰக཰: 57%

ධՁؔ਺ • 14૚CNN • SLϙϦγʔΛڧԽֶशͨ͠΋ͷ (RLϙϦγʔ) Λݩʹɺճؼͯ͠࡞Δ 4-ϙϦγʔ 3-ϙϦγʔ ධՁؔ਺
1. ڧԽֶश 2. ϥϯμϜعේੜ੒  (3000ສہ໘) 3. ճؼ

ධՁؔ਺ͷଊ͑ํ • ϩʔϧΞ΢τʹΑΔউ཰ܭࢉΛิ͏΋ͷ • ୯ମͰ͸ͦ͜·Ͱڧ͘ͳ͍ • ධՁؔ਺ͷಛ௃ (ߟ࡯) • ʮڱ͘ਂ͍ಡΈʯʹڧ͍
• ʮRLϙϦγʔ(ڧԽֶश݁Ռ)Λऴہ·Ͱଧͨͤͨࡍͷউ཰ʯͱ౳Ձ • େہ؍͕ແ͍ • Ұຊಓ͔͠ಡ·ͳ͍ .$54ͷಛੑ େہ؍ʹ༏Εͯʮਂ͍ಡΈʯ͕ऑ͍ ͱ ͏·͘ิ͍͍͋ͬͯΔ

ڧ͞ (2015/10࣌఺)

ڧ͞ (2016/3 ࣌఺) R3500+ ͷΠɾηυϧʹ׬উ

ࢀߟ • Mastering the game of Go with deep neural
networks and tree search   (http://www.nature.com/nature/journal/v529/n7587/full/ nature16961.html) • Google AlphaGoͷ࢓૊ΈΛཧղ͢Δ | IT Leaders  (http://it.impressbm.co.jp/articles/-/13474)

ऴΘΓ

入門AlphaGo

入門AlphaGo

na-o-ys

More Decks by na-o-ys

Other Decks in Technology

Featured

Transcript

ೖ໳AlphaGo 0x64෺ޠ ୈ07໷ “AI” @na_o_ys

͝஫ҙ • ࿦จʹॻ͔Ε͍ͯͳ͍ಠࣗௐࠪ΍ਪଌؚ͕· Ε·͢ • Ұߟ࡯ͩͱࢥͬͯݟ͍ͯͩ͘͞

AlphaGoͱ͸ • ॳΊͯϓϩع࢜ΛഁͬͨғޟAI

ୈҰ෦:  AlphaGoʹࢸΔ·Ͱ

׬શ৘ใήʔϜ • ΦηϩɺνΣεɺকعɺғޟɺetc • ϥϯμϜੑ͕ແ͘ɺ࠷ળख͕ଘࡏ͢Δ • (ݪཧతʹ͸) ઌखඞউɾޙखඞউɾҾ͖෼͚

ήʔϜ໦ • શ୳ࡧͰ࠷ળख͕ٻ·Δ • ܭࢉྔతʹෆՄೳ … ݱہ໘ 1खޙ 2खޙ

ධՁؔ਺ • ൫໘Λ༩͑ΔͱείΞ (༧૝উ཰ͳͲ) Λฦؔ͢਺ • কع΍νΣεͳΒɺۨͷଛಘ΍ޮ͖ͷ਺Λݩʹܭࢉ • ήʔϜ໦ͷ୳ࡧൣғ(ਂ͞)ΛݶఆͰ͖Δ ݱہ໘

ධՁؔ਺ͷ༗ޮੑ • ύϥϝʔλͷબఆɾઃఆ͕ΩϞ • ख࡞ۀ: νΣεͰਓؒΛ௒͑ͨ • ػցֶश: কعͰ΋ਓؒΛ௒͑ͨ •

ݪ࢝ϞϯςΧϧϩ๏ • ϥϯμϜʹऴہ·Ͱଧͭ (ϩʔϧΞ΢τ) Λ܁Γฦͯ͠ɺউ཰Λܭ ࢉ͢Δํ๏ ϩʔϧΞ΢τΛ܁Γฦͯ͠ উ཰Λܭࢉ উ཰ 7/10

ϞϯςΧϧϩ໦୳ࡧ (MCTS) • ݪ࢝ϞϯςΧϧϩ๏ΛධՁؔ਺తʹ࢖͏ • n खઌͰϩʔϧΞ΢τ • ༿ͷউ཰Λܭࢉ ※͞Βʹ༿ͷউ཰ʹԠͯ͡ಈతʹࢬמΓɾల։͠ɺ୳ࡧਫ਼౓Λ্͛Δ

ϙϦγʔؔ਺ • f (ہ໘, ࣍ͷҰख) • ࣍ͷҰखͷࣗવ͞Λ͋ΒΘ֬͢཰ີ౓ؔ਺ • عේσʔλ͔Βͷֶश͕༰қ •

MCTSͷڧ͞ • ϙϦγʔؔ਺ͷ޻෉ͳͲͰΞϚνϡΞߴஈʹඖఢ͢Δڧ͞· Ͱਐา • ϓϩʹ͸ٴ͹ͳ͍ • େہ؍ʹ༏ΕΔ • ʮڱ͘ਂ͍ಡΈʯ͕ऑ͍

AlphaGo͕΍ͬͨ͜ͱ • جຊ͸MCTS • ༷ʑͳ޻෉ • CNN(৞ΈࠐΈχϡʔϥϧωοτϫʔΫ) • ڧԽֶश •

ୈೋ෦: AlphaGo

2ͭͷϙϦγʔؔ਺ͱ 1ͭͷධՁؔ਺ ϩʔϧΞ΢τϙϦγʔ ϩʔϧΞ΢τʹ࢖͏ ௒ߴ଎ɾ௿ਫ਼౓ 4-ϙϦγʔ ୳ࡧॱংΛܾΊΔ ௿଎ɾߴਫ਼౓ ධՁؔ਺ ༿ͷධՁ஋(উ཰)Λ௚઀ܭࢉ

ϩʔϧΞ΢τϙϦγʔ • ϩʔϧΞ΢τ(ϥϯμϜϓϨΠ)ʹ࢖͏ϙϦγʔؔ਺ • ߴ଎ੑɹʼɹਫ਼౓ • ਓؒͷعේ800ສہ໘͔Βֶश • ઢܗιϑτϚοΫεؔ਺ •

SLϙϦγʔ • ໦ͷ୳ࡧॱংΛܾΊΔϙϦγʔؔ਺ • ਫ਼౓ɹʼɹߴ଎ੑ • ਓؒͷعේ3000ສہ໘͔Βֶश • 13૚CNN(৞ΈࠐΈχϡʔϥϧωοτϫʔΫ) •

ධՁؔ਺ • 14૚CNN • SLϙϦγʔΛڧԽֶशͨ͠΋ͷ (RLϙϦγʔ) Λݩʹɺճؼͯ͠࡞Δ 4-ϙϦγʔ 3-ϙϦγʔ ධՁؔ਺

ධՁؔ਺ͷଊ͑ํ • ϩʔϧΞ΢τʹΑΔউ཰ܭࢉΛิ͏΋ͷ • ୯ମͰ͸ͦ͜·Ͱڧ͘ͳ͍ • ධՁؔ਺ͷಛ௃ (ߟ࡯) • ʮڱ͘ਂ͍ಡΈʯʹڧ͍

ڧ͞ (2015/10࣌఺)

ڧ͞ (2016/3 ࣌఺) R3500+ ͷΠɾηυϧʹ׬উ

ࢀߟ • Mastering the game of Go with deep neural

ऴΘΓ