삼목을 정복하자 - Speaker Deck

Slide 1

Slide 1 text

࢖ݾਸ ੿ࠂೞ੗ [email protected]

Slide 2

Slide 2 text

No content

Slide 3

Slide 3 text

ఋѶ਷ ౮ఖషੑפ׮.

Slide 4

Slide 4 text

Tic-tac-toe (also known as Noughts and crosses or Xs and Os) is a paper-and-pencil game for two players, X and O, who take turns marking the spaces in a 3×3 grid. The player who succeeds in placing three of their marks in a horizontal, vertical, or diagonal row wins the game.

Slide 5

Slide 5 text

࢖ݾ੉ ইפਗ਼ই?

Slide 6

Slide 6 text

౮ఖషۆ ੉ܴী ׮ٜ ࢤࣗೞ࣊ࢲ…

Slide 7

Slide 7 text

Ӓؘ۠ ৵ ౮ఖష?

Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

ހప஠ܳ۽

Slide 10

Slide 10 text

౮ఖష৬  ހప஠ܳ۽ܳ ੿ࠂ೤द׮

Slide 11

Slide 11 text

ӒܻҊ ޷פݓझبਃ.

Slide 12

Slide 12 text

׮ܖ૑ ঋח Ѫ • ஶߥܖ࣊օ ׏ۡ ֎౟ਕ௼  (CNN, Convolutional Neural Networks) • ঌ౵Ҋ (AlphaGO) • ӝ҅ ೟ण (Machine Learning) • ӝఋ ੋҕ૑מী ؀ೠ बച ղਊ • ҳӖ ஂস • ݫ੉௼স • ؂झ

Slide 13

Slide 13 text

׮ܖח Ѫ • ޷פݓझ (Minimax) • ހప஠ܳ۽ ౟ܻ Ѩ࢝ (Monte-Carlo Tree Search)

Slide 14

Slide 14 text

਋ࢶ ޷פݓझ

Slide 15

Slide 15 text

਋ࢶ ਤఃೖ٣ই • Minimax (sometimes MinMax or MM[1]) is a decision rule used in decision theory, game theory, statistics and philosophy for minimizing the possible loss for a worst case (maximum loss) scenario.

Slide 16

Slide 16 text

No content

Slide 17

Slide 17 text

ইޖېب Ӓܿਵ۽

Slide 18

Slide 18 text

࢚؀ఢ ࢚؀ఢ: ࣚ೧઴ېਃ

Slide 19

Slide 19 text

਋ܻఢ ਋ܻఢ: ੉੊ ୃӡېਃ

Slide 20

Slide 20 text

࢚؀ఢ ࢚؀ఢ: Minimize

Slide 21

Slide 21 text

਋ܻఢ ਋ܻఢ: Maximise

Slide 22

Slide 22 text

Minimax

Slide 23

Slide 23 text

੹୓ܳ ࠁפ য়ܲଃ ӝ਍੉ ৡ׮.

Slide 24

Slide 24 text

౮ఖష ঱ઁೞաਃ?

Slide 25

Slide 25 text

౮ఖష ঱ઁೞաਃ? 9ѐ 8ѐ 7ѐ ੉Ѥ ౟ܻ੄ ੌࠗۄח Ѣ…

Slide 26

Slide 26 text

੼ࣻח যڌѱ ೞաਃ?

Slide 27

Slide 27 text

੼ࣻ • ੉ӝݶ +10 • ૑ݶ -10

Slide 28

Slide 28 text

੼ࣻо ৵ ੉ۧѱ ױࣽ?

Slide 29

Slide 29 text

੼ࣻ • ੉ӝݶ +10 • ૑ݶ -10 • 3 ಕ੉ૉ ੉റ, ݒ ಕ੉ૉ ݃׮ ੼ࣻ 1੼ х੼ೞӝ.

Slide 30

Slide 30 text

೐۽Ӓې߁਷?

Slide 31

Slide 31 text

౟ܻܳ ٮۄ ഐ୹೤द׮. Maxmize()

Slide 32

Slide 32 text

౟ܻܳ ٮۄ ഐ୹೤द׮. Maxmize() Minimize() Minimize()

Slide 33

Slide 33 text

౟ܻܳ ٮۄ ഐ୹೤द׮. Maxmize() Minimize() Minimize() Maxmize()Maxmize()Maxmize() Maxmize()

Slide 34

Slide 34 text

౟ܻܳ ٮۄ ഐ୹೤द׮. Maxmize() Minimize() Minimize() Maxmize()Maxmize()Maxmize() Maxmize() Maxmize() Maxmize() Maxmize()Maxmize()Maxmize() Maxmize() Maxmize() Maxmize() Maxmize()Maxmize()Maxmize() Maxmize() Minimize() Minimize() Minimize() Minimize() Minimize() Minimize()

Slide 35

Slide 35 text

߄ق਷ (19*19)! ࠗఠ…

Slide 36

Slide 36 text

• ౟ܻח ׮ Ӓ۰ঠ ೞաਃ? • ֎ • Ӓۢ ߄ق਷ ޷פݓझ ޅೞѷ֎ਃ. • ֎

Slide 37

Slide 37 text

Monte-Carlo

Slide 38

Slide 38 text

੐੄੸ੋ ੼ਵ۽  ਗ઱ਯਸ ҳ೧ࠇद׮

Slide 39

Slide 39 text

No content

Slide 40

Slide 40 text

୽࠙੉ ݆਷ ੼੉ ੓׮ݶ  ੼੄ ࠙ನ۽ ਗ઱ਯਸ ҳ೤פ׮

Slide 41

Slide 41 text

ਗ੄ և੉ : ࢎпഋ੄ և੉  =  ਗ ղ੄ ੼ іࣻ : ࢎпഋ ղ੄ ੼ іࣻ

Slide 42

Slide 42 text

៉*(r**2) / 4 * (r**2)=  ਗ ղ ੼ / ࢎпഋ ղ ੼

Slide 43

Slide 43 text

៉=  ਗ ղ ੼ / ࢎпഋ ղ ੼ * 4

Slide 44

Slide 44 text

੐੄୶୹ਸ ৈ۞ߣ ೞݶ Ӕࢎ೧ܳ ҳೡ ࣻ ੓׮ ಪ ֢੉݅ & ਎ۈ

Slide 45

Slide 45 text

Monte-Carlo  Tree Search

Slide 46

Slide 46 text

No content

Slide 47

Slide 47 text

౟ܻ ੿଼ਵ۽ যڃ ౟ܻ۽ оঠೡ૑ Ѿ੿.  eg. և੉ ਋ࢶਵ۽ ֢٘ܳ ׮ ୶оೞ੗. ࢶఖ:

Slide 48

Slide 48 text

֢٘ ೞաܳ ୶о. ഛ੢:

Slide 49

Slide 49 text

ഒ੗ ఠ޷օ ֢٘ (҃ӝ ՘)ө૑ ೒ۨ੉.  ೒ۨ੉ ب઺ী ߑޙೠ Ѫ਷ ֢٘ ୶оೞ૑ ঋ਺.  eg. ےؒೞѱ 1000౸݅ ف੗. दޛۨ੉࣌:

Slide 50

Slide 50 text

दޛۨ੉࣌ Ѿҗ۽ दبೠ പࣻ৬ ੼ࣻܳ ࢚ਤ ֢٘ী јन ৉੹౵:

Slide 51

Slide 51 text

҅ࣘ ߈ࠂ೧ࢲ दب പࣻ৬ ੼ࣻܳ ৢ۰ࢲ weightܳ јन

Slide 52

Slide 52 text

ޙઁ੼

Slide 53

Slide 53 text

ޙઁ੼ • ੹ۚ੄ ࠗ੤ • दޛۨ੉࣌ दр੄ ೙ਃ • ୭੸੄ ׹੉ ইפ׮. • ഛܫ੸ਵ۽ दޛۨ੉࣌੉ ݆ই ૕ࣻ۾ Ӕࢎ೧૗.

Slide 54

Slide 54 text

׮নೠ MCTSܳ ࠇद׮

Slide 55

Slide 55 text

Plain MCTS • ࢶఖীࢲ ಣ١ೣ. (և੉ ਋ࢶ) • ഛܫ੸ਵ۽ оמࢿ হח Ҕীࢲ दрਸ ࠁն.

Slide 56

Slide 56 text

Epsilon greedy • ੐੄੄ εਸ о੿. • 1-ε ഛܫਸ ഝਊ. (weightо ֫਷ Ҕਸ ഛੋ) • ε੄ ഛܫ۽ ఐ೷. (౟ܻܳ և൨) • Ҋ੿੸ਵ۽ ఐ೷ਸ ೞח ࠺ਊ. • ୡӝী ఐ೷ਸ ੸ѱ ೣ.

Slide 57

Slide 57 text

• ఐ೷җ ഝਊী Ӑഋ. • ୡӝী ఐ೷ೞҊ ੉റ ࠁ੿ೞח ध. • UCBо ֫਷ Ҕਸ ߑޙ. • UCB = Upper Conﬁdence Bound

Slide 58

Slide 58 text

Not available yet. https://github.com/dalinaum/Alpha-Kunny