DeepRacerでまなぶ強化学習

%FFQ3BDFSಉ޷ձ ୈೋճΦϑϥΠϯษڧձ!େࡕ େᖒ༐ే "84%FFQ3BDFSͰ·ͳͿڧԽֶश

ࣗݾ঺հ େᖒ༐ే w σʔλΠϯςάϨʔγϣϯ෦ػցֶशνʔϜ w ΤϯδχΞ w ೥݄ೖࣾ
w લ৬ɿ6OJUZͱ͔1)1౳ͰήʔϜ։ൃ

ࠓ೔࿩͢಺༰ %FFQ3BDFSͰ࢖ΘΕ͍ͯΔڧԽֶश΁ͷ௒ೖ໳ wػցֶश wڧԽֶश wํࡦϕʔεͱՁ஋ϕʔεɺ"DUPS$SJUJDɺ110 w%FFQ3BDFS w֤ϋΠύʔύϥϝʔλͷҙຯ

ࠓ೔࿩͞ͳ͍಺༰ w਺ࣜ wใुઃܭΛ۩ମతʹͲ͏͢Ε͹͍͍ͷ͔ wϋΠύʔύϥϝʔλʔ͸۩ମతʹͲ͏ઃఆͨ͠Β͍͍ͷ͔

ػցֶश

ػցֶश ֓ཁ ͬ͘͟Γݴ͏ͱنଇੑΛֶशͤ͞Δ͜ͱɻ wڭࢣ͋Γֶश౴͑Λ༩͑ͯೖྗͱ౴͑ͷنଇੑΛֶशͤ͞Δ wڭࢣͳֶ͠शɿ౴͑Λ༩͑ͣʹೖྗͷنଇੑΛֶशͤ͞Δ w൒ڭࢣ͋Γֶशɿجຊతʹ͸౴͑Λ༩͑ͣʹೖྗͷنଇੑΛֶशͤ͞ Δ͕ɺ෦෼తʹ౴͑Λ༩͑ͯิॿ͢Δ wڧԽֶशɿ͋Δ؀ڥͰใु͕࠷େԽ͢Δߦಈબ୒ͷنଇੑΛֶशͤ͞Δ
ͳͲ

ػցֶश χϡʔϥϧωοτϫʔΫ֓ཁ ϑΟʔυϑΥϫʔυ χϡʔϥϧωοτϫʔΫ wೖྗ wόονσʔληοτ͔ΒϥϯμϜʹநग़ wΤϙοΫ਺ಉ͡σʔληοτΛ࢖͏ճ਺ wग़ྗ
wೖྗ͕//Λ௨ͬͯग़͖ͯͨ΋ͷ wྫ dͷ࣮਺ͳͲ

ڧԽֶश

ڧԽֶश ֓ཁ ؀ڥ͔ΒΤʔδΣϯτʹঢ়ଶ ΤʔδΣϯτ͕ঢ়ଶʹج͍ͮͯ ߦಈ
؀ڥ͕ߦಈ݁Ռʹج͍ͮͨใु ΛΤʔδΣϯτ΁ dΛ܁Γฦ͢ ࠷େใु͕΋Β͑ΔߦಈΛબͿΑ͏ʹֶश͢Δ

ڧԽֶश "84%FFQ3BDFS֓ཁ RoboMakerͰͷγϛϡϨʔγϣϯͱ SageMakerͰͷϞσϧͷֶशΛ܁Γฦ͢

ڧԽֶश %FFQ3BDFS༻ޠ ΤʔδΣϯτɿ%FFQ3BDFS ं ঢ়ଶɿ%FFQ3BDFSͷΧϝϥ͔Βͷը૾ ߦಈɿεςΞϦϯάͱ଎౓ͷ૊Έ߹Θͤ

ڧԽֶश ख๏঺հ ڧԽֶशͷख๏͸͍Ζ͍Ζ͋ΔͷͰߜͬͯ঺հ w֤ख๏ͷجຊͱͳΔߟ͑ํɺՁ஋ϕʔεͱํࡦϕʔε wݸਓతʹཧղʹۤ࿑ͨ͠"DUPS$SJUJD w%FFQ3BDFSͰ࢖ΘΕ͍ͯΔ1SPYJNBM1PMJDZ0QUJNJ[BUJPO

ڧԽֶश ख๏঺հ Ձ஋ϕʔε wֶश୳ࡧΛਐΊΔதͰɺ֤ঢ়ଶͱߦಈͷՁ஋ΛٻΊ ͍ͯ͘ wݱࡏͷঢ়ଶʹ͓͍ͯՁ஋͕ߴ͍ߦಈ΄Ͳબ͹Ε΍͍͢ wঢ়ଶͱߦಈͷՁ஋2 T
B ࣍εςοϓҎ߱ಘΒΕΔใ ुͷ૯࿨ͷظ଴஋

ڧԽֶश ख๏঺հ ํࡦϕʔε wؔ਺ ํࡦؔ਺ ΛٻΊͯɺͦͷؔ਺Λ༻͍ͯ ߦಈΛબͿ wํࡦؔ਺ঢ়ଶʹదͨ͠ߦಈ
ͷ֬཰ Λग़ྗ ͢Δ

ڧԽֶश ख๏঺հ "DUPS$SJUJD w֤ΞϧΰϦζϜͰঢ়ଶՁ஋ͱͯ͠ใुͷฏۉΛ࢖͍ͬͯ ͨͱ͜ΖΛՁ஋ؔ਺Ͱஔ͖׵͑Δ wՁ஋ؔ਺ͱํࡦؔ਺ڞʹֶशͤ͞Δ

ڧԽֶश ख๏঺հ $MJQQFE 1SPYJNBM1PMJDZ0QUJNJ[BUJPO w%FFQ3BDFSͷֶशʹ࢖ΘΕͯΔ wํࡦϕʔε wߋ৽લޙͷํࡦ ߦಈͷ֬཰
ͷൺΛݩʹֶश͢Δ wߋ৽ྔ͕େ͖͘ͳΓ͗͢ͳ͍Α͏ʹ্ݶͱԼݶΛܾΊͯ$MJQ͢Δ

ڧԽֶश ख๏঺հ 1SPYJNBM1PMJDZ0QUJNJ[BUJPO https://nervanasystems.github.io/coach/components/agents/policy_optimization/ppo.html

AWS DeepRacer

"84%FFQ3BDFS RoboMakerͰͷγϛϡϨʔγϣϯͱ SageMakerͰͷϞσϧͷֶशΛ܁Γฦ͢

"84%FFQ3BDFS ߦಈۭؒ w଎౓ͱਐߦํ޲ͷ૊Έ߹Θͤ ૊Έ߹Θͤ਺͕ଟ͍ͱ ಈ͖͕ॊೈʹͳΔ ҙਤͨ͠௨Γಈ͘Α͏ʹ ֶशͤ͞Δͷ͸೉͍͠

"84%FFQ3BDFS ใुؔ਺ w଎౓΍ҐஔͳͲͷσʔλʹج͍ͮͯใुΛ༩ ͑Δ w1ZUIPOͰࣗ༝ʹॻ͚Δ wෛͷ஋΋Մ wֶश࣌ʹ͸ઌͷεςοϓͷใु΋ߟྀ͞ΕΔ ͜ͱʹཹҙ
DeepRacerʹͲ͏ಈ͍ͯ΄͍͔͠ ใुͱ͍͏ܗͰ ఆٛ͢Δ

"84%FFQ3BDFS ϋΠύʔύϥϝʔλ wόοναΠζҰճͷֶशʹ࢖༻͢Δσʔλ ͷ਺ wΤϙοΫ਺ֶशϑΣΠζͰͷֶशճ਺ wֶश཰Ϟσϧߋ৽࣌ͷޯ഑ͷ܎਺ ֶश͠ ΍͢͞
wΤϯτϩϐʔߦಈબ୒࣌ͷϥϯμϜ͞

"84%FFQ3BDFS ϋΠύʔύϥϝʔλ wׂҾ཰ઌͷεςοϓΛͲΕ͚ͩॏࢹ͢Δ͔ ઌͷ εςοϓͰͷใुʹର͢Δ܎਺ wଛࣦλΠϓՁ஋ؔ਺ͷϞσϧͷଛࣦؔ਺ΛͲ͏͢ Δ͔
wγϛϡϨʔγϣϯϑΣΠζͷΤϐιʔυ਺

·ͱΊ wڧԽֶशͰ΋χϡʔϥϧωοτϫʔΫ // Λ࢖ͬͯΔ΋ͷ͕ଟ͍ͷͰɺ·ͣ͸//ͰͷճؼͳͲڭࢣ͋ Γֶश͔Β࢝ΊΔͷ΋Ұͭͷख wڧԽֶशͷख๏͸͍Ζ͍Ζ͋Δ͚ͲɺํࡦϕʔεͱՁ஋ϕʔε͕جຊ w%FFQ3BDFS͸ใुؔ਺͕ॏཁ wใुؔ਺͸ओʹͲ͏͍͏ಈ͖Λֶश͍͔ͤͨ͞Ͱฦ͢ใुͷ஋ΛܾΊΔ
wجຊతʹର৅εςοϓͰͷใु͚ͩͰ͸ͳ͘ɺকདྷͷεςοϓͰͷใु΋ؚΊͯධՁ͞ΕΔ wϋΠύʔύϥϝʔλ͸ֶशͷ࢓ํͷௐ੔ʹ࢖͏ͷ͕ྑ͛͞ wใु΍ϋΠύʔύϥϝʔλͷ֤஋͕Ͳ͏ֶशʹ׆͔͞ΕΔ͔ͱ͍͏ͱ͜Ζ͔ΒڧԽֶशʹೖΔͷ͕Φε εϝ ڵຯΛ࣋ͬͨํ͸ͥͻ͍Ζ͍ΖάάͬͯΈ͍ͯͩ͘͞ʔ ͦͯ͠ɺҰॹʹۤ͠Έͳ͕Βֶͼ·͠ΐʔ

DeepRacerでまなぶ強化学習

DeepRacerでまなぶ強化学習

tandfy

More Decks by tandfy

Other Decks in Technology

Featured

Transcript

%FFQ3BDFSಉ޷ձ ୈೋճΦϑϥΠϯษڧձ!େࡕ େᖒ༐ే "84%FFQ3BDFSͰ·ͳͿڧԽֶश

ࣗݾ঺հ େᖒ༐ే w σʔλΠϯςάϨʔγϣϯ෦ػցֶशνʔϜ w ΤϯδχΞ w ೥݄ೖࣾ

ࠓ೔࿩͢಺༰ %FFQ3BDFSͰ࢖ΘΕ͍ͯΔڧԽֶश΁ͷ௒ೖ໳ wػցֶश wڧԽֶश wํࡦϕʔεͱՁ஋ϕʔεɺ"DUPS$SJUJDɺ110 w%FFQ3BDFS w֤ϋΠύʔύϥϝʔλͷҙຯ

ࠓ೔࿩͞ͳ͍಺༰ w਺ࣜ wใुઃܭΛ۩ମతʹͲ͏͢Ε͹͍͍ͷ͔ wϋΠύʔύϥϝʔλʔ͸۩ମతʹͲ͏ઃఆͨ͠Β͍͍ͷ͔

ػցֶश

ػցֶश χϡʔϥϧωοτϫʔΫ֓ཁ ϑΟʔυϑΥϫʔυ χϡʔϥϧωοτϫʔΫ wೖྗ wόονσʔληοτ͔ΒϥϯμϜʹநग़ wΤϙοΫ਺ಉ͡σʔληοτΛ࢖͏ճ਺ wग़ྗ

ڧԽֶश

ڧԽֶश ֓ཁ ؀ڥ͔ΒΤʔδΣϯτʹঢ়ଶ ΤʔδΣϯτ͕ঢ়ଶʹج͍ͮͯ ߦಈ

ڧԽֶश "84%FFQ3BDFS֓ཁ RoboMakerͰͷγϛϡϨʔγϣϯͱ SageMakerͰͷϞσϧͷֶशΛ܁Γฦ͢

ڧԽֶश %FFQ3BDFS༻ޠ ΤʔδΣϯτɿ%FFQ3BDFS ं ঢ়ଶɿ%FFQ3BDFSͷΧϝϥ͔Βͷը૾ ߦಈɿεςΞϦϯάͱ଎౓ͷ૊Έ߹Θͤ

ڧԽֶश ख๏঺հ ڧԽֶशͷख๏͸͍Ζ͍Ζ͋ΔͷͰߜͬͯ঺հ w֤ख๏ͷجຊͱͳΔߟ͑ํɺՁ஋ϕʔεͱํࡦϕʔε wݸਓతʹཧղʹۤ࿑ͨ͠"DUPS$SJUJD w%FFQ3BDFSͰ࢖ΘΕ͍ͯΔ1SPYJNBM1PMJDZ0QUJNJ[BUJPO

ڧԽֶश ख๏঺հ Ձ஋ϕʔε wֶश୳ࡧΛਐΊΔதͰɺ֤ঢ়ଶͱߦಈͷՁ஋ΛٻΊ ͍ͯ͘ wݱࡏͷঢ়ଶʹ͓͍ͯՁ஋͕ߴ͍ߦಈ΄Ͳબ͹Ε΍͍͢ wঢ়ଶͱߦಈͷՁ஋2 T

ڧԽֶश ख๏঺հ ํࡦϕʔε wؔ਺ ํࡦؔ਺ ΛٻΊͯɺͦͷؔ਺Λ༻͍ͯ ߦಈΛબͿ wํࡦؔ਺ঢ়ଶʹదͨ͠ߦಈ

ڧԽֶश ख๏঺հ "DUPS$SJUJD w֤ΞϧΰϦζϜͰঢ়ଶՁ஋ͱͯ͠ใुͷฏۉΛ࢖͍ͬͯ ͨͱ͜ΖΛՁ஋ؔ਺Ͱஔ͖׵͑Δ wՁ஋ؔ਺ͱํࡦؔ਺ڞʹֶशͤ͞Δ

ڧԽֶश ख๏঺հ $MJQQFE 1SPYJNBM1PMJDZ0QUJNJ[BUJPO w%FFQ3BDFSͷֶशʹ࢖ΘΕͯΔ wํࡦϕʔε wߋ৽લޙͷํࡦ ߦಈͷ֬཰

ڧԽֶश ख๏঺հ 1SPYJNBM1PMJDZ0QUJNJ[BUJPO https://nervanasystems.github.io/coach/components/agents/policy_optimization/ppo.html

AWS DeepRacer

"84%FFQ3BDFS RoboMakerͰͷγϛϡϨʔγϣϯͱ SageMakerͰͷϞσϧͷֶशΛ܁Γฦ͢

"84%FFQ3BDFS ߦಈۭؒ w଎౓ͱਐߦํ޲ͷ૊Έ߹Θͤ ૊Έ߹Θͤ਺͕ଟ͍ͱ ಈ͖͕ॊೈʹͳΔ ҙਤͨ͠௨Γಈ͘Α͏ʹ ֶशͤ͞Δͷ͸೉͍͠

"84%FFQ3BDFS ใुؔ਺ w଎౓΍ҐஔͳͲͷσʔλʹج͍ͮͯใुΛ༩ ͑Δ w1ZUIPOͰࣗ༝ʹॻ͚Δ wෛͷ஋΋Մ wֶश࣌ʹ͸ઌͷεςοϓͷใु΋ߟྀ͞ΕΔ ͜ͱʹཹҙ

"84%FFQ3BDFS ϋΠύʔύϥϝʔλ wόοναΠζҰճͷֶशʹ࢖༻͢Δσʔλ ͷ਺ wΤϙοΫ਺ֶशϑΣΠζͰͷֶशճ਺ wֶश཰Ϟσϧߋ৽࣌ͷޯ഑ͷ܎਺ ֶश͠ ΍͢͞

"84%FFQ3BDFS ϋΠύʔύϥϝʔλ wׂҾ཰ઌͷεςοϓΛͲΕ͚ͩॏࢹ͢Δ͔ ઌͷ εςοϓͰͷใुʹର͢Δ܎਺ wଛࣦλΠϓՁ஋ؔ਺ͷϞσϧͷଛࣦؔ਺ΛͲ͏͢ Δ͔