Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習
Search
changkita
January 08, 2018
Programming
0
75
強化学習
強化学習の簡単な説明。
changkita
January 08, 2018
Tweet
Share
More Decks by changkita
See All by changkita
仮想通貨こわい
kitah
0
28
ISUCON7 まとめ
kitah
0
30
ISUCON5 まとめ
kitah
0
68
Other Decks in Programming
See All in Programming
サイコロで理解する統計的仮説検定の考え方
tatamiya
4
950
Fragment Composition of GraphQL
quramy
7
1k
Build Apps for iOS, Android & Desktop in 100% Kotlin With Compose Multiplatform (mDevCamp 2024)
zsmb
0
340
コーンフレークから始める モデリング会話入門
ogurotakayuki
0
370
Zero Waste, Radical Magic, and Italian Graft – Quarkus Efficiency Secrets
hollycummins
0
230
2 週間で Twitter Bot を作ってみた
contour_gara
0
520
try! Swift Tokyo 2024 参加報告 / try! Swift Tokyo 2024 Report
hironytic
0
210
ADRを一年運用してみた/adr_after_a_year
hanhan1978
7
2.4k
#phpcon_odawara オープン・クローズドなテストフィクスチャを求めて / open closed test fixtures
77web
3
230
見た目から始める生産性向上
ikumatadokoro
7
850
効率化に挑戦してみたらモバイル開発が少し快適になった話
ryunakayama
0
130
AWS CDKコントリビュートTIPS / aws-cdk-contribution-tips
gotok365
2
200
Featured
See All Featured
Music & Morning Musume
bryan
41
5.6k
Done Done
chrislema
178
15k
Fireside Chat
paigeccino
21
2.6k
Producing Creativity
orderedlist
PRO
337
39k
Web development in the modern age
philhawksworth
202
10k
Designing with Data
zakiwarfel
96
4.8k
Thoughts on Productivity
jonyablonski
58
3.8k
Ruby is Unlike a Banana
tanoku
96
10k
Atom: Resistance is Futile
akmur
259
25k
Being A Developer After 40
akosma
57
580k
How GitHub (no longer) Works
holman
304
140k
Product Roadmaps are Hard
iamctodd
44
9.7k
Transcript
ڧԽֶशͬͯͳΜͩ kita.h
࠷ۙػցֶश͕Ξπ͍ΑͶ • Deep LearningͳͲͷػցֶशٕज़ͷਐาʹ ΑΓɺաڈͷσʔλ͔Βֶश͢Δٕज़େ͖ ͘ਐԽ • ࣸਅʹ͍ࣸͬͯΔରΛೝࣝපؾͷஅɺ ݴޠͷ༁ͳͲ
Ұํɺਓؒ • ਓؒɺաڈͷσʔλͳͲ༩͑ͳͯࣗ͘Β ֶΜͰܦݧ͠ɺεΩϧΛ্ୡͤ͞Δ͜ͱ͕Ͱ ͖Δ
ػցֶशͷओͳ ڭࢣ͋Γֶश ڭࢣͳֶ͠श ڧԽֶश
ڭࢣ͋Γֶश • ࣄલʹ༩͑ΒΕͨσʔλΛʮྫʯʮॿݴʯ ͱΈͳͯ͠ɺͦΕΛΨΠυʹֶͯ͠शΛߦ͏ • ͋Δೖྗͱ༧ଌͯ͠΄͍͠ग़ྗΛֶशσʔ ληοτͱͯ͠ɺະͷ৽͍͠ೖྗʹର͠ ͯ͋Δఔ༧ଌੑೳΛ࣋ͭΑ͏ͳͷ
ڭࢣͳֶ͠श • ʮग़ྗ͖͢ͷʯ͕͋Β͔͡Ίܾ·͍ͬͯ ͳ͍ • σʔλͷഎޙʹଘࡏ͢Δຊ࣭తͳߏΛநग़ ͢ΔͨΊʹΘΕΔ
ڧԽֶशᶃ • ͋Δڥʹ͓͚ΔΤʔδΣϯτ͕ݱࡏͷঢ় گΛ؍ଌ͠ɺऔΔ͖ߦಈΛܾఆ͢ΔΛ ѻ͏ػցֶशͷҰछɻ • ΤʔδΣϯτߦಈΛબ͢Δ͜ͱͰڥ͔ ΒใुΛಘΔɻڧԽֶशҰ࿈ͷߦಈΛ௨͡ ͯใु͕࠷ଟ͘ಘΒΕΔΑ͏ͳํࡦ(Policy) Λֶश͢Δɻ
WikipediaΑΓҾ༻
ڧԽֶशᶄ • ڭࢣ͋Γֶशʹࣅ͍ͯΔ͕ɺ໌֬ͳʮ͑ʯ ఏࣔ͠ͳ͍ • ఏࣔ͞ΕΔͷʮߦಈͷબࢶʯͱʮใुʯ • ʮ͑ʯ=ʮใुʯͰͳ͘ɺڧԽֶशͰͷใ ुʮ֤ߦಈʯʹରͯ͠༩͑ΒΕͣɺʮ࿈ଓ ͨ͠ߦಈͷ݁Ռʯʹରͯ͠༩͑ΒΕΔ
αοΧʔͰྫ͑·͢ᶃ • ΰʔϧΛܾΊͨΒ1ɺͱ͍͏ͷڧԽֶशʹ͓ ͚Δใु • ΰʔϧΛܾΊΔ·ͰͷԾఆʹ͓͚Δߦಈ(ύευ ϦϒϧͳͲ)ʹԿ༩͑ΒΕͳ͍ • ͜͜Ͱd(^_^o)ʮࠓͷύε͍͍ͬ͢ͶʙʯͳͲ ͱࢦ͕ࣔඈΜͰདྷΔͷ͕ɺʮڭࢣ͋Γֶशʯ
αοΧʔͰྫ͑·͢ᶄ • ʮ࿈ଓͨ͠ߦಈͷ݁Ռʯͱͯ͠ΰʔϧͷ1͠ ͔༩͑ΒΕͳ͍ͨΊɺͦΕʹࢸΔύευϦ ϒϧ͕ͲΕ͚ͩྑ͔ͬͨͷ͔ɺΰʔϧͰ͖ ͨέʔεͱͰ͖ͳ͔ͬͨέʔεΛൺͯɺࣗ ࣗͰධՁ͢Δඞཁ͕͋Δ
ڧԽֶश·ͱΊ • ʮ࿈ଓͨ͠ߦಈͷ݁Ռʯʹର͢Δใु͔Βɺ֤ߦ ಈͷʮධՁʯΛࣗࣗͰߋ৽͢Δ • ֤ߦಈʹର͢ΔใुΛஞҰઃఆ͠ͳͯ͘ɺ࠷ऴ తʹใु͕ಘΒΕΔ࿈ଓͨ͠ߦಈΛֶशͯ͘͠Ε Δ • কعғޟͰউͪෛ͚໌֬ͳͷͰɺ࠷ऴతʹ
উͭߦಈֶ͕शͰ͖Δ
ڧԽֶशͷܽ • ࢦ͕ࣔͳ͍தͰࣗࣗͰʮߦಈʹର͢Δධ ՁʯΛ֫ಘ͢Δඞཁ͕͋ΔͨΊɺ࠷దԽʹ ͕͔͔࣌ؒΔ • ڧԽֶश͕֫ಘͨ͠ʮߦಈʹର͢ΔධՁʯ͕ ਓ͕ؒݟͯ߹ཧతͳอূ͕ͳ͍
Deep Q-Learning • ڧԽֶशͷதͷҰछ • Deep Learningͷٕज़ΛɺQ-Learningͱ͍͏ ϑϨʔϜϫʔΫʹԠ༻ͨ͠ͷ
Deep Q-Learning • ͜ΕΛར༻ͯ͠ɺιϧେֶͷݚڀऀ͕ʮԾ ͷඈߦੜ͕ࣗͷඈߦํ๏Λֶश͠शಘ ͢ΔػցֶशΞϧΰϦζϜʯΛจͰൃද • ֶशͯ͠ٸ্ঢۭɺϗόϦϯάͳͲӡಈ εΩϧΛʹண͚ɺোʹͿ͔ͭΒͣʹࣗ ࡏʹඈΔΑ͏ʹ
Deep Q-Learning
ͳʹ͕͍͍ͷ͔ • ࡞ͨ͠ಈ͖ʹಛघޮՌΛೖΕΔ͜ͱͰөը ήʔϜͷίϯςϯπ࡞ʹʹཱͭ • ࣮ࡍʹଘࡏ͠ͳ͍ੜ͖ઈ໓ͨ͠ੜ͖ͷ ಈ͖͕ਪఆͰ͖Δ • ͍͢͝Ͷʔ