Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習
Search
changkita
January 08, 2018
Programming
0
93
強化学習
強化学習の簡単な説明。
changkita
January 08, 2018
Tweet
Share
More Decks by changkita
See All by changkita
仮想通貨こわい
kitah
0
36
ISUCON7 まとめ
kitah
0
35
ISUCON5 まとめ
kitah
0
74
Other Decks in Programming
See All in Programming
AIエージェント、”どう作るか”で差は出るか? / AI Agents: Does the "How" Make a Difference?
rkaga
4
2k
Patterns of Patterns
denyspoltorak
0
1.4k
コントリビューターによるDenoのすゝめ / Deno Recommendations by a Contributor
petamoriken
0
210
AIエージェントのキホンから学ぶ「エージェンティックコーディング」実践入門
masahiro_nishimi
5
500
【卒業研究】会話ログ分析によるユーザーごとの関心に応じた話題提案手法
momok47
0
200
KIKI_MBSD Cybersecurity Challenges 2025
ikema
0
1.3k
責任感のあるCloudWatchアラームを設計しよう
akihisaikeda
3
180
Apache Iceberg V3 and migration to V3
tomtanaka
0
170
フロントエンド開発の勘所 -複数事業を経験して見えた判断軸の違い-
heimusu
7
2.8k
Architectural Extensions
denyspoltorak
0
300
例外処理とどう使い分ける?Result型を使ったエラー設計 #burikaigi
kajitack
16
6.1k
AIと一緒にレガシーに向き合ってみた
nyafunta9858
0
250
Featured
See All Featured
Color Theory Basics | Prateek | Gurzu
gurzu
0
200
For a Future-Friendly Web
brad_frost
182
10k
What's in a price? How to price your products and services
michaelherold
247
13k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
170
How to Talk to Developers About Accessibility
jct
2
130
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
260
Optimizing for Happiness
mojombo
379
71k
Thoughts on Productivity
jonyablonski
74
5k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.6k
Building an army of robots
kneath
306
46k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
2.1k
Transcript
ڧԽֶशͬͯͳΜͩ kita.h
࠷ۙػցֶश͕Ξπ͍ΑͶ • Deep LearningͳͲͷػցֶशٕज़ͷਐาʹ ΑΓɺաڈͷσʔλ͔Βֶश͢Δٕज़େ͖ ͘ਐԽ • ࣸਅʹ͍ࣸͬͯΔରΛೝࣝපؾͷஅɺ ݴޠͷ༁ͳͲ
Ұํɺਓؒ • ਓؒɺաڈͷσʔλͳͲ༩͑ͳͯࣗ͘Β ֶΜͰܦݧ͠ɺεΩϧΛ্ୡͤ͞Δ͜ͱ͕Ͱ ͖Δ
ػցֶशͷओͳ ڭࢣ͋Γֶश ڭࢣͳֶ͠श ڧԽֶश
ڭࢣ͋Γֶश • ࣄલʹ༩͑ΒΕͨσʔλΛʮྫʯʮॿݴʯ ͱΈͳͯ͠ɺͦΕΛΨΠυʹֶͯ͠शΛߦ͏ • ͋Δೖྗͱ༧ଌͯ͠΄͍͠ग़ྗΛֶशσʔ ληοτͱͯ͠ɺະͷ৽͍͠ೖྗʹର͠ ͯ͋Δఔ༧ଌੑೳΛ࣋ͭΑ͏ͳͷ
ڭࢣͳֶ͠श • ʮग़ྗ͖͢ͷʯ͕͋Β͔͡Ίܾ·͍ͬͯ ͳ͍ • σʔλͷഎޙʹଘࡏ͢Δຊ࣭తͳߏΛநग़ ͢ΔͨΊʹΘΕΔ
ڧԽֶशᶃ • ͋Δڥʹ͓͚ΔΤʔδΣϯτ͕ݱࡏͷঢ় گΛ؍ଌ͠ɺऔΔ͖ߦಈΛܾఆ͢ΔΛ ѻ͏ػցֶशͷҰछɻ • ΤʔδΣϯτߦಈΛબ͢Δ͜ͱͰڥ͔ ΒใुΛಘΔɻڧԽֶशҰ࿈ͷߦಈΛ௨͡ ͯใु͕࠷ଟ͘ಘΒΕΔΑ͏ͳํࡦ(Policy) Λֶश͢Δɻ
WikipediaΑΓҾ༻
ڧԽֶशᶄ • ڭࢣ͋Γֶशʹࣅ͍ͯΔ͕ɺ໌֬ͳʮ͑ʯ ఏࣔ͠ͳ͍ • ఏࣔ͞ΕΔͷʮߦಈͷબࢶʯͱʮใुʯ • ʮ͑ʯ=ʮใुʯͰͳ͘ɺڧԽֶशͰͷใ ुʮ֤ߦಈʯʹରͯ͠༩͑ΒΕͣɺʮ࿈ଓ ͨ͠ߦಈͷ݁Ռʯʹରͯ͠༩͑ΒΕΔ
αοΧʔͰྫ͑·͢ᶃ • ΰʔϧΛܾΊͨΒ1ɺͱ͍͏ͷڧԽֶशʹ͓ ͚Δใु • ΰʔϧΛܾΊΔ·ͰͷԾఆʹ͓͚Δߦಈ(ύευ ϦϒϧͳͲ)ʹԿ༩͑ΒΕͳ͍ • ͜͜Ͱd(^_^o)ʮࠓͷύε͍͍ͬ͢ͶʙʯͳͲ ͱࢦ͕ࣔඈΜͰདྷΔͷ͕ɺʮڭࢣ͋Γֶशʯ
αοΧʔͰྫ͑·͢ᶄ • ʮ࿈ଓͨ͠ߦಈͷ݁Ռʯͱͯ͠ΰʔϧͷ1͠ ͔༩͑ΒΕͳ͍ͨΊɺͦΕʹࢸΔύευϦ ϒϧ͕ͲΕ͚ͩྑ͔ͬͨͷ͔ɺΰʔϧͰ͖ ͨέʔεͱͰ͖ͳ͔ͬͨέʔεΛൺͯɺࣗ ࣗͰධՁ͢Δඞཁ͕͋Δ
ڧԽֶश·ͱΊ • ʮ࿈ଓͨ͠ߦಈͷ݁Ռʯʹର͢Δใु͔Βɺ֤ߦ ಈͷʮධՁʯΛࣗࣗͰߋ৽͢Δ • ֤ߦಈʹର͢ΔใुΛஞҰઃఆ͠ͳͯ͘ɺ࠷ऴ తʹใु͕ಘΒΕΔ࿈ଓͨ͠ߦಈΛֶशͯ͘͠Ε Δ • কعғޟͰউͪෛ͚໌֬ͳͷͰɺ࠷ऴతʹ
উͭߦಈֶ͕शͰ͖Δ
ڧԽֶशͷܽ • ࢦ͕ࣔͳ͍தͰࣗࣗͰʮߦಈʹର͢Δධ ՁʯΛ֫ಘ͢Δඞཁ͕͋ΔͨΊɺ࠷దԽʹ ͕͔͔࣌ؒΔ • ڧԽֶश͕֫ಘͨ͠ʮߦಈʹର͢ΔධՁʯ͕ ਓ͕ؒݟͯ߹ཧతͳอূ͕ͳ͍
Deep Q-Learning • ڧԽֶशͷதͷҰछ • Deep Learningͷٕज़ΛɺQ-Learningͱ͍͏ ϑϨʔϜϫʔΫʹԠ༻ͨ͠ͷ
Deep Q-Learning • ͜ΕΛར༻ͯ͠ɺιϧେֶͷݚڀऀ͕ʮԾ ͷඈߦੜ͕ࣗͷඈߦํ๏Λֶश͠शಘ ͢ΔػցֶशΞϧΰϦζϜʯΛจͰൃද • ֶशͯ͠ٸ্ঢۭɺϗόϦϯάͳͲӡಈ εΩϧΛʹண͚ɺোʹͿ͔ͭΒͣʹࣗ ࡏʹඈΔΑ͏ʹ
Deep Q-Learning
ͳʹ͕͍͍ͷ͔ • ࡞ͨ͠ಈ͖ʹಛघޮՌΛೖΕΔ͜ͱͰөը ήʔϜͷίϯςϯπ࡞ʹʹཱͭ • ࣮ࡍʹଘࡏ͠ͳ͍ੜ͖ઈ໓ͨ͠ੜ͖ͷ ಈ͖͕ਪఆͰ͖Δ • ͍͢͝Ͷʔ