Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習
Search
changkita
January 08, 2018
Programming
0
93
強化学習
強化学習の簡単な説明。
changkita
January 08, 2018
Tweet
Share
More Decks by changkita
See All by changkita
仮想通貨こわい
kitah
0
36
ISUCON7 まとめ
kitah
0
35
ISUCON5 まとめ
kitah
0
74
Other Decks in Programming
See All in Programming
Honoを使ったリモートMCPサーバでAIツールとの連携を加速させる!
tosuri13
1
180
AIエージェントのキホンから学ぶ「エージェンティックコーディング」実践入門
masahiro_nishimi
5
530
izumin5210のプロポーザルのネタ探し #tskaigi_msup
izumin5210
1
140
Unicodeどうしてる? PHPから見たUnicode対応と他言語での対応についてのお伺い
youkidearitai
PRO
1
2.6k
ぼくの開発環境2026
yuzneri
0
240
カスタマーサクセス業務を変革したヘルススコアの実現と学び
_hummer0724
0
730
ノイジーネイバー問題を解決する 公平なキューイング
occhi
0
110
OSSとなったswift-buildで Xcodeのビルドを差し替えられるため 自分でXcodeを直せる時代になっている ダイアモンド問題編
yimajo
3
620
360° Signals in Angular: Signal Forms with SignalStore & Resources @ngLondon 01/2026
manfredsteyer
PRO
0
130
20260127_試行錯誤の結晶を1冊に。著者が解説 先輩データサイエンティストからの指南書 / author's_commentary_ds_instructions_guide
nash_efp
1
980
AgentCoreとHuman in the Loop
har1101
5
240
Oxlintはいいぞ
yug1224
5
1.4k
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
57
50k
Music & Morning Musume
bryan
47
7.1k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
140
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
190
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.7k
How STYLIGHT went responsive
nonsquared
100
6k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
450
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
310
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Navigating Weather and Climate Data
rabernat
0
110
A Tale of Four Properties
chriscoyier
162
24k
Transcript
ڧԽֶशͬͯͳΜͩ kita.h
࠷ۙػցֶश͕Ξπ͍ΑͶ • Deep LearningͳͲͷػցֶशٕज़ͷਐาʹ ΑΓɺաڈͷσʔλ͔Βֶश͢Δٕज़େ͖ ͘ਐԽ • ࣸਅʹ͍ࣸͬͯΔରΛೝࣝපؾͷஅɺ ݴޠͷ༁ͳͲ
Ұํɺਓؒ • ਓؒɺաڈͷσʔλͳͲ༩͑ͳͯࣗ͘Β ֶΜͰܦݧ͠ɺεΩϧΛ্ୡͤ͞Δ͜ͱ͕Ͱ ͖Δ
ػցֶशͷओͳ ڭࢣ͋Γֶश ڭࢣͳֶ͠श ڧԽֶश
ڭࢣ͋Γֶश • ࣄલʹ༩͑ΒΕͨσʔλΛʮྫʯʮॿݴʯ ͱΈͳͯ͠ɺͦΕΛΨΠυʹֶͯ͠शΛߦ͏ • ͋Δೖྗͱ༧ଌͯ͠΄͍͠ग़ྗΛֶशσʔ ληοτͱͯ͠ɺະͷ৽͍͠ೖྗʹର͠ ͯ͋Δఔ༧ଌੑೳΛ࣋ͭΑ͏ͳͷ
ڭࢣͳֶ͠श • ʮग़ྗ͖͢ͷʯ͕͋Β͔͡Ίܾ·͍ͬͯ ͳ͍ • σʔλͷഎޙʹଘࡏ͢Δຊ࣭తͳߏΛநग़ ͢ΔͨΊʹΘΕΔ
ڧԽֶशᶃ • ͋Δڥʹ͓͚ΔΤʔδΣϯτ͕ݱࡏͷঢ় گΛ؍ଌ͠ɺऔΔ͖ߦಈΛܾఆ͢ΔΛ ѻ͏ػցֶशͷҰछɻ • ΤʔδΣϯτߦಈΛબ͢Δ͜ͱͰڥ͔ ΒใुΛಘΔɻڧԽֶशҰ࿈ͷߦಈΛ௨͡ ͯใु͕࠷ଟ͘ಘΒΕΔΑ͏ͳํࡦ(Policy) Λֶश͢Δɻ
WikipediaΑΓҾ༻
ڧԽֶशᶄ • ڭࢣ͋Γֶशʹࣅ͍ͯΔ͕ɺ໌֬ͳʮ͑ʯ ఏࣔ͠ͳ͍ • ఏࣔ͞ΕΔͷʮߦಈͷબࢶʯͱʮใुʯ • ʮ͑ʯ=ʮใुʯͰͳ͘ɺڧԽֶशͰͷใ ुʮ֤ߦಈʯʹରͯ͠༩͑ΒΕͣɺʮ࿈ଓ ͨ͠ߦಈͷ݁Ռʯʹରͯ͠༩͑ΒΕΔ
αοΧʔͰྫ͑·͢ᶃ • ΰʔϧΛܾΊͨΒ1ɺͱ͍͏ͷڧԽֶशʹ͓ ͚Δใु • ΰʔϧΛܾΊΔ·ͰͷԾఆʹ͓͚Δߦಈ(ύευ ϦϒϧͳͲ)ʹԿ༩͑ΒΕͳ͍ • ͜͜Ͱd(^_^o)ʮࠓͷύε͍͍ͬ͢ͶʙʯͳͲ ͱࢦ͕ࣔඈΜͰདྷΔͷ͕ɺʮڭࢣ͋Γֶशʯ
αοΧʔͰྫ͑·͢ᶄ • ʮ࿈ଓͨ͠ߦಈͷ݁Ռʯͱͯ͠ΰʔϧͷ1͠ ͔༩͑ΒΕͳ͍ͨΊɺͦΕʹࢸΔύευϦ ϒϧ͕ͲΕ͚ͩྑ͔ͬͨͷ͔ɺΰʔϧͰ͖ ͨέʔεͱͰ͖ͳ͔ͬͨέʔεΛൺͯɺࣗ ࣗͰධՁ͢Δඞཁ͕͋Δ
ڧԽֶश·ͱΊ • ʮ࿈ଓͨ͠ߦಈͷ݁Ռʯʹର͢Δใु͔Βɺ֤ߦ ಈͷʮධՁʯΛࣗࣗͰߋ৽͢Δ • ֤ߦಈʹର͢ΔใुΛஞҰઃఆ͠ͳͯ͘ɺ࠷ऴ తʹใु͕ಘΒΕΔ࿈ଓͨ͠ߦಈΛֶशͯ͘͠Ε Δ • কعғޟͰউͪෛ͚໌֬ͳͷͰɺ࠷ऴతʹ
উͭߦಈֶ͕शͰ͖Δ
ڧԽֶशͷܽ • ࢦ͕ࣔͳ͍தͰࣗࣗͰʮߦಈʹର͢Δධ ՁʯΛ֫ಘ͢Δඞཁ͕͋ΔͨΊɺ࠷దԽʹ ͕͔͔࣌ؒΔ • ڧԽֶश͕֫ಘͨ͠ʮߦಈʹର͢ΔධՁʯ͕ ਓ͕ؒݟͯ߹ཧతͳอূ͕ͳ͍
Deep Q-Learning • ڧԽֶशͷதͷҰछ • Deep Learningͷٕज़ΛɺQ-Learningͱ͍͏ ϑϨʔϜϫʔΫʹԠ༻ͨ͠ͷ
Deep Q-Learning • ͜ΕΛར༻ͯ͠ɺιϧେֶͷݚڀऀ͕ʮԾ ͷඈߦੜ͕ࣗͷඈߦํ๏Λֶश͠शಘ ͢ΔػցֶशΞϧΰϦζϜʯΛจͰൃද • ֶशͯ͠ٸ্ঢۭɺϗόϦϯάͳͲӡಈ εΩϧΛʹண͚ɺোʹͿ͔ͭΒͣʹࣗ ࡏʹඈΔΑ͏ʹ
Deep Q-Learning
ͳʹ͕͍͍ͷ͔ • ࡞ͨ͠ಈ͖ʹಛघޮՌΛೖΕΔ͜ͱͰөը ήʔϜͷίϯςϯπ࡞ʹʹཱͭ • ࣮ࡍʹଘࡏ͠ͳ͍ੜ͖ઈ໓ͨ͠ੜ͖ͷ ಈ͖͕ਪఆͰ͖Δ • ͍͢͝Ͷʔ