Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DeepRacerでまなぶ強化学習
Search
tandfy
May 16, 2019
Technology
1
1.4k
DeepRacerでまなぶ強化学習
DeepRacerから強化学習へのとっかかりとして数式を使わず強化学習とDeepRacerとの関連についてまとめてみた内容です。
tandfy
May 16, 2019
Tweet
Share
More Decks by tandfy
See All by tandfy
アプリから集まるイベントデータのリアルタイム処理入門
tandfy
0
1.6k
Amazon SageMakerの最新アップデートの紹介
tandfy
1
900
Amazon Personalizeではじめるレコメンドサービス
tandfy
0
1.1k
DeepRacerで学ぶ機械学習 1.1
tandfy
0
1k
DeepRacerで始める機械学習
tandfy
1
1.7k
Amazon SageMakerではじめる物体検出
tandfy
1
1.1k
Other Decks in Technology
See All in Technology
Retrospectiveを振り返ろう
nakasho
0
130
仕様駆動開発を実現する上流工程におけるAIエージェント活用
sergicalsix
1
330
AI駆動で進める依存ライブラリ更新 ─ Vue プロジェクトの品質向上と開発スピード改善の実践録
sayn0
1
330
AI時代、“平均値”ではいられない
uhyo
8
2.6k
もう外には出ない。より快適なフルリモート環境を目指して
mottyzzz
13
11k
AIプロダクトのプロンプト実践テクニック / Practical Techniques for AI Product Prompts
saka2jp
0
110
SRE × マネジメントレイヤーが挑戦した組織・会社のオブザーバビリティ改革 ― ビジネス価値と信頼性を両立するリアルな挑戦
coconala_engineer
0
280
アウトプットから始めるOSSコントリビューション 〜eslint-plugin-vueの場合〜 #vuefes
bengo4com
3
1.8k
プロダクト開発と社内データ活用での、BI×AIの現在地 / Data_Findy
sansan_randd
1
530
頭部ふわふわ浄酔器
uyupun
0
230
IoTLT@ストラタシスジャパン_20251021
norioikedo
0
140
Open Table Format (OTF) が必要になった背景とその機能 (2025.10.28)
simosako
2
370
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.1k
Documentation Writing (for coders)
carmenintech
75
5.1k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
10
890
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.2k
Rails Girls Zürich Keynote
gr2m
95
14k
The Pragmatic Product Professional
lauravandoore
36
7k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
640
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Leading Effective Engineering Teams in the AI Era
addyosmani
7
640
Agile that works and the tools we love
rasmusluckow
331
21k
Building a Modern Day E-commerce SEO Strategy
aleyda
44
7.8k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.6k
Transcript
%FFQ3BDFSಉձ ୈೋճΦϑϥΠϯษڧձ!େࡕ େᖒ༐ే "84%FFQ3BDFSͰ·ͳͿڧԽֶश
ࣗݾհ େᖒ༐ే w σʔλΠϯςάϨʔγϣϯ෦ػցֶशνʔϜ w ΤϯδχΞ w ݄ೖࣾ
w લ৬ɿ6OJUZͱ͔1)1ͰήʔϜ։ൃ
ࠓ͢༰ %FFQ3BDFSͰΘΕ͍ͯΔڧԽֶशͷೖ wػցֶश wڧԽֶश wํࡦϕʔεͱՁϕʔεɺ"DUPS$SJUJDɺ110 w%FFQ3BDFS w֤ϋΠύʔύϥϝʔλͷҙຯ
ࠓ͞ͳ͍༰ wࣜ wใुઃܭΛ۩ମతʹͲ͏͢Ε͍͍ͷ͔ wϋΠύʔύϥϝʔλʔ۩ମతʹͲ͏ઃఆͨ͠Β͍͍ͷ͔
ػցֶश
ػցֶश ֓ཁ ͬ͘͟Γݴ͏ͱنଇੑΛֶशͤ͞Δ͜ͱɻ wڭࢣ͋Γֶश͑Λ༩͑ͯೖྗͱ͑ͷنଇੑΛֶशͤ͞Δ wڭࢣͳֶ͠शɿ͑Λ༩͑ͣʹೖྗͷنଇੑΛֶशͤ͞Δ wڭࢣ͋Γֶशɿجຊతʹ͑Λ༩͑ͣʹೖྗͷنଇੑΛֶशͤ͞ Δ͕ɺ෦తʹ͑Λ༩͑ͯิॿ͢Δ wڧԽֶशɿ͋ΔڥͰใु͕࠷େԽ͢ΔߦಈબͷنଇੑΛֶशͤ͞Δ
ͳͲ
ػցֶश χϡʔϥϧωοτϫʔΫ֓ཁ ϑΟʔυϑΥϫʔυ χϡʔϥϧωοτϫʔΫ wೖྗ wόονσʔληοτ͔ΒϥϯμϜʹநग़ wΤϙοΫಉ͡σʔληοτΛ͏ճ wग़ྗ
wೖྗ͕//Λ௨ͬͯग़͖ͯͨͷ wྫ dͷ࣮ͳͲ
ڧԽֶश
ڧԽֶश ֓ཁ ڥ͔ΒΤʔδΣϯτʹঢ়ଶ ΤʔδΣϯτ͕ঢ়ଶʹج͍ͮͯ ߦಈ
ڥ͕ߦಈ݁Ռʹج͍ͮͨใु ΛΤʔδΣϯτ dΛ܁Γฦ͢ ࠷େใु͕Β͑ΔߦಈΛબͿΑ͏ʹֶश͢Δ
ڧԽֶश "84%FFQ3BDFS֓ཁ RoboMakerͰͷγϛϡϨʔγϣϯͱ SageMakerͰͷϞσϧͷֶशΛ܁Γฦ͢
ڧԽֶश %FFQ3BDFS༻ޠ ΤʔδΣϯτɿ%FFQ3BDFS ं ঢ়ଶɿ%FFQ3BDFSͷΧϝϥ͔Βͷը૾ ߦಈɿεςΞϦϯάͱͷΈ߹Θͤ
ڧԽֶश ख๏հ ڧԽֶशͷख๏͍Ζ͍Ζ͋ΔͷͰߜͬͯհ w֤ख๏ͷجຊͱͳΔߟ͑ํɺՁϕʔεͱํࡦϕʔε wݸਓతʹཧղʹۤ࿑ͨ͠"DUPS$SJUJD w%FFQ3BDFSͰΘΕ͍ͯΔ1SPYJNBM1PMJDZ0QUJNJ[BUJPO
ڧԽֶश ख๏հ Ձϕʔε wֶश୳ࡧΛਐΊΔதͰɺ֤ঢ়ଶͱߦಈͷՁΛٻΊ ͍ͯ͘ wݱࡏͷঢ়ଶʹ͓͍ͯՁ͕ߴ͍ߦಈ΄ͲબΕ͍͢ wঢ়ଶͱߦಈͷՁ2 T
B ࣍εςοϓҎ߱ಘΒΕΔใ ुͷ૯ͷظ
ڧԽֶश ख๏հ ํࡦϕʔε wؔ ํࡦؔ ΛٻΊͯɺͦͷؔΛ༻͍ͯ ߦಈΛબͿ wํࡦؔঢ়ଶʹదͨ͠ߦಈ
ͷ֬ Λग़ྗ ͢Δ
ڧԽֶश ख๏հ "DUPS$SJUJD w֤ΞϧΰϦζϜͰঢ়ଶՁͱͯ͠ใुͷฏۉΛ͍ͬͯ ͨͱ͜ΖΛՁؔͰஔ͖͑Δ wՁؔͱํࡦؔڞʹֶशͤ͞Δ
ڧԽֶश ख๏հ $MJQQFE 1SPYJNBM1PMJDZ0QUJNJ[BUJPO w%FFQ3BDFSͷֶशʹΘΕͯΔ wํࡦϕʔε wߋ৽લޙͷํࡦ ߦಈͷ֬
ͷൺΛݩʹֶश͢Δ wߋ৽ྔ͕େ͖͘ͳΓ͗͢ͳ͍Α͏ʹ্ݶͱԼݶΛܾΊͯ$MJQ͢Δ
ڧԽֶश ख๏հ 1SPYJNBM1PMJDZ0QUJNJ[BUJPO https://nervanasystems.github.io/coach/components/agents/policy_optimization/ppo.html
AWS DeepRacer
"84%FFQ3BDFS RoboMakerͰͷγϛϡϨʔγϣϯͱ SageMakerͰͷϞσϧͷֶशΛ܁Γฦ͢
"84%FFQ3BDFS ߦಈۭؒ wͱਐߦํͷΈ߹Θͤ Έ߹Θ͕ͤଟ͍ͱ ಈ͖͕ॊೈʹͳΔ ҙਤͨ͠௨Γಈ͘Α͏ʹ ֶशͤ͞Δͷ͍͠
"84%FFQ3BDFS ใुؔ wҐஔͳͲͷσʔλʹج͍ͮͯใुΛ༩ ͑Δ w1ZUIPOͰࣗ༝ʹॻ͚Δ wෛͷՄ wֶश࣌ʹઌͷεςοϓͷใुߟྀ͞ΕΔ ͜ͱʹཹҙ
DeepRacerʹͲ͏ಈ͍ͯ΄͍͔͠ ใुͱ͍͏ܗͰ ఆٛ͢Δ
"84%FFQ3BDFS ϋΠύʔύϥϝʔλ wόοναΠζҰճͷֶशʹ༻͢Δσʔλ ͷ wΤϙοΫֶशϑΣΠζͰͷֶशճ wֶशϞσϧߋ৽࣌ͷޯͷ ֶश͠ ͢͞
wΤϯτϩϐʔߦಈબ࣌ͷϥϯμϜ͞
"84%FFQ3BDFS ϋΠύʔύϥϝʔλ wׂҾઌͷεςοϓΛͲΕ͚ͩॏࢹ͢Δ͔ ઌͷ εςοϓͰͷใुʹର͢Δ wଛࣦλΠϓՁؔͷϞσϧͷଛࣦؔΛͲ͏͢ Δ͔
wγϛϡϨʔγϣϯϑΣΠζͷΤϐιʔυ
·ͱΊ wڧԽֶशͰχϡʔϥϧωοτϫʔΫ // ΛͬͯΔͷ͕ଟ͍ͷͰɺ·ͣ//ͰͷճؼͳͲڭࢣ͋ Γֶश͔Β࢝ΊΔͷҰͭͷख wڧԽֶशͷख๏͍Ζ͍Ζ͋Δ͚ͲɺํࡦϕʔεͱՁϕʔε͕جຊ w%FFQ3BDFSใु͕ؔॏཁ wใुؔओʹͲ͏͍͏ಈ͖Λֶश͍͔ͤͨ͞Ͱฦ͢ใुͷΛܾΊΔ
wجຊతʹରεςοϓͰͷใु͚ͩͰͳ͘ɺকདྷͷεςοϓͰͷใुؚΊͯධՁ͞ΕΔ wϋΠύʔύϥϝʔλֶशͷํͷௐʹ͏ͷ͕ྑ͛͞ wใुϋΠύʔύϥϝʔλͷ֤͕Ͳ͏ֶशʹ׆͔͞ΕΔ͔ͱ͍͏ͱ͜Ζ͔ΒڧԽֶशʹೖΔͷ͕Φε εϝ ڵຯΛ࣋ͬͨํͥͻ͍Ζ͍ΖάάͬͯΈ͍ͯͩ͘͞ʔ ͦͯ͠ɺҰॹʹۤ͠Έͳ͕Βֶͼ·͠ΐʔ