強化学習ハンズオン

NearMeの技術発表資料です

February 17, 2023

Research

200

強化学習ハンズオン

NearMeの技術発表資料です
PRO

February 17, 2023

Tweet

More Decks by NearMeの技術発表資料です

See All by NearMeの技術発表資料です

並列で⽣成AIにコーディングをやらせる

1

54

希望休勤務を考慮したシフト作成

0

21

Hub Labeling による高速経路探索

0

67

Build an AI agent with Mastra

0

70

Rustで強化学習アルゴリズムを実装する vol3

0

37

Webアプリケーションにおけるクラスの設計再入門

1

82

AIエージェント for 予約フォーム

2

150

ULID生成速度を40倍にしたった

2

55

Amazon AuroraとMongoDBのアーキテクチャを比較してみたら結構違った件について

0

28

Other Decks in Research

See All in Research

ストレス計測方法の確立に向けたマルチモーダルデータの活用

0

730

MGDSS：慣性式モーションキャプチャを用いたジェスチャによるドローンの操作 / ec75-yamauchi

0

260

SkySense : A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery

3

260

心理言語学の視点から再考する言語モデルの学習過程

2

430

SSII2025 [SS1] レンズレスカメラ

2

980

20250502_ABEJA_論文読み会_スライド

0

180

Sosiaalisen median katsaus 03/2025 + tekoäly

0

1.3k

データサイエンティストの採用に関するアンケート

datascientistsociety

0

1.1k

1

160

Large Language Model Agent: A Survey on Methodology, Applications and Challenges

12

8.7k

2025年度生成AIの使い方/接し方

1

710

CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations

3

220

Featured

See All Featured

Faster Mobile Websites

307

31k

How To Stay Up To Date on Web Technology

790

250k

Evolution of real-time – Irina Nazarova, EuRuKo, 2024

8

830

Understanding Cognitive Biases in Performance Measurement

29

1.8k

Creating an realtime collaboration tool: Agile Flush - .NET Oxford

30

2.1k

Distributed Sagas: A Protocol for Coordinating Microservices

331

22k

RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub

138

34k

Save Time (by Creating Custom Rails Generators)

31

1.3k

How STYLIGHT went responsive

100

5.6k

30

1.1k

Raft: Consensus for Rubyists

140

7k

How to Create Impact in a Changing Tech Landscape [PerfNow 2023]

53

2.9k

Transcript

0 強化学習ハンズオン 2023-02-17 第32回NearMe技術勉強会 Takuma Kakinoue
1 強化学習ハンズオン • 今回の目的 ◦ 強化学習をするための環境構築＆実行 ◦ サンプルコードの解説 • 必要なライブラリ（python
3.7および3.8で動作確認済） ◦ chainer == 7.7.0 ◦ chainerrl == 0.8.0 ◦ pybullet == 3.0.8 ◦ gym == 0.18.3 • サンプルコード → https://github.com/kakky-hacker/rl-bullet-sample • 参考 → https://qiita.com/KProgramed/items/f256bc0d6e5d27224da2
2 強化学習ハンズオン • 今回は、サンプルとして四足ロボットの歩行動作の学習を行う • 学習前と学習後の比較 ◦ 86行目(agent.load..)のコメントアウトを外して、挙動を確認
3 次回予告 • 巡回セールスマン問題や配送計画問題を強化学習で解いてみる
4 Thank you