定期進捗報告#1 強化学習とモビリティ(仮)

　　　　研究テーマ: 強化学習とモビリティ(仮) 16A5023 大木建人

目次・研究背景・研究目的 - 目的 - 内容 - 方法・現在の進捗状況
・今後の予定

都市部を走る車の乗車時間における渋滞時間の割合研究背景国土交通省による平成 24 年度プローブデータを用いた試算より約4割が渋滞時間！スムーズに流れている時間

・今後の予定

研究目的強化学習を使い渋滞を改善する！

研究目的強化学習を使い渋滞を改善する！強化学習を選択する理由道路を拡張する信号機のアルゴリズムを改善渋滞を改善する様々なアプローチ車両自体を
制御

研究目的強化学習を使い渋滞を改善する！強化学習を選択する理由道路を拡張する信号機のアルゴリズムを改善渋滞を改善する様々なアプローチ総合的な
コスト高し車両自体を制御

研究目的強化学習を使い渋滞を改善する！強化学習を選択する理由道路を拡張する信号機のアルゴリズムを改善渋滞を改善する様々なアプローチ総合的な
コスト高し車両自体を制御使える！

研究目的強化学習を使い渋滞を改善する！強化学習を選択する理由信号機のアルゴリズムを改善車両自体を制御

研究目的強化学習を使い渋滞を改善する！強化学習を選択する理由信号機のアルゴリズムを改善車両自体を制御教師とする正解がない
最適解を環境から考え出さなければならない

最適解を環境から考え出さなければならない環境から答えを見つけ出すことができる強化学習が最適！

・今後の予定

無し！

現在の状況つい最近このテーマでやりたいと自分の中で整理がついた強化学習は勉強してるのでなんとなくイメージがついてる長期的な研究計画を立ててる

長期的な研究計画を立てている :now trelloにて計画とやること、やらなければいけないことを立てている。来週半ばまでに計画を立て終わり、計画に乗っ取り実行していく。 Trelloのカラムに”諦める”を追加するつもり。 Trelloはオープンしています。　よろしくおねがいします。

現在の状況先行研究を探し、どのような強化学習手法を使い渋滞を改善しているかを纏めている DQN アンサンブルGA Double - DQN 仮想方向指示機

今後の予定(直近) どの手法を用いてどのようなアプローチで改善をするのかを考える。 DQN アンサンブルGA Double - DQN 仮想方向指示機

今後の予定(中期) シュミレーターアルゴリズム実装 DQN アンサンブルGA Double - DQN 仮想方向指示機

今後の予定(長期) 論文書く DQN アンサンブルGA Double - DQN 仮想方向指示機頑張りましょう。終

最適解を環境から考え出さなければならない環境から答えを見つけ出すことができる強化学習が最適！

環境から答えを見つけ出すことができる強化学習が最適なワケ機械学習パーグーチョキ教師data じゃあこれに勝てるのは？
？？？補足スライド

環境から答えを見つけ出すことができる強化学習が最適なワケ機械学習パーグーチョキ教師data じゃあこれに勝てるのは？
パー機械学習は答えが明確な問題を解くのが得意。補足スライドパー

環境から答えを見つけ出すことができる強化学習が最適なワケ問題補足スライド 3回ジャンケンして一番配点の高い勝ち方を考えろ！ただし、グーのときは負けると３点貰える！
１回戦２回戦３回戦チョキ: 1点グー: 0点パー: 0点チョキ: 0点グー: 1点パー: 0点チョキ: 3点グー: 1点パー: 0点配点

環境から答えを見つけ出すことができる強化学習が最適なワケ問題補足スライド 3回ジャンケンして一番配点の高い勝ち方を考えろ！ただし、グーのときは負けると３点貰える！
１回戦２回戦３回戦チョキ: 1点グー: 0点パー: 0点チョキ: 0点グー: 1点パー: 0点チョキ: 3点グー: 1点パー: 0点配点これが環境

定期進捗報告#1 強化学習とモビリティ(仮)

定期進捗報告#1 強化学習とモビリティ(仮)

Kento Ohgi

More Decks by Kento Ohgi

Other Decks in Technology

Featured

Transcript

研究テーマ: 強化学習とモビリティ(仮) 16A5023 大木建人

目次・研究背景・研究目的 - 目的 - 内容 - 方法・現在の進捗状況

目次・研究背景・研究目的 - 目的 - 内容 - 方法・現在の進捗状況

都市部を走る車の乗車時間における渋滞時間の割合研究背景国土交通省による平成 24 年度プローブデータを用いた試算より約4割が渋滞時間！スムーズに流れている時間

目次・研究背景・研究目的 - 目的 - 内容 - 方法・現在の進捗状況

研究目的強化学習を使い渋滞を改善する！

研究目的強化学習を使い渋滞を改善する！強化学習を選択する理由道路を拡張する信号機のアルゴリズムを改善渋滞を改善する様々なアプローチ車両自体を

研究目的強化学習を使い渋滞を改善する！強化学習を選択する理由道路を拡張する信号機のアルゴリズムを改善渋滞を改善する様々なアプローチ総合的な

研究目的強化学習を使い渋滞を改善する！強化学習を選択する理由道路を拡張する信号機のアルゴリズムを改善渋滞を改善する様々なアプローチ総合的な

研究目的強化学習を使い渋滞を改善する！強化学習を選択する理由信号機のアルゴリズムを改善車両自体を制御

研究目的強化学習を使い渋滞を改善する！強化学習を選択する理由信号機のアルゴリズムを改善車両自体を制御教師とする正解がない

研究目的強化学習を使い渋滞を改善する！強化学習を選択する理由信号機のアルゴリズムを改善車両自体を制御教師とする正解がない

目次・研究背景・研究目的 - 目的 - 内容 - 方法・現在の進捗状況

無し！

現在の状況つい最近このテーマでやりたいと自分の中で整理がついた強化学習は勉強してるのでなんとなくイメージがついてる長期的な研究計画を立ててる

現在の状況先行研究を探し、どのような強化学習手法を使い渋滞を改善しているかを纏めている DQN アンサンブルGA Double - DQN 仮想方向指示機

今後の予定(直近) どの手法を用いてどのようなアプローチで改善をするのかを考える。 DQN アンサンブルGA Double - DQN 仮想方向指示機

今後の予定(中期) シュミレーターアルゴリズム実装 DQN アンサンブルGA Double - DQN 仮想方向指示機

今後の予定(長期) 論文書く DQN アンサンブルGA Double - DQN 仮想方向指示機頑張りましょう。終

研究目的強化学習を使い渋滞を改善する！強化学習を選択する理由信号機のアルゴリズムを改善車両自体を制御教師とする正解がない

環境から答えを見つけ出すことができる強化学習が最適なワケ機械学習パーグーチョキ教師data じゃあこれに勝てるのは？

環境から答えを見つけ出すことができる強化学習が最適なワケ機械学習パーグーチョキ教師data じゃあこれに勝てるのは？

環境から答えを見つけ出すことができる強化学習が最適なワケ問題補足スライド 3回ジャンケンして一番配点の高い勝ち方を考えろ！ただし、グーのときは負けると３点貰える！

環境から答えを見つけ出すことができる強化学習が最適なワケ問題補足スライド 3回ジャンケンして一番配点の高い勝ち方を考えろ！ただし、グーのときは負けると３点貰える！