Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ぼくのかんがえたさいきょうのマリオAI
Search
Ushitora Anqou
December 10, 2018
Programming
1
600
ぼくのかんがえたさいきょうのマリオAI
Ushitora Anqou
December 10, 2018
Tweet
Share
More Decks by Ushitora Anqou
See All by Ushitora Anqou
Oblivious Online Monitoring for Safety LTL Specification via Fully Homomorphic Encryption
anqou
1
960
F*でプログラムの正しさを証明する
anqou
1
1.2k
「自作CPUでサイゼリヤ問題」を支える技術
anqou
2
370
10ステップで作るお手軽インタプリタ開発
anqou
3
1.1k
seccamp2018でセルフホストCコンパイラをつくった
anqou
8
5.7k
Other Decks in Programming
See All in Programming
そのAIレビュー、レビューしてますか? / Are you reviewing those AI reviews?
rkaga
6
4.6k
CSC307 Lecture 07
javiergs
PRO
0
550
React 19でつくる「気持ちいいUI」- 楽観的UIのすすめ
himorishige
11
7.4k
CSC307 Lecture 03
javiergs
PRO
1
490
15年続くIoTサービスのSREエンジニアが挑む分散トレーシング導入
melonps
2
200
AIフル活用時代だからこそ学んでおきたい働き方の心得
shinoyu
0
130
Patterns of Patterns
denyspoltorak
0
1.4k
AI時代の認知負荷との向き合い方
optfit
0
160
Basic Architectures
denyspoltorak
0
670
AgentCoreとHuman in the Loop
har1101
5
240
副作用をどこに置くか問題:オブジェクト指向で整理する設計判断ツリー
koxya
1
610
Oxlintはいいぞ
yug1224
5
1.3k
Featured
See All Featured
So, you think you're a good person
axbom
PRO
2
1.9k
Unsuck your backbone
ammeep
671
58k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
120
Tell your own story through comics
letsgokoyo
1
810
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
140
Imperfection Machines: The Place of Print at Facebook
scottboms
269
14k
ラッコキーワード サービス紹介資料
rakko
1
2.3M
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.3k
Agile that works and the tools we love
rasmusluckow
331
21k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.6k
The Pragmatic Product Professional
lauravandoore
37
7.1k
A better future with KSS
kneath
240
18k
Transcript
ぼくのかんがえた さいきょうのマリオ AI 艮 鮟鱇 @ushitora anqou 1
とりあえずデモ https://twitter.com/ ushitora_anqou/status/ 1061234857181765633 2
とりあえずデモ https://goo.gl/VJhD8Q Google URL Shortener は 2019 年 3 月で
サービス終了 3
すごくない?? 4
すごい! 5
いろんなやりかた 6
いろんなやりかた • ルールベース • すたっとさんとか • つらそう 6
いろんなやりかた • ルールベース • すたっとさんとか • つらそう • 遺伝的アルゴリズム •
VT-b とか • つらそう 6
いろんなやりかた • ルールベース • すたっとさんとか • つらそう • 遺伝的アルゴリズム •
VT-b とか • つらそう • ヂープラニーング(DQN) • 梅さんとか • つらそう 6
設定 • エージェント(AI)がマリオをする。 • 環境情報を受け取り、ボタンの押し方 を返す。 画像引用:http://ur0.biz/Ok3H 7
想定解 入力:マリオの状態や周りの情報 ⬇ エージェント f (x) ⬇ 出力:ボタンの押し方 8
ところで • マリオ AI のステージは固定 • ランダム要素はない。 • エージェント出力の種類は有限 •
6 個のボタンの ON/OFF なので 26 = 64 ⬇ 出力を全て決めればその評価は一定 9
どゆこと? 事前にエージェントの出力を決める。 1. 右移動+ダッシュ 2. 右移動+ジャンプ 3. ジャンプ . .
. これを出力した後の状態を評価すると、そ の出力の「よさ」が分かる ➡ 探索可能 10
想定解(再掲) 入力:マリオの状態や周りの情報 ⬇ エージェント f (x) ⬇ 出力:ボタンの押し方 11
鮟鱇解 あからじめ出力が決められた エージェント f () ⬇ 出力:ボタンの押し方 12
全幅探索 計算量:O(64n) 13
おねえさーぁぁん! 画像引用:https://youtu.be/Q4gTV4r0zRs 14
すくなく計算する 64 通りも要らない。 • 左移動と右移動を同時に入力すること はない。 • 上移動は使わない。 • 四六時中ダッシュすればいい。
15
すくなく計算する 4 通りに減らせる。 • ダッシュ+左移動 • ダッシュ+右移動 • ダッシュ+左移動+ジャンプ •
ダッシュ+右移動+ジャンプ 16
続‧すくなく計算する 人間がマリオを遊ぶ。 • 人間の反応時間は 0.2s。 • 片や PC の画面更新は 30fps
→ 0.033s ➡ 人間のほとんどの反応は前と同じ 同様にエージェントの出力をダブらせる。 17
計算量:O ( 4n k ) 18
指数時間はいやだ! 多項式時間で計算したい。 • 貪欲法 • 一番良さそうな手を選択することを繰り 返す。 • 捨てる手が多い。 •
計算量は O(4n) • ビームサーチ • 貪欲法の拡張。 • 今回はこれを選択。 19
ビームサーチ • 良さそうな手を m 個持っておき、その 手から伸びる手を探索する。 • 探索した手のうち、上位 m 個を次の探
索で使う。 • 計算量は O(4mn) • わりとうまくいく。 20
ところで 21
ところで 「良さそうな手」ってなに? 21
評価関数をつくる ϕ : 手 −→ 評価値 ある手がどのくらい「良い」のかを表す関 数をつくる。 22
評価関数をつくる ϕ : 手 −→ 評価値 ある手がどのくらい「良い」のかを表す関 数をつくる。 めっちゃ難しい。 22
続‧評価関数をつくる • マリオの x 座標を使う? • 無謀にジャンプして距離を稼ぎ死ぬ。 • 袋小路に入って死ぬ。 •
マリオの y 座標を使う? • ジャンプし続けて死ぬ。 • その他の指標? • わからん!w 23
どうしたか 「接地していたマリオの x 座標の最大値」 24
どうしたか 「接地していたマリオの x 座標の最大値」 • 接地していないと評価にならない。 • 無謀なジャンプを低評価に。 • 最大値をとることで袋小路にスタック
することを防ぐ。 • 全ての行動が等価になるので、乱択で行 動が決まる。 24
評価関数図解 1 25
評価関数図解 2 26
評価関数図解 3 27
まとめ • マリオ AI は意外と難しかった。 • 正直喋れてないことはたくさんある。 • どうでもいいけどステージ 4–1
は クソ。 • そのうちコソッとコードは公開します。 28
ご清聴 ありがとうござ いました 29