Slide 1

Slide 1 text

遊戯王 AI は次世代のグランドチャレン ジになりうるか Asei Sugiyama

Slide 2

Slide 2 text

自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑 共著 決闘者 @ マスターデュエル

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

TOC 遊戯王 AI チャレンジ <- 既存の CPU から見る遊戯王 AI の難しさ 機械学習としての遊戯王 AI の難しさ

Slide 6

Slide 6 text

遊戯王 AI チャレンジ 遊戯王 AI とは マスターデュエル 古の遊戯王: 俺のターン! 現代遊戯王: 俺のターン! 現代遊戯王の特徴 手札誘発 「環境」 カードの追加・制限改定 まとめ

Slide 7

Slide 7 text

遊戯王 AI とは 2024 年 2 月 4 日 遊戯王カ ードゲーム 25 周年記念イベ ントで発表されたもの 今後、マスターデュエルで 動く AI を開発できるように なる計画 【公式】最新情報ステージ【2月4日】/ 遊戯王デュエルモンスターズ 決闘者伝説 QUARTER CENTURY - YouTube https://www.youtube.com/live/sKp_HGjg7vQ? si=lLKLAQl6Q8rmN_4W&t=2838

Slide 8

Slide 8 text

マスターデュエル 遊戯王 OCG (Official Card Game) のカードを使って行 う DCG (Digital Card Game) ルールやカードの効果は紙 のカードとまったく同じ (DCG では珍しい)

Slide 9

Slide 9 text

古の遊戯王: 俺のターン! ドロー! 俺はモンスターを召喚! カードを 2 枚場に伏せ ターン終了

Slide 10

Slide 10 text

現代遊戯王: 俺のターン! 俺は斬機シグマをデッキから墓地に送り、手札から斬機サーキュラーの 効果を発動、このカードを特殊召喚する 墓地の斬機シグマの効果を発動、このカードを特殊召喚する 斬機サーキュラーの効果を発動、「デッキから「斬機」魔法・罠カード 1 枚を手札に加える」効果により斬機方程式を手札に加える レベル 4 のモンスター 2 体でエクシーズ召喚、塊斬機ダランベルシアン を特殊召喚 特殊召喚された塊斬機ダランベルシアンのエクシーズ素材を 2 つ取り除 いて『デッキから「斬機」カード 1 枚を手札に加える』効果を発動、斬 機ダイアを手札に加える

Slide 11

Slide 11 text

現代遊戯王の特徴 マスターデュエルでは先攻 1 ターン目に 5 分程度かかる 大体、2 ターン目に決着がつくか、3 ターン目を迎えるかの勝負 相手ターンに効果を発動できる、手札誘発と呼ばれるカードを採用する デッキが大半

Slide 12

Slide 12 text

手札誘発 相手の行動に対して手札か ら発動できるカード群 相手ターンであっても、手 札から発動できるので、先 攻 1 ターン目からプレイヤ ー間でのやり取りが発生す る 代表例は灰流うらら (デッキ からカードを手札に加える 効果を無効)

Slide 13

Slide 13 text

「環境」 (1/2) 「どんなカードが存在して いるか」「どんなカードが 流行っているか」「どんな デッキが大会で大多数を占 めるか」をまとめて「環 境」という。 (from 遊戯王 Wiki) 遊戯王カードWiki - 環境 https://yugioh-wiki.net/index.php?�Ķ�

Slide 14

Slide 14 text

「環境」 (2/2) 環境は次のもので大きく左右される 新規追加カード 制限改定 メタゲーム 公開された情報から、お互いの手札を想像し、次の動きを読み合うのが 遊戯王の基本

Slide 15

Slide 15 text

カードの追加 遊戯王 OCG とマスターデ ュエルは共通して、最低で も月に 1 回新しいカードが 追加される 基本的には、新しいカード のほうが強い あまりにも強すぎるカード がリリースされることもあ る

Slide 16

Slide 16 text

制限改定 (1/2) 基本的にはプレイヤーは強 いカードを採用するので、 環境が特定のカードで占め られることもある (例: ティ ラメンツ)

Slide 17

Slide 17 text

制限改定 (2/2) 特定のカードしか使われな い環境はあまり楽しくない 運営がカードの利用可能な 枚数に制約を課したり(準制 限は 2 枚、制限は 1 枚)、カ ードを使えなくしたりする (禁止カードへの指定)

Slide 18

Slide 18 text

マスターデュエルまとめ 現代の遊戯王は 1 ターンが長くだいたい 2 − 3 ターンで決着がつく 先攻 1 ターンの間にも、後攻側は手札誘発カードを用いてくるため、読 み合いが発生している 公開された情報から、お互いの手札に存在するカードを想像して次の動 きを読み合うのが基本的なやり取り 環境でよく見るカード群が存在するものの、新カードのリリースや、制 限改定によって、よく採用されるカードは結構頻繁に変わる

Slide 19

Slide 19 text

TOC 遊戯王 AI チャレンジ 既存の CPU から見る遊戯王 AI の難しさ <- 機械学習としての遊戯王 AI の難しさ

Slide 20

Slide 20 text

既存の CPU から見る遊戯王 AI の難しさ ソロモードにおける遊戯王 CPU ソロモード: 未界域暗黒界 結果 後攻はそれなりに強い ゲーム AI がやっていること (概略) 盤面の評価がうまくできていない ゲーム AI を通じてわかること

Slide 21

Slide 21 text

ソロモードにおける遊戯 王 CPU マスターデュエルの一人用 のモード (ソロモード) では CPU と対戦できる なかにはとても強いデッキ を使う CPU が存在する

Slide 22

Slide 22 text

ソロモード: 未界域暗黒界 デッキには強いカードがた くさん入っている とくにエクストラデッキが 優秀 メインデッキもモンスター を特殊召喚する方法が豊富

Slide 23

Slide 23 text

召命の神弓-アポロウーサ 最大 4 回モンスターの効果発動を無効

Slide 24

Slide 24 text

結果

Slide 25

Slide 25 text

プレイヤー目線からの評価 先攻では恵まれたカードの 能力を使って、ただモンス ターを並べるだけになりが ち 後攻ではそれなりに強く、 エクストラを用いて盤面を うまく崩してくる

Slide 26

Slide 26 text

どうしてこうなった 後攻のプレイと比較して先攻がダメすぎる AI の動作からこの動作を考え直す

Slide 27

Slide 27 text

ゲーム AI がやっていること (探索と評価) 公開された情報から、現状の局面を評価 現在可能な行動 (召喚、効果の発動など) を列挙 その行動を行ったあとの局面を評価 可能な行動のうち、もっとも局面の評価が良くなる行動を選択

Slide 28

Slide 28 text

局面の評価がうまくできていない 自分の総攻撃力 - 相手の総攻撃力 のような指標で評価している可能性が ある 特殊召喚 (シンクロ・エクシーズ・リンク) は複数のカードを消費して 1 枚のカードを場に出すため、総攻撃力は下がる 実際のプレイヤーによる評価では相手の行動を妨害できる回数が重要視 される

Slide 29

Slide 29 text

評価するために考慮素べき事項 盤面 (フィールド・墓地・除外) のモンスターの効果と発動回数 盤面のモンスターの攻撃力・守備力 盤面に存在する表側表示の魔法・罠カード プレイヤーのライフポイント 盤面に裏側表示で存在する魔法・罠カードの場所 手札の枚数

Slide 30

Slide 30 text

形勢判断 妨害なし 相手は手札 1 枚 こちらの手 札は豊富

Slide 31

Slide 31 text

ゲーム AI を通じてわかること 実際に作成してみることで、知性について理解しようというのが AI の取 り組み ゲーム AI について考えることで、ゲームについてより深く理解すること ができる

Slide 32

Slide 32 text

TOC 遊戯王 AI チャレンジ 既存の CPU から見る遊戯王 AI の難しさ 機械学習としての遊戯王 AI の難しさ <-

Slide 33

Slide 33 text

機械学習としての遊戯王 AI の難しさ 遊戯王 AI のデモ 強化学習ならなんとかなるんじゃないの? 将棋と遊戯王の違い 盤面を評価するうえでの難しさ 盤面の評価ができるようになった場合の応用例

Slide 34

Slide 34 text

遊戯王 AI のデモ 強化学習を用いた AI をデモ 強力なゲームエンジンとの 連携が目立つ 【公式】最新情報ステージ【2月4日】/ 遊戯王デュエルモンスターズ 決闘者伝説 QUARTER CENTURY - YouTube https://www.youtube.com/live/sKp_HGjg7vQ? si=lLKLAQl6Q8rmN_4W&t=2838

Slide 35

Slide 35 text

強化学習ならなんとかなるんじゃないの? ならない まず盤面を認識することが著しく困難

Slide 36

Slide 36 text

将棋と遊戯王の違い 将棋は互いの状況がすべて公開されているものの、遊戯王では手札は非 公開情報 将棋の駒の種類は 8 種類、遊戯王のカードは 1 万種類を超える 1 回のプレーで可能な動きの種類が遊戯王のほうが著しく多い 将棋の駒の種類はずっと変わらないものの、遊戯王ではカードの種類が 増えたり減ったりする

Slide 37

Slide 37 text

局面を評価するうえでの難しさ 機械学習モデルは基本的にテンソル (多次元配列) を入出力とする 局面の情報をテンソルに整形しようとした場合、次の 3 つが課題となる 1. カードの多さ 2. 効果の多さ 3. 環境の変化

Slide 38

Slide 38 text

カードの多さ 局面を画像として扱うことは現実的ではない UI 上で表示されていない情報が多い (墓地や除外状態のカード、エクシ ーズ素材など) 1 マスの状態の数が莫大 囲碁の盤面は遊戯王に比較すると広いものの、それぞれのマスには状態 が 3 種類だけ (なにもない、白、黒) 将棋では種類が増えるものの、たかだか 23 通り 遊戯王のカードは 1 万種類を超える

Slide 39

Slide 39 text

効果の多さ (1/2) 遊戯王では類似する効果を 持つカードが多い 例: サンダーボルトとライト ニング・ボルテックス プレイヤーは効果を分類し て覚えている (ので詳細は覚 えていない)

Slide 40

Slide 40 text

効果の多さ (2/2) あるカードの持つ効果を理 解するためには、テキスト を読んで理解する必要があ る 効果のテキストを読んでも わからないこともある (特殊 裁定) 例: アトランティスの戦士 の、伝説の都アトランティ スを手札に加える効果

Slide 41

Slide 41 text

環境の変化 (1/2) 環境の変化により、カード の評価が大きく変わること がよくある 例: 強制脱出装置や月の書

Slide 42

Slide 42 text

環境の変化 (2/2) 月に 1 度程度、新たなカードのリリースがされる 制限改定により、使えないカードのルールが変わる 大きなモデルを用いて評価する場合、そのモデルを定期的に再トレーニ ングさせ続ける必要がある

Slide 43

Slide 43 text

盤面の評価ができるようになった場合の応用例 形勢評価 次に行うべき行動の推薦 デッキの強さの評価

Slide 44

Slide 44 text

デッキの強さの評価 初手の評価ができるようになるとデッキの強さの評価ができる 初手 5 枚の状態で盤面評価を行える 初手 5 枚の評価を何度か行い、平均値をデッキの強さとする 大会ではない対戦会において、デッキの強さを合わせることは楽しむう えでかなり重要

Slide 45

Slide 45 text

まとめ マスターデュエル上で遊戯王 AI を第三者機関が作れるようになるプロジ ェクトが進行中 トレーディングカードゲームとしての遊戯王はかなり流動的なゲーム で、カードの追加、制限改定によりカードの評価が大きく変わる 強化学習による AI の作成を行おうとした場合、ゲームの局面を認識させ ることがかなり困難 遊戯王 AI を通じて、遊戯王というゲームの理解が進行することが期待さ れる