遊戯王 AI は次世代のグランドチャレンジになりうるか

Slide 1

Slide 1 text

遊戯王 AI は次世代のグランドチャレンジになりうるか Asei Sugiyama

Slide 2

Slide 2 text

自己紹介杉山阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑共著決闘者 @ マスターデュエル

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

TOC 遊戯王 AI チャレンジ <- 既存の CPU から見る遊戯王 AI の難しさ機械学習としての遊戯王 AI の難しさ

Slide 6

Slide 6 text

遊戯王 AI チャレンジ遊戯王 AI とはマスターデュエル古の遊戯王: 俺のターン! 現代遊戯王: 俺のターン! 現代遊戯王の特徴手札誘発「環境」カードの追加・制限改定まとめ

Slide 7

Slide 7 text

遊戯王 AI とは 2024 年 2 月 4 日遊戯王カードゲーム 25 周年記念イベントで発表されたもの今後、マスターデュエルで動く AI を開発できるようになる計画【公式】最新情報ステージ【2月4日】/ 遊戯王デュエルモンスターズ決闘者伝説 QUARTER CENTURY - YouTube https://www.youtube.com/live/sKp_HGjg7vQ? si=lLKLAQl6Q8rmN_4W&t=2838

Slide 8

Slide 8 text

マスターデュエル遊戯王 OCG (Official Card Game) のカードを使って行う DCG (Digital Card Game) ルールやカードの効果は紙のカードとまったく同じ (DCG では珍しい)

Slide 9

Slide 9 text

古の遊戯王: 俺のターン! ドロー！俺はモンスターを召喚！カードを 2 枚場に伏せターン終了

Slide 10

Slide 10 text

現代遊戯王: 俺のターン！俺は斬機シグマをデッキから墓地に送り、手札から斬機サーキュラーの効果を発動、このカードを特殊召喚する墓地の斬機シグマの効果を発動、このカードを特殊召喚する斬機サーキュラーの効果を発動、「デッキから「斬機」魔法・罠カード 1 枚を手札に加える」効果により斬機方程式を手札に加えるレベル 4 のモンスター 2 体でエクシーズ召喚、塊斬機ダランベルシアンを特殊召喚特殊召喚された塊斬機ダランベルシアンのエクシーズ素材を 2 つ取り除いて『デッキから「斬機」カード 1 枚を手札に加える』効果を発動、斬機ダイアを手札に加える

Slide 11

Slide 11 text

現代遊戯王の特徴マスターデュエルでは先攻 1 ターン目に 5 分程度かかる大体、2 ターン目に決着がつくか、3 ターン目を迎えるかの勝負相手ターンに効果を発動できる、手札誘発と呼ばれるカードを採用するデッキが大半

Slide 12

Slide 12 text

手札誘発相手の行動に対して手札から発動できるカード群相手ターンであっても、手札から発動できるので、先攻 1 ターン目からプレイヤー間でのやり取りが発生する代表例は灰流うらら (デッキからカードを手札に加える効果を無効)

Slide 13

Slide 13 text

「環境」 (1/2) 「どんなカードが存在しているか」「どんなカードが流行っているか」「どんなデッキが大会で大多数を占めるか」をまとめて「環境」という。 (from 遊戯王 Wiki) 遊戯王カードWiki - 環境 https://yugioh-wiki.net/index.php?�Ķ�

Slide 14

Slide 14 text

「環境」 (2/2) 環境は次のもので大きく左右される新規追加カード制限改定メタゲーム公開された情報から、お互いの手札を想像し、次の動きを読み合うのが遊戯王の基本

Slide 15

Slide 15 text

カードの追加遊戯王 OCG とマスターデュエルは共通して、最低でも月に 1 回新しいカードが追加される基本的には、新しいカードのほうが強いあまりにも強すぎるカードがリリースされることもある

Slide 16

Slide 16 text

制限改定 (1/2) 基本的にはプレイヤーは強いカードを採用するので、環境が特定のカードで占められることもある (例: ティラメンツ)

Slide 17

Slide 17 text

制限改定 (2/2) 特定のカードしか使われない環境はあまり楽しくない運営がカードの利用可能な枚数に制約を課したり(準制限は 2 枚、制限は 1 枚)、カードを使えなくしたりする (禁止カードへの指定)

Slide 18

Slide 18 text

マスターデュエルまとめ現代の遊戯王は 1 ターンが長くだいたい 2 − 3 ターンで決着がつく先攻 1 ターンの間にも、後攻側は手札誘発カードを用いてくるため、読み合いが発生している公開された情報から、お互いの手札に存在するカードを想像して次の動きを読み合うのが基本的なやり取り環境でよく見るカード群が存在するものの、新カードのリリースや、制限改定によって、よく採用されるカードは結構頻繁に変わる

Slide 19

Slide 19 text

TOC 遊戯王 AI チャレンジ既存の CPU から見る遊戯王 AI の難しさ <- 機械学習としての遊戯王 AI の難しさ

Slide 20

Slide 20 text

既存の CPU から見る遊戯王 AI の難しさソロモードにおける遊戯王 CPU ソロモード: 未界域暗黒界結果後攻はそれなりに強いゲーム AI がやっていること (概略) 盤面の評価がうまくできていないゲーム AI を通じてわかること

Slide 21

Slide 21 text

ソロモードにおける遊戯王 CPU マスターデュエルの一人用のモード (ソロモード) では CPU と対戦できるなかにはとても強いデッキを使う CPU が存在する

Slide 22

Slide 22 text

ソロモード: 未界域暗黒界デッキには強いカードがたくさん入っているとくにエクストラデッキが優秀メインデッキもモンスターを特殊召喚する方法が豊富

Slide 23

Slide 23 text

召命の神弓－アポロウーサ最大 4 回モンスターの効果発動を無効

Slide 24

Slide 24 text

結果

Slide 25

Slide 25 text

プレイヤー目線からの評価先攻では恵まれたカードの能力を使って、ただモンスターを並べるだけになりがち後攻ではそれなりに強く、エクストラを用いて盤面をうまく崩してくる

Slide 26

Slide 26 text

どうしてこうなった後攻のプレイと比較して先攻がダメすぎる AI の動作からこの動作を考え直す

Slide 27

Slide 27 text

ゲーム AI がやっていること (探索と評価) 公開された情報から、現状の局面を評価現在可能な行動 (召喚、効果の発動など) を列挙その行動を行ったあとの局面を評価可能な行動のうち、もっとも局面の評価が良くなる行動を選択

Slide 28

Slide 28 text

局面の評価がうまくできていない自分の総攻撃力 - 相手の総攻撃力のような指標で評価している可能性がある特殊召喚 (シンクロ・エクシーズ・リンク) は複数のカードを消費して 1 枚のカードを場に出すため、総攻撃力は下がる実際のプレイヤーによる評価では相手の行動を妨害できる回数が重要視される

Slide 29

Slide 29 text

評価するために考慮素べき事項盤面 (フィールド・墓地・除外) のモンスターの効果と発動回数盤面のモンスターの攻撃力・守備力盤面に存在する表側表示の魔法・罠カードプレイヤーのライフポイント盤面に裏側表示で存在する魔法・罠カードの場所手札の枚数

Slide 30

Slide 30 text

形勢判断妨害なし相手は手札 1 枚こちらの手札は豊富

Slide 31

Slide 31 text

ゲーム AI を通じてわかること実際に作成してみることで、知性について理解しようというのが AI の取り組みゲーム AI について考えることで、ゲームについてより深く理解することができる

Slide 32

Slide 32 text

TOC 遊戯王 AI チャレンジ既存の CPU から見る遊戯王 AI の難しさ機械学習としての遊戯王 AI の難しさ <-

Slide 33

Slide 33 text

機械学習としての遊戯王 AI の難しさ遊戯王 AI のデモ強化学習ならなんとかなるんじゃないの？将棋と遊戯王の違い盤面を評価するうえでの難しさ盤面の評価ができるようになった場合の応用例

Slide 34

Slide 34 text

遊戯王 AI のデモ強化学習を用いた AI をデモ強力なゲームエンジンとの連携が目立つ【公式】最新情報ステージ【2月4日】/ 遊戯王デュエルモンスターズ決闘者伝説 QUARTER CENTURY - YouTube https://www.youtube.com/live/sKp_HGjg7vQ? si=lLKLAQl6Q8rmN_4W&t=2838

Slide 35

Slide 35 text

強化学習ならなんとかなるんじゃないの？ならないまず盤面を認識することが著しく困難

Slide 36

Slide 36 text

将棋と遊戯王の違い将棋は互いの状況がすべて公開されているものの、遊戯王では手札は非公開情報将棋の駒の種類は 8 種類、遊戯王のカードは 1 万種類を超える 1 回のプレーで可能な動きの種類が遊戯王のほうが著しく多い将棋の駒の種類はずっと変わらないものの、遊戯王ではカードの種類が増えたり減ったりする

Slide 37

Slide 37 text

局面を評価するうえでの難しさ機械学習モデルは基本的にテンソル (多次元配列) を入出力とする局面の情報をテンソルに整形しようとした場合、次の 3 つが課題となる 1. カードの多さ 2. 効果の多さ 3. 環境の変化

Slide 38

Slide 38 text

カードの多さ局面を画像として扱うことは現実的ではない UI 上で表示されていない情報が多い (墓地や除外状態のカード、エクシーズ素材など) 1 マスの状態の数が莫大囲碁の盤面は遊戯王に比較すると広いものの、それぞれのマスには状態が 3 種類だけ (なにもない、白、黒) 将棋では種類が増えるものの、たかだか 23 通り遊戯王のカードは 1 万種類を超える

Slide 39

Slide 39 text

効果の多さ (1/2) 遊戯王では類似する効果を持つカードが多い例: サンダーボルトとライトニング・ボルテックスプレイヤーは効果を分類して覚えている (ので詳細は覚えていない)

Slide 40

Slide 40 text

効果の多さ (2/2) あるカードの持つ効果を理解するためには、テキストを読んで理解する必要がある効果のテキストを読んでもわからないこともある (特殊裁定) 例: アトランティスの戦士の、伝説の都アトランティスを手札に加える効果

Slide 41

Slide 41 text

環境の変化 (1/2) 環境の変化により、カードの評価が大きく変わることがよくある例: 強制脱出装置や月の書

Slide 42

Slide 42 text

環境の変化 (2/2) 月に 1 度程度、新たなカードのリリースがされる制限改定により、使えないカードのルールが変わる大きなモデルを用いて評価する場合、そのモデルを定期的に再トレーニングさせ続ける必要がある

Slide 43

Slide 43 text

盤面の評価ができるようになった場合の応用例形勢評価次に行うべき行動の推薦デッキの強さの評価

Slide 44

Slide 44 text

デッキの強さの評価初手の評価ができるようになるとデッキの強さの評価ができる初手 5 枚の状態で盤面評価を行える初手 5 枚の評価を何度か行い、平均値をデッキの強さとする大会ではない対戦会において、デッキの強さを合わせることは楽しむうえでかなり重要

Slide 45

Slide 45 text

まとめマスターデュエル上で遊戯王 AI を第三者機関が作れるようになるプロジェクトが進行中トレーディングカードゲームとしての遊戯王はかなり流動的なゲームで、カードの追加、制限改定によりカードの評価が大きく変わる強化学習による AI の作成を行おうとした場合、ゲームの局面を認識させることがかなり困難遊戯王 AI を通じて、遊戯王というゲームの理解が進行することが期待される