AIによる自然言語処理を活用したゲームシナリオの誤字検出への取り組み

2/55 この講演で得られること AIを使った誤字検出機能の開発⽅法データセットの作り⽅、UIの改善、ルールベースの⽂章校正 AIによる⾃然⾔語処理のためのアイデア

3/55 1. 昨年までの開発状況 2. 新しい誤字検出機能の開発 3. 実装上の改良点 4. シナリオ執筆ツールのUIを改良 5.
ルールベースの⽂章校正機能 6. まとめアジェンダ

4/55 ⽴福寛開発運営⽀援 / エンジニア複数のゲーム会社でコンテンツパイプラインの構築、モバイルゲームの開発・運営などを担当。2018年10⽉に株式会社Cygamesへ⼊社。2019年後半からAIの社内導⼊に取り組んでいる。 CEDEC2021では「ゲーム制作効率化のためのAIによる画像認識・⾃然⾔
語処理への取り組み」という発表を⾏った。⾃⼰紹介

5/55 昨年までの開発状況

6/55 はじめに n 社内のシナリオライターが使⽤するツール n 執筆、監修、台本作成などの豊富な機能 n Cygames Tech Conference
: ウマ娘プリティーダービーの⼤規模シナリオ制作を効率化するソリューション〜社内Webアプリ開発運⽤事例〜社内向けのシナリオ執筆ツール

7/55 最初の誤字検出機能を開発誤字なし誤字あり誤字の種類写真を撮ってほしい写真を取ってほしい漢字の間違いおはようございますおはいようございます
余計な⽂字が⼊っている掛けてもらった掛けて貰った補助動詞が漢字 n 誤字検出機能を開発、ツールへ組み込み n 誤字の位置を求めることができるようになった最初の誤字検出機能 n シナリオ執筆ツールのユーザー「シナリオの誤字をAIで⾒つけて欲しい」開発の経緯

8/55 最初の誤字検出機能の構成３つのモデルから誤字の位置を求める⽂章を誤字なし・ありに分類形態素解析単語の出現順を求める誤字の位置を決定

9/55 最初の誤字検出機能の結果成功「イベントは⼤盛況のちに終わった」単語１単語２単語３単語４単語５単語６単語７
イベントは⼤盛況のちに終わった

10/55 最初の誤字検出機能の課題 n 誤検出のときにわかりにくい結果が「誤字の位置」のみ n ツールのUIを改善する必要がある n 後半で詳しく説明利⽤するユーザーが限られていた

11/55 新しい誤字検出機能の開発

12/55 以前のバージョンの課題 n 誤検出のときに問題 n 誤字なのか︖ 誤検出なのか︖ 「誤字の位置」だけではわかりにくいここに誤字があります「彼⼥の⼿を放した」
あってるけどなぁ︖

13/55 訂正候補を出すように変更 n AIがどのように考えたのか理解しやすい n 誤字と誤検出の判断が簡単に「訂正候補」があるとわかりやすいこちらが正しいのでは︖ 「彼⼥の⼿を放した」 ↓
「彼⼥の⼿を離した] 違うよ︕ （誤検出か〜）

14/55 新しい誤字検出のモデル

15/55 新しい誤字検出機能の概要 n 元の⽂章と誤字を⼊れた⽂章のセットを学習 n 誤字を⼊れた⽂書を元の⽂章の差をなくすように学習 n 誤字を含む⽂章を⼊⼒すると元の⽂章を出⼒ BERTを使った⽂章校正誤字のある⽂章
誤字の位置、訂正候補 BERT

16/55 ⾃然⾔語処理モデルBERT n 2018年10⽉にGoogleから発表された⾃然⾔語処理モデル n 翻訳、⽂書分類、質問応答などのタスクで当時の最⾼スコアを達成 n ⾃然⾔語処理でよく使われている BERT n
新しいモデルが登場 n 前回使ったので慣れている n ドキュメントが充実なぜBERT? n 今回の実装で参考 n 資料の最後に記載参考⽂献

17/55 BERTの学習⼊⼒今⽇は MASK ですいい BERT 分類スコアが最⼤の単語
正解ラベル今⽇は ? ですいい今⽇は天気ですいい n ⼊⼒トークンをランダムで[MASK]に⼊れ替え n 正しいトークンをクラス分類問題として学習（クラス数＝BERTの語彙数） n BERTはトークンごとのラベルの分類スコアを出⼒テキストの⽳埋め問題

18/55 BERTによる⽂章校正（学習）誤字のある⽂章今⽇ MASK 天気ですいや BERT 誤字のない⽂章
今⽇ ︖ 天気ですいか今⽇は天気ですいい分類スコアが最⼤の単語 n ⼊⼒︓誤字のある⽂章 n 正解ラベル︓誤字のない⽂章⼊⼒と正解を⼊れ替え

19/55 BERTによる⽂章校正（推論）推論時にはトークンごとに分類スコアを求める n 分類スコアが最⼤の単語を選ぶ誤字のある⽂章今⽇はは天気です
BERT 分類スコアが最⼤の単語＞訂正候補今⽇は天気です推論結果 {c:[ʻ今⽇ʼ,ʼはʼ,ʼいいʼ,ʼ天気ʼ,ʼですʼ], index:2} いやいい

20/55 学習データセットについて

21/55 学習データセット学習データセット n ゲームシナリオの⽂章 n 上記に独⾃の⽅法で誤字を⼊れた⽂章（後ほど詳しく説明） n ゲーム中の表⽰単位︓１⾏元の⽂章と誤字を⼊れた⽂章のセットで学習
誤字を⼊れた⽂章元の⽂章

22/55 ゲームシナリオ学習データセット⽣成した誤字パターンの数シナリオ１⾏誤字を⽣成 x５誤字あり⽂章元の⽂章 x５
元の⽂章元の⽂章 x５ n 元の⽂章も５つ追加して、5:5とした n 正しい⽂章を正しいと学習してほしいゲームシナリオ１⾏から５パターンの誤字を⽣成

23/55 プロジェクトA+B プロジェクトB プロジェクトA データセットを分ける︖合体する︖ n 明らかに精度が落ちたのでボツ n ゲームごとのシナリオの傾向が原因か合体したほうが精度が⾼いのでは︖
データセットモデルデータセットモデルデータセットモデル n 90万⾏と170万⾏のゲームシナリオ n 今回はデータセットとモデルをそれぞれ作成２つのゲームプロジェクトが対象

24/55 以前のバージョンとの⽐較以前のバージョン新しいバージョン機械学習モデル３つの機械学習モデル BERT>BERT>RandomForest １つの機械学習モデル BERT メンテナンス性
低い⾼い実⾏時間（AWS Lambda上）５〜10分５分以下出⼒誤字の位置誤字の位置と訂正候補誤字が無いことを正しく推論 88% 90% 誤字の位置を正しく推論 23% 63%

25/55 実装上の改良点

26/55 実装上の改良点３つと精度誤字パターンの改良トークンのマッチングの⼯夫学習・テストデータの分割⽅法の改善最終的な精度

27/55 誤字パターンの改良

28/55 誤字パターンの改良（その１） n 「よく間違えられる単語リスト」を使って⼊れ替え(*) n ひらがなに囲まれている「ない」を削除 n 「っ」を落とす n 「が」「を」などの助詞を⼊れ替える
n 助詞を落とす n ひらがなのABをBABにする n ひらがなorカタカナをランダムで１⽂字落とす n 詳細はCEDEC2021の発表資料を参照以前の誤字パターン（７つ） n (*)の部分と⼊れ替え n 詳細を次で説明⽇本語Wikipedia⼊⼒誤りデータセットを導⼊

29/55 ⼊⼒誤りデータセット誤字パターンの改良（その２）訂正前の⽂章訂正後の⽂章訂正される単語訂正後の単語訂正の種類 n 京都⼤学
⿊橋・褚・村脇研究室 n JSON形式で⼊⼒誤りを訂正した情報⽇本語Wikipedia⼊⼒誤りデータセットを導⼊

30/55 ⼊⼒誤りデータセットゲームシナリオ誤字パターンの改良（その３）教 ⇨ 今⽇今⽇はいい天気です学習データ教はいい天気です
ゲームシナリオに適⽤ n 訂正後の単語をゲームシナリオから検索 n 訂正前の単語で置き換えて誤字を⽣成 n 単純な⽂字列マッチング（２⽂字以上、品詞は無視）

31/55 トークンマッチングの⼯夫

32/55 トークンマッチングの⼯夫（その１） n トークン数が⼀致するデータセットしか利⽤できない n 全体の６割程度しか利⽤できない（もったいない︕）今回の仕組みはトークン数の⼀致が必要 n ２つの⽂章のトークンがずれている場合の処理 n
元の⽂章にPADを⼊れて対応を取る（⼀番対応が取りやすいところへ） n 推論時の出⼒にPADがあれば削除 PADを使って調整誤字のある⽂章教は休みにしよー元の⽂章今⽇は休みにしよー誤字のある⽂章準備はでいている。元の⽂章準備はできている。調整後準備は [PAD] できている。

33/55 トークンマッチングの⼯夫（その２） PADの数利⽤できる⽂章の割合 0 64.12% 1 78.57% 2 85.84%
3 86.50% 4 86.64% n PADの数を増やすと利⽤できる⽂章が増える n 増やしすぎると推論の精度が落ちる n PADの最⼤数３が推論の精度が最⼤に PADの数を増やした場合の⽐較

34/55 学習・テストデータの分割⽅法の改善

35/55 学習・テストデータの分割⽅法の改善前回のバージョンのデータセットゲームシナリオ誤字追加学習データテストデータ今回のバージョンのデータセットゲームシナリオ学習⽤
テスト⽤学習データテストデータ誤字追加誤字追加シャッフルして分割同じ⽂章から⽣成した⽂章が含まれる︕!

36/55 最終的な精度

37/55 最終的な精度 n テストデータ10万⾏（誤字なし・あり、40%が誤字） n プロジェクトA︓データセット 170万⾏ n プロジェクトB :
データセット 90万⾏分離しておいたテストデータでテスト正しく判定プロジェクトA 正しく判定プロジェクトB 誤字を正しく訂正 38% 32% 誤字の位置を正しく検出 66% 60% 正しく判定プロジェクトA 正しく判定プロジェクトB 誤字のない⽂章 94% 87% 誤字のある⽂章 72% 72%

38/55 シナリオ執筆ツールのUIを改良

39/55 以前のUI n 誤字検出機能は別の「⼀括処理画⾯」に⼊っていた n UIの実装⼯数は少ないシナリオ執筆画⾯から移動して誤字検出を実⾏ユーザーによっては使い勝⼿が悪い AIの機能を開発してもUIが悪いと使われない別画⾯へ
移動して実⾏

40/55 シナリオ執筆ツールのユーザーシナリオ執筆誤字検出︓使ってないシナリオ校正誤字検出︓使ってる n 執筆されたシナリオを⼀括でチェックする n 複数シナリオをまとめて誤字検出
シナリオを校正する⼈ n シナリオ執筆画⾯をメインに使う＞別の画⾯の機能は使いにくいシナリオを執筆する⼈

41/55 誤字検出実⾏までのUIの改善シナリオ執筆画⾯⼀括処理画⾯シナリオ検索誤字検出実⾏結果待ち結果確認以前のUI 新しいUI
シナリオ執筆画⾯誤字検出実⾏結果待ち結果確認シナリオ執筆画⾯に追加されたボタン

42/55 バックグラウンドで⾃動実⾏ n ⼀定時間経過後に実⾏（AWSのコストのため）シナリオ保存時に⾃動実⾏ n 結果⼀覧画⾯でユーザーが実⾏した結果と⾃動実⾏の結果が混じる n ユーザー「結果が確認しにくい」 n
ユーザー⽬線での確認が⾜りていなかったと反省問題があったので保留

43/55 ルールベースの⽂章校正機能

44/55 ルールベースの⽂章校正機能 n 漢検１級、準１級の漢字を検出 n よく使われる漢字ならOK n 漢字のテーブルを持っておいてマッチしているだけ難しい漢字の検出胡
坐 n 補助動詞に漢字が使われていたら検出 n 例︓ちょっと寄って来る補助動詞の漢字を検出 n ⽂章校正のチェック対象 n ら抜き⾔葉が全部NGではないら抜き⾔葉を検出

45/55 補助動詞の検出

46/55 補助動詞の検出 n Juman++ : 形態素解析システム京都⼤学 Juman++での形態素解析の結果を利⽤⾒出し参考
にして頂く品詞名詞助詞動詞動詞意味情報 - - - 付属動詞候補 n 「参考にして頂く」の「頂く」を検出したい n Juman++で形態素解析 n 品詞と意味情報をパターンとして登録検出したい⽂章からパターンを作成パターンとして登録

47/55 補助動詞の検出例⾒出し今から話して下さい品詞名詞助詞
動詞接尾辞意味情報 - - - - ⾒出しこれまでも戦って参りましたが品詞指⽰詞助詞助詞動詞動詞接尾辞助詞意味情報 - - - - 付属動詞候補 - - 品詞動詞接尾辞意味情報 - - 品詞助詞動詞動詞接尾辞意味情報 - - 付属動詞候補パターンマッチングパターンマッチング

48/55 ら抜き⾔葉の検出

49/55 ら抜き⾔葉を検出（その１） n Webの記事を参考にして実装 n ラ抜き⾔葉判定アルゴリズムを考えてみる（https://blog.mohyo.net/2015/03/1343/）ら抜き⾔葉の検出について調べる n Juman++で形態素解析して代表表記と活⽤形１を利⽤
n あるトークンの代表表記が「れる/れる」 n ⼀つ前のトークンの活⽤形１が「未然形」「カ変動詞来」「⺟⾳動詞」判定⽅法

50/55 ら抜き⾔葉を検出（その２）⾒出し５時に来れますか
代表表記 - 時/じ - 来る/くるれる/れるます/ますか活⽤形１ * * * カ変動詞来⺟⾳動詞動詞性接尾辞ます型 * n あるトークンの代表表記が「れる/れる」 n ⼀つ前のトークンの活⽤形１が「未然形」「カ変動詞来」「⺟⾳動詞」検出の例︓５時に来（ら）れますか

51/55 ら抜き⾔葉を検出（その３） n 検出158 正解148 失敗10 n ⾒逃しているケースもある n 誤検出は少ない
シナリオ全体でテスト n こんなにたくさん⾷べ（ら）れない n 初⽇の出が⾒（ら）れた n あの⼈が来るとは考え（ら）れない正しく検出 n 写真撮ってきたから⾒れ︕ n あれ︖あれれれ︖ n 今こそ来たれ︕ 誤検出

52/55 まとめ

53/55 まとめ BERTを使った誤字検出機能の開発データセットの作成、UIの改良、ルールベースの⽂章校正 AIによる⾃然⾔語処理のためのアイデア

55/55 参考⽂献 n BERTの各種タスクの使い⽅をわかりやすく説明 n 第９章⽂章校正を参考にして誤字検出を実装 BERTによる⾃然⾔語処理⼊⾨ストックマーク株式会社 (編集),
近江崇宏, ⾦⽥健太郎, 森⻑誠, 江間⾒亜利 (共著) オーム社 n Transformer/BERTの動作の説明が詳しい作ってわかる! ⾃然⾔語処理AI 坂本俊之シーアンドアール研究所

AIによる自然言語処理を活用したゲームシナリオの誤字検出への取り組み

AIによる自然言語処理を活用したゲームシナリオの誤字検出への取り組み

More Decks by Cygames, Inc.

Other Decks in Technology

Featured

Transcript