不正検知を可能とする弱教師あり学習手法「DevNet」の紹介〜膨大なデータに潜む異常を最小限のラベリングで見つける技術〜

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

© Cygames, Inc. ゲームマスターチームの業務内容 • データに基づいた不正対策の立案・運用 – 受け取ったデータがゲームロジックと矛盾しているものを検知する不正対策 • データに基づいた不正対策のイメージ (神経衰弱を例に) ID 取得ペア数 ※ 最大で26 プレイ秒数お手つき数 1 26 0 0 2 26 140 5 3 9999 300 0 4 26 200 20 5 26 150 4 6 26 60 0 • 取得ペア数27以上や、0秒クリアなど、実現不可能なものは不正と考えられる • お手つき数0クリア(ID:6)のような、可能だが、実現性が疑われるものは他データも参照して判断 6/36

Slide 7

Slide 7 text

© Cygames, Inc. データに基づいた不正対策の難しさ① 不正かどうかの判断には文脈を考慮する必要がある • 神経衰弱の例で考慮すべきこと – 好スコア・好タイムを何回、どのくらいの頻度で出しているか。一回ならまぐれかもしれないが、連続していたらどうだろうか？ – カードの内容を透視できるスキルを持っているキャラがいたらどうなる？ – 定期的にカードがシャッフルされるステージが実装されたら？ – マルチプラットフォーム（例: PC版とスマホ版）で同じ基準でよいのか？ • 実際の不正対策では、これらの文脈が複数組み合わさった結果に対して、不正かどうかの判断が必要になる 7/36

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

© Cygames, Inc. 機械学習による課題の解決機械学習を導入して効率と安全性を両立 • 機械学習で学習したモデルを絞り込み条件に利用 – 入力データの「不正らしさ」を自動で求めることができ、絞り込み条件の作成を効率化できる • どの程度怪しいものを人手チェックに回すと、業務上最適かという部分の調整は別途必要 – 定期的に、最新のデータを用いてモデルを再学習することで環境変化にも追従 • 人手チェックは継続して実施 – 誤検知リスクを徹底して排除するため人手でチェックデータを取得機械学習で絞り込み 12/36

Slide 13

Slide 13 text

Slide 14

Slide 14 text

© Cygames, Inc. 課題: 良質なラベル付きデータの準備機械学習の学習データは下記を満たすことが望ましい • データ量が十分であること – 基本的には自社で作成。ラベリング作業が必要で工数がかかる。 • データが実態を反映していること – ユーザーの楽しみ方やプレイ環境は多岐に渡る – 特に不正ユーザーの実態を反映できていることが必要 • 例: 不正ユーザーも常に不正をしているとは限らない。正常プレイと不正が混在したようなデータになる可能性がある • ラベルが正確であること 14/36

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

© Cygames, Inc. 使いたい手法の要件欲しい手法手元の不正データを最大限活用できる手法教師あり学習正確なラベル付きデータが大量に必要教師なし学習ラベリング不要だが課題に対して不適ノイズに影響されにくい注目した不正のみ検知ラベリングミスによる見逃しリスクがある不正ではない振る舞いの誤検知リスクがある → KDD’ 19で発表されたDevNetならこの条件に合致する正常-正常ラベル不正-不正ラベル不正-正常ラベル(ラベルミス) 不正-不正ラベル正常-ラベル不明不正-ラベル不明正常-ラベルなし不正-ラベルなし 17/36

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

© Cygames, Inc. DevNet • 論文 – Guansong Pang, Chunhua Shen, and Anton van den Hengel. "Deep anomaly detection with deviation networks." In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 353-362. 2019. • 概要 – 未知のデータは正常とみなして学習することで異常検知問題をimbalancedな教師データにおける二値分類問題に落とし込む • 特徴 – 膨大なデータのうち、少量(1%未満)の異常データにのみラベリングすればよい – 入力から不正度合いのスコアまで一気に（E2Eで）学習できる – 公式の実装と論文で使ったデータセットが公開されているのでとっつきやすい https://github.com/GuansongPang/deviation-network • 任意のネットワークに適用できるので、手持ちのデータに合わせて改造可能 20/36

Slide 21

Slide 21 text

© Cygames, Inc. DevNetの動作条件 • ゲームの不正データはDevNetが要求する要件を満たしているデータの要求現場の状況特性が明確な少量の異常データとラベルのない大量のデータで構成されている過去の不正対策の実績から、明確に不正と言い切れるデータが存在ラベルのないデータの絶対多数は正常であると仮定できる多少の見逃しは存在するかもしれないが、大多数のユーザーは正常と仮定できる 21/36

Slide 22

Slide 22 text

© Cygames, Inc. DevNet導入による効果 • 検証内容 – 実際に稼働している不正対策において、従来のフロー（ルールベース）とDevNetを利用したものを比較 – 通常通りのルールと、DevNetでそれぞれ対象を絞り、複数人で精査して得られた結果を利用 – 比較には5期間分のデータを使用 • 結果 – 不正検知数が平均21% 増加 • 元々ルールベースで検知したユーザーもほぼすべて検知できている – 人手のチェックにより、不正ではないと判断されるものが平均 38 % 減少 • 本来ならチェック不要なものをチェックしなくてよくなり、不正対策が効率化できる DevNet導入により、不正対策の検知力と効率を同時に向上できる 22/36

Slide 23

Slide 23 text

© Cygames, Inc. 論文で使われた仕組みとその応用 ①ミニバッチ ③ 損失関数 (deviation loss) 異常らしさスコア 𝜙 𝑥; Θ 参照スコア平均𝜇ℛ , 標準偏差 𝜎ℛ 𝐿 𝜙 𝑥; Θ , 𝜇ℛ , 𝜎ℛ ② 特徴量学習部 unlabeled labeled ⋮ ⋮ ⋮ 標本平均 𝑟1 , 𝑟2 , ⋯ , 𝑟𝑙 ∼ 𝐹 ① ミニバッチ: ラベルの不均衡を解消し、さらにラベルのない異常の影響を抑える部分 ② 特徴量学習部: 特徴量が学習される部分。データに合わせて変える必要がある ③ 損失関数(deviation loss): 標準正規乱数を参照し、偏差を元に損失を計算する損失関数 23/36

Slide 24

Slide 24 text

© Cygames, Inc. ①ミニバッチの作りかた • ラベルなしデータと異常データが 1:1 で混ざるようにミニバッチを作成 – バッチサイズ=32なら、ラベルなしデータ・異常データそれぞれから16個ずつランダムに選択 • 訓練データが極端に不均衡なので対策が必要 – 何もしないと全て正常判定するように学習してもLossが減ってしまう • ラベルのない異常の悪影響を抑える効果も – ラベルのない異常データはごく少量なので、その影響力はそこまで大きくない – さらに、各ミニバッチに、ラベル無しデータと同じ数だけ入っているラベル付きデータから異常の特徴が学習され、ラベル付き異常データの影響力がさらに強くなる 24/36

Slide 25

Slide 25 text

© Cygames, Inc. ②特徴量学習部 • ミニバッチからデータの特徴を学習するニューラルネットワーク • 論文では全結合層を3層重ねて学習 (赤枠の部分) 異常らしさスコア 𝜙 𝑥; Θ ⋮ ⋮ ⋮ • 最終的に一つの値を出力させれば、他の深層学習の手法に差し替え可能 – 畳み込みニューラルネットワーク (CNN) – 回帰型ニューラルネットワーク (RNN) • 二値分類のネットワークだが、最終層がLinearであることに注意 – sigmoidではない 25/36

Slide 26

Slide 26 text

© Cygames, Inc. ③損失関数: Deviation Loss • Deviation lossの仕組み – 参照スコアとして、標準正規乱数を5000個とり、これらの平均を 𝜇ℛ 、標準偏差を 𝜎ℛ とする – 最終層の値 𝜙(𝑥,Θ)、ラベル 𝑦 に対して、損失関数𝐿(𝜙 𝑥;Θ ,𝜇ℛ ,𝜎ℛ )を次のように定義 𝐿 𝜙 𝑥;Θ ,𝜇ℛ ,𝜎ℛ = 1−𝑦 dev 𝑥 +𝑦max 0,5−dev 𝑥 ただし、 dev 𝑥 = 𝜙 𝑥,Θ −𝜇ℛ 𝜎ℛ (𝑧-score) で、ラベル 𝑦は、𝑦 = ቊ 0 (ラベルなし) 1 (ラベル付き) と定義されるもの – 𝜇ℛ , 𝜎ℛ がそれぞれ0, 1に近い数値となるため、 𝜙 𝑥;Θ とdev 𝑥 は概ね近い数値となる • Deviation lossのメリット – 正常と異常のスコアの差を開く – 分布を仮定することで、スコアを統計的に意味のあるものにできる 26/36

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

© Cygames, Inc. ③損失関数: メリット • 同種のデータセットに対しては、同じ閾値を使い続けられる – データに依らず異常スコアの意味は同様に解釈可能 • 異常スコアから、あるデータが正常データと同じ方法で生成された確率が読み取れる – 例) 異常スコアが1.96以上の場合 • 正常データと同じ方法で生成された確率は5% • 信頼度95%で正常データとは異なると判断できる • GANなどで出した異常スコアに対しては、このような解釈はしづらい – 集計期間が変わるなどで対象のユーザーが変わると、データセットの種類が同じでもその都度閾値を調整する必要がある異常スコア生成確率 29/36

Slide 30

Slide 30 text

Slide 31

Slide 31 text

© Cygames, Inc. DevNetの動作例 • 仮想的なデータ例 – ハイスコアを狙うゲームを想定 – スコアが上乗せされる不正を検知したい – このゲームのスコアはレベル・スキルの強さ・ステージ値に依存 ※ 実際の不正対策においては、スキルの強さやステージ値は定性的な指標で、数値化は難しい問題であることに注意 • このデータの傾向 – レベルが高く、スキルが強く、ステージ値が低いほどスコアは高くなる – しかし、各パラメータとスコアを比較しても正常と不正の線引きは困難 ID レベルスキルの強さステージ値スコア判定 1 96 1000 1500 3816 正常 2 124 500 2000 2410 正常 3 124 2000 1000 10697 不正 4 68 1000 500 7328 不正 ※ステージ値：点数の取りにくさを数値化したものレベルスキルの強さステージ値スコア 31/36

Slide 32

Slide 32 text

© Cygames, Inc. データの割り振りとネットワーク • 学習・テストデータの割り振り – 学習データ • ラベルなしデータ: 11,000件 – 正常データ: 10,000件 – 不正データ(見逃し): 1,000件 • 既知の不正データ: 100件 – テストデータ • 正常・不正ともに1,000件 • ネットワーク – 論文通りの3層ネットワーク • ハイパーパラメータは論文著者の実装に準拠 ⋮ ⋮ ⋮ 1000次元 250次元 20次元異常スコア 32/36

Slide 33

Slide 33 text

© Cygames, Inc. 実行結果 • 一見分離しづらく見えるデータであっても、 DevNetを使うことで不正を精度よく検知できることを確認 • 学習データに見逃しが含まれていてもきちんと動作する出力スコア TP (True Positive) TN (True Negative) FP (False Positive) FN (False Negative) 適合率 TP/(TP+FP) 再現率 TP/(TP+FN) 1.96 (有意水準 5%) 941 927 73 59 92.80% 94.10% 2.25 (有意水準 1%) 938 938 62 62 93.80% 93.80% 4 885 976 24 115 97.36% 88.50% 5 802 993 7 198 99.13% 80.20% 33/36

Slide 34

Slide 34 text

© Cygames, Inc. DevNet利用上の課題 • データを大量に持っていないと活用できない – ラベル有のデータは少量でも良いが、ラベルなしデータは大量に必要 • モデルの検証時にも、人間による評価が必要で工数がかかる – 検証用データにも、見逃している不正ユーザーが混じっている可能性があり、正しい検知結果は人手で確認する必要がある – 検証用データとの誤差だけで機械的に学習の度合いを判断することは困難 • 検証用データの推定結果に基づいて学習を自動的に止めるearly stoppingは使えない 34/36

Slide 35

Slide 35 text

© Cygames, Inc. 本講演のまとめ • 不正対策における機械学習導入のモチベーション – 対象者を絞るための条件を設定・モニタリングしていくのに工数がかかるため • 不正対策において機械学習を導入するにはラベリングが課題 – 教師あり学習導入のためのラベリングの工数は膨大かつ困難 – 教師なし学習だと、典型的でない挙動を不正と誤判定するリスクが存在 – 手元のデータを活用できる、中間的な手法が必要 • この課題を解決できる手法としてDevNetを紹介 – 少量の異常データと膨大なラベルなしデータから不正をモデリング – シンプルな構造のため種々のデータに対応させられる • DevNetを導入することで、検知力も効率も改善できた 35/36

Slide 36

Slide 36 text