Slide 1

Slide 1 text

マッチングサービスの画像審査 における機械学習の応⽤ 株式会社サイバーエージェント 秋葉原ラボ 上岡 将也 Data Engineering & Data Analysis WS#9

Slide 2

Slide 2 text

⾃⼰紹介 • 上岡 将也(かみおか まさや) - 技術本部 秋葉原ラボ 画像チーム - 修⼠(画像⽣成)→ 2019年4⽉⼊社 • 仕事内容 - AbemaTVやタップル誕⽣などの動画像を中⼼とした 機械学習システムの開発と運⽤ • 趣味 - 剣道:⼩学⽣〜⼤学⽣まで - ゲーム:Rainbow Six Siege 2

Slide 3

Slide 3 text

1.「タップル誕⽣」とプロフィール画像 2. プロフ審査⾃動化の開発プロセス 3. 実社会へ機械学習を応⽤するときの課題と⼯夫 4. まとめ

Slide 4

Slide 4 text

「タップル誕⽣」と プロフィール画像

Slide 5

Slide 5 text

5

Slide 6

Slide 6 text

6

Slide 7

Slide 7 text

7

Slide 8

Slide 8 text

8

Slide 9

Slide 9 text

9

Slide 10

Slide 10 text

10

Slide 11

Slide 11 text

プロフィール画像 11

Slide 12

Slide 12 text

審査の基準 例: 不鮮明 ⼈物ではない 複数⼈ 他にも… • 顔のサイズが⼩さい • ⼈物の顔を認識できないもの • 芸能⼈や明らかに本⼈でない • 個⼈情報が含まれている などなど、 実際には⾮常に細かく厳密な基準を設定 出典:メイン写真の審査について[リンク] 12

Slide 13

Slide 13 text

厳密な基準に基づく プロフィール画像審査の⾃動化 ⽬的 ※以下、プロフィール画像審査 => プロフ審査と略します 13

Slide 14

Slide 14 text

プロフ審査⾃動化の 開発プロセス

Slide 15

Slide 15 text

分析 課題設定 収集 前処理 学習 評価 プロフ審査⾃動化の開発プロセス 15 ※⼀部のiconはhttps://icons8.com/app/から引⽤

Slide 16

Slide 16 text

分析 課題設定 収集 前処理 学習 評価 プロフ審査⾃動化の開発プロセス 16

Slide 17

Slide 17 text

分析 課題設定 収集 前処理 学習 評価 プロフ審査⾃動化の開発プロセス 17

Slide 18

Slide 18 text

分析 課題設定 収集 前処理 学習 評価 プロフ審査⾃動化の開発プロセス 18

Slide 19

Slide 19 text

分析 課題設定 収集 前処理 学習 評価 機械学習への落とし込み 19

Slide 20

Slide 20 text

分析 課題設定 収集 前処理 学習 評価 20

Slide 21

Slide 21 text

分析 課題設定 収集 前処理 学習 評価 データセットの作成 21

Slide 22

Slide 22 text

分析 課題設定 収集 前処理 学習 評価 22

Slide 23

Slide 23 text

分析 課題設定 収集 前処理 学習 評価 23

Slide 24

Slide 24 text

分析 課題設定 収集 前処理 学習 評価 パラメータの変更 ※ 評価が悪ければ…

Slide 25

Slide 25 text

分析 課題設定 収集 前処理 学習 評価 前処理‧データセットの変更 ※ 評価が悪ければ…

Slide 26

Slide 26 text

分析 課題設定 収集 前処理 学習 評価 機械学習の問題の変更 ※ 評価が悪ければ…

Slide 27

Slide 27 text

分析 課題設定 収集 前処理 学習 評価 27 解きたい問題やデータセットが決まっているものが多い ※機械学習の研究分野すべてを指しているわけではありません 機械学習の研究分野では…

Slide 28

Slide 28 text

分析 課題設定 収集 前処理 学習 評価 データセットの作成 実社会に機械学習を 応⽤する場合は この⼆つも重要!! 機械学習への落とし込み 28

Slide 29

Slide 29 text

実社会へ機械学習を 応⽤するときの課題と⼯夫

Slide 30

Slide 30 text

実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 - アノテーションミス - アンダーサンプリング 30

Slide 31

Slide 31 text

実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 - アノテーションミス - アンダーサンプリング 31

Slide 32

Slide 32 text

課題:機械学習への落とし込み 1. 複雑な基準 • ⽬的=OKかNGかの2クラス分類 • しかし機械学習の観点から⾒ると、分類だけでは解けない 2. 性能改善の際の再学習の難しさ • 特定のNG理由の画像に対する再学習の依頼がよくある 例:「加⼯されている画像がOKとなってしまっているので再学習お願いします。」 32

Slide 33

Slide 33 text

解決例:プロフ審査 1. 複雑な基準 • 分類、顔検出などを考慮して、フィルタを分ける 2. 性能改善の際の再学習の難しさ • 再学習の頻度によってフィルタを分ける 顔検出 分類 ‧ ‧ ‧ 複数⼈ 承認 加⼯ ※あくまでイメージです ○ 複数フィルタに分ける 33 ⼈間以外 注意 全体の精度や処理速度、リソースを考慮する必要あり 顔サイズ⼩

Slide 34

Slide 34 text

実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 - アノテーションミス - アンダーサンプリング 34

Slide 35

Slide 35 text

実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 - アノテーションミス - アンダーサンプリング 35

Slide 36

Slide 36 text

アノテーションミス • ⼈間なのでミスは必ず存在する - ただ機械学習にはそれが致命的 - 再アノテーション => コストと 時間 36

Slide 37

Slide 37 text

アノテーションミス • ⼈間なのでミスは必ず存在する - ただ機械学習にはそれが致命的 - 再アノテーション => コストと 時間 データを綺麗にするためにも機械学習を使う 37

Slide 38

Slide 38 text

データを綺麗にするための機械学習の使⽤ 1. 公開されている学習済みモデルや外部のAPIを使⽤する 例: 「⼈間以外」の教師ラベルがついたデータから、「⼈間」が写っているものを取り除く 2. ⾃分で学習させたModel_version1の推論を使⽤する 例: Model_version1の推論結果と教師ラベルが違うものを候補として再アノテーションする ※あくまで候補の抽出として使⽤ 38

Slide 39

Slide 39 text

実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 - アノテーションミス - アンダーサンプリング 39

Slide 40

Slide 40 text

アンダーサンプリング • 不均衡なデータをアンダーサンプリングするときの⼯夫 1. 同⼀⼈物のデータ数を制限する 2. 同⼀⼈物の短期間の申請画像のうち、NGな画像とOKの画像がある場合、学習 データセットに必ず追加する NG OK

Slide 41

Slide 41 text

プロフ審査の現状 • ⾃動承認のみ適⽤ - 機械学習システムが OK としたものは⾃動で承認、NG としたものを⽬視で再度審査する • 効果 - コスト削減 - 審査の⾼速化 - ブレの防⽌ • 精度(precision) - 99%以上を常にキープ • 品質管理 - ユーザーからの通報だけでなく、⾃動承認したものを⼀部⽬視でも確認 41

Slide 42

Slide 42 text

まとめ

Slide 43

Slide 43 text

まとめ • 「タップル誕⽣」のプロフ審査における機械学習の応⽤ - 機械学習への落とし込み や データセットの作成 も重要 • 複数フィルタに分ける • データを綺麗にすることにも機械学習を使⽤ • 注⽬している研究分野 - 不均衡データ - 半教師あり学習 - 弱教師あり学習 43

Slide 44

Slide 44 text

ありがとうございました