×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
マッチングサービスの画像審査 における機械学習の応⽤ 株式会社サイバーエージェント 秋葉原ラボ 上岡 将也 Data Engineering & Data Analysis WS#9
Slide 2
Slide 2 text
⾃⼰紹介 • 上岡 将也(かみおか まさや) - 技術本部 秋葉原ラボ 画像チーム - 修⼠(画像⽣成)→ 2019年4⽉⼊社 • 仕事内容 - AbemaTVやタップル誕⽣などの動画像を中⼼とした 機械学習システムの開発と運⽤ • 趣味 - 剣道:⼩学⽣〜⼤学⽣まで - ゲーム:Rainbow Six Siege 2
Slide 3
Slide 3 text
1.「タップル誕⽣」とプロフィール画像 2. プロフ審査⾃動化の開発プロセス 3. 実社会へ機械学習を応⽤するときの課題と⼯夫 4. まとめ
Slide 4
Slide 4 text
「タップル誕⽣」と プロフィール画像
Slide 5
Slide 5 text
5
Slide 6
Slide 6 text
6
Slide 7
Slide 7 text
7
Slide 8
Slide 8 text
8
Slide 9
Slide 9 text
9
Slide 10
Slide 10 text
10
Slide 11
Slide 11 text
プロフィール画像 11
Slide 12
Slide 12 text
審査の基準 例: 不鮮明 ⼈物ではない 複数⼈ 他にも… • 顔のサイズが⼩さい • ⼈物の顔を認識できないもの • 芸能⼈や明らかに本⼈でない • 個⼈情報が含まれている などなど、 実際には⾮常に細かく厳密な基準を設定 出典:メイン写真の審査について[リンク] 12
Slide 13
Slide 13 text
厳密な基準に基づく プロフィール画像審査の⾃動化 ⽬的 ※以下、プロフィール画像審査 => プロフ審査と略します 13
Slide 14
Slide 14 text
プロフ審査⾃動化の 開発プロセス
Slide 15
Slide 15 text
分析 課題設定 収集 前処理 学習 評価 プロフ審査⾃動化の開発プロセス 15 ※⼀部のiconはhttps://icons8.com/app/から引⽤
Slide 16
Slide 16 text
分析 課題設定 収集 前処理 学習 評価 プロフ審査⾃動化の開発プロセス 16
Slide 17
Slide 17 text
分析 課題設定 収集 前処理 学習 評価 プロフ審査⾃動化の開発プロセス 17
Slide 18
Slide 18 text
分析 課題設定 収集 前処理 学習 評価 プロフ審査⾃動化の開発プロセス 18
Slide 19
Slide 19 text
分析 課題設定 収集 前処理 学習 評価 機械学習への落とし込み 19
Slide 20
Slide 20 text
分析 課題設定 収集 前処理 学習 評価 20
Slide 21
Slide 21 text
分析 課題設定 収集 前処理 学習 評価 データセットの作成 21
Slide 22
Slide 22 text
分析 課題設定 収集 前処理 学習 評価 22
Slide 23
Slide 23 text
分析 課題設定 収集 前処理 学習 評価 23
Slide 24
Slide 24 text
分析 課題設定 収集 前処理 学習 評価 パラメータの変更 ※ 評価が悪ければ…
Slide 25
Slide 25 text
分析 課題設定 収集 前処理 学習 評価 前処理‧データセットの変更 ※ 評価が悪ければ…
Slide 26
Slide 26 text
分析 課題設定 収集 前処理 学習 評価 機械学習の問題の変更 ※ 評価が悪ければ…
Slide 27
Slide 27 text
分析 課題設定 収集 前処理 学習 評価 27 解きたい問題やデータセットが決まっているものが多い ※機械学習の研究分野すべてを指しているわけではありません 機械学習の研究分野では…
Slide 28
Slide 28 text
分析 課題設定 収集 前処理 学習 評価 データセットの作成 実社会に機械学習を 応⽤する場合は この⼆つも重要!! 機械学習への落とし込み 28
Slide 29
Slide 29 text
実社会へ機械学習を 応⽤するときの課題と⼯夫
Slide 30
Slide 30 text
実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 - アノテーションミス - アンダーサンプリング 30
Slide 31
Slide 31 text
実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 - アノテーションミス - アンダーサンプリング 31
Slide 32
Slide 32 text
課題:機械学習への落とし込み 1. 複雑な基準 • ⽬的=OKかNGかの2クラス分類 • しかし機械学習の観点から⾒ると、分類だけでは解けない 2. 性能改善の際の再学習の難しさ • 特定のNG理由の画像に対する再学習の依頼がよくある 例:「加⼯されている画像がOKとなってしまっているので再学習お願いします。」 32
Slide 33
Slide 33 text
解決例:プロフ審査 1. 複雑な基準 • 分類、顔検出などを考慮して、フィルタを分ける 2. 性能改善の際の再学習の難しさ • 再学習の頻度によってフィルタを分ける 顔検出 分類 ‧ ‧ ‧ 複数⼈ 承認 加⼯ ※あくまでイメージです ○ 複数フィルタに分ける 33 ⼈間以外 注意 全体の精度や処理速度、リソースを考慮する必要あり 顔サイズ⼩
Slide 34
Slide 34 text
実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 - アノテーションミス - アンダーサンプリング 34
Slide 35
Slide 35 text
実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 - アノテーションミス - アンダーサンプリング 35
Slide 36
Slide 36 text
アノテーションミス • ⼈間なのでミスは必ず存在する - ただ機械学習にはそれが致命的 - 再アノテーション => コストと 時間 36
Slide 37
Slide 37 text
アノテーションミス • ⼈間なのでミスは必ず存在する - ただ機械学習にはそれが致命的 - 再アノテーション => コストと 時間 データを綺麗にするためにも機械学習を使う 37
Slide 38
Slide 38 text
データを綺麗にするための機械学習の使⽤ 1. 公開されている学習済みモデルや外部のAPIを使⽤する 例: 「⼈間以外」の教師ラベルがついたデータから、「⼈間」が写っているものを取り除く 2. ⾃分で学習させたModel_version1の推論を使⽤する 例: Model_version1の推論結果と教師ラベルが違うものを候補として再アノテーションする ※あくまで候補の抽出として使⽤ 38
Slide 39
Slide 39 text
実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 - アノテーションミス - アンダーサンプリング 39
Slide 40
Slide 40 text
アンダーサンプリング • 不均衡なデータをアンダーサンプリングするときの⼯夫 1. 同⼀⼈物のデータ数を制限する 2. 同⼀⼈物の短期間の申請画像のうち、NGな画像とOKの画像がある場合、学習 データセットに必ず追加する NG OK
Slide 41
Slide 41 text
プロフ審査の現状 • ⾃動承認のみ適⽤ - 機械学習システムが OK としたものは⾃動で承認、NG としたものを⽬視で再度審査する • 効果 - コスト削減 - 審査の⾼速化 - ブレの防⽌ • 精度(precision) - 99%以上を常にキープ • 品質管理 - ユーザーからの通報だけでなく、⾃動承認したものを⼀部⽬視でも確認 41
Slide 42
Slide 42 text
まとめ
Slide 43
Slide 43 text
まとめ • 「タップル誕⽣」のプロフ審査における機械学習の応⽤ - 機械学習への落とし込み や データセットの作成 も重要 • 複数フィルタに分ける • データを綺麗にすることにも機械学習を使⽤ • 注⽬している研究分野 - 不均衡データ - 半教師あり学習 - 弱教師あり学習 43
Slide 44
Slide 44 text
ありがとうございました