Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
マッチングサービスの画像審査における機械学習の応用 / Application of mach...
Search
CyberAgent
PRO
November 07, 2019
Technology
0
1.5k
マッチングサービスの画像審査における機械学習の応用 / Application of machine learning in image examination
マッチングサービスの画像審査における機械学習の応用
秋葉原ラボ 上岡将也
CyberAgent
PRO
November 07, 2019
Tweet
Share
More Decks by CyberAgent
See All by CyberAgent
2025年度 生成AI 実践編
cyberagentdevelopers
PRO
3
210
LLMを用いたメタデータベースレコメンド検証
cyberagentdevelopers
PRO
6
1.5k
CodeAgentとMCPで実現するデータ分析エージェント
cyberagentdevelopers
PRO
1
240
SQL Agentによるタップルのデータ利活用促進
cyberagentdevelopers
PRO
1
420
NAB Show 2025 動画技術関連レポート / NAB Show 2025 Report
cyberagentdevelopers
PRO
1
400
【2025年度新卒技術研修】100分で学ぶ サイバーエージェントのデータベース 活用事例とMySQLパフォーマンス調査
cyberagentdevelopers
PRO
7
10k
【CA.ai #1】未来を切り拓くAIエージェントの可能性
cyberagentdevelopers
PRO
3
160
【CA.ai #1】MCP世界への招待:AIエンジニアが創る次世代エージェント連携の世界
cyberagentdevelopers
PRO
2
170
【CA.ai #1】ABEMA のコンテンツ制作を最適化! 生成 AI × クラウド映像編集システム
cyberagentdevelopers
PRO
0
140
Other Decks in Technology
See All in Technology
American airlines ®️ USA Contact Numbers: Complete 2025 Support Guide
airhelpsupport
0
390
KubeCon + CloudNativeCon Japan 2025 Recap Opening & Choose Your Own Adventureシリーズまとめ
mmmatsuda
0
280
「クラウドコスト絶対削減」を支える技術—FinOpsを超えた徹底的なクラウドコスト削減の実践論
delta_tech
4
170
MUITにおける開発プロセスモダナイズの取り組みと開発生産性可視化の取り組みについて / Modernize the Development Process and Visualize Development Productivity at MUIT
muit
2
17k
Geminiとv0による高速プロトタイピング
shinya337
1
270
自律的なスケーリング手法FASTにおけるVPoEとしてのアカウンタビリティ / dev-productivity-con-2025
yoshikiiida
2
17k
スタートアップに選択肢を 〜生成AIを活用したセカンダリー事業への挑戦〜
nstock
0
230
united airlines ™®️ USA Contact Numbers: Complete 2025 Support Guide
flyunitedhelp
1
380
fukabori.fm 出張版: 売上高617億円と高稼働率を陰で支えた社内ツール開発のあれこれ話 / 20250704 Yoshimasa Iwase & Tomoo Morikawa
shift_evolve
PRO
2
7.9k
KubeCon + CloudNativeCon Japan 2025 Recap by CA
ponkio_o
PRO
0
300
改めてAWS WAFを振り返る~業務で使うためのポイント~
masakiokuda
2
270
赤煉瓦倉庫勉強会「Databricksを選んだ理由と、絶賛真っ只中のデータ基盤移行体験記」
ivry_presentationmaterials
2
370
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
49
14k
Git: the NoSQL Database
bkeepers
PRO
430
65k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
46
9.6k
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.7k
Six Lessons from altMBA
skipperchong
28
3.9k
Gamification - CAS2011
davidbonilla
81
5.4k
Side Projects
sachag
455
42k
Agile that works and the tools we love
rasmusluckow
329
21k
Docker and Python
trallard
44
3.5k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Transcript
マッチングサービスの画像審査 における機械学習の応⽤ 株式会社サイバーエージェント 秋葉原ラボ 上岡 将也 Data Engineering & Data
Analysis WS#9
⾃⼰紹介 • 上岡 将也(かみおか まさや) - 技術本部 秋葉原ラボ 画像チーム -
修⼠(画像⽣成)→ 2019年4⽉⼊社 • 仕事内容 - AbemaTVやタップル誕⽣などの動画像を中⼼とした 機械学習システムの開発と運⽤ • 趣味 - 剣道:⼩学⽣〜⼤学⽣まで - ゲーム:Rainbow Six Siege 2
1.「タップル誕⽣」とプロフィール画像 2. プロフ審査⾃動化の開発プロセス 3. 実社会へ機械学習を応⽤するときの課題と⼯夫 4. まとめ
「タップル誕⽣」と プロフィール画像
5
6
7
8
9
10
プロフィール画像 11
審査の基準 例: 不鮮明 ⼈物ではない 複数⼈ 他にも… • 顔のサイズが⼩さい • ⼈物の顔を認識できないもの
• 芸能⼈や明らかに本⼈でない • 個⼈情報が含まれている などなど、 実際には⾮常に細かく厳密な基準を設定 出典:メイン写真の審査について[リンク] 12
厳密な基準に基づく プロフィール画像審査の⾃動化 ⽬的 ※以下、プロフィール画像審査 => プロフ審査と略します 13
プロフ審査⾃動化の 開発プロセス
分析 課題設定 収集 前処理 学習 評価 プロフ審査⾃動化の開発プロセス 15 ※⼀部のiconはhttps://icons8.com/app/から引⽤
分析 課題設定 収集 前処理 学習 評価 プロフ審査⾃動化の開発プロセス 16
分析 課題設定 収集 前処理 学習 評価 プロフ審査⾃動化の開発プロセス 17
分析 課題設定 収集 前処理 学習 評価 プロフ審査⾃動化の開発プロセス 18
分析 課題設定 収集 前処理 学習 評価 機械学習への落とし込み 19
分析 課題設定 収集 前処理 学習 評価 20
分析 課題設定 収集 前処理 学習 評価 データセットの作成 21
分析 課題設定 収集 前処理 学習 評価 22
分析 課題設定 収集 前処理 学習 評価 23
分析 課題設定 収集 前処理 学習 評価 パラメータの変更 ※ 評価が悪ければ…
分析 課題設定 収集 前処理 学習 評価 前処理‧データセットの変更 ※ 評価が悪ければ…
分析 課題設定 収集 前処理 学習 評価 機械学習の問題の変更 ※ 評価が悪ければ…
分析 課題設定 収集 前処理 学習 評価 27 解きたい問題やデータセットが決まっているものが多い ※機械学習の研究分野すべてを指しているわけではありません 機械学習の研究分野では…
分析 課題設定 収集 前処理 学習 評価 データセットの作成 実社会に機械学習を 応⽤する場合は この⼆つも重要!!
機械学習への落とし込み 28
実社会へ機械学習を 応⽤するときの課題と⼯夫
実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 -
アノテーションミス - アンダーサンプリング 30
実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 -
アノテーションミス - アンダーサンプリング 31
課題:機械学習への落とし込み 1. 複雑な基準 • ⽬的=OKかNGかの2クラス分類 • しかし機械学習の観点から⾒ると、分類だけでは解けない 2. 性能改善の際の再学習の難しさ •
特定のNG理由の画像に対する再学習の依頼がよくある 例:「加⼯されている画像がOKとなってしまっているので再学習お願いします。」 32
解決例:プロフ審査 1. 複雑な基準 • 分類、顔検出などを考慮して、フィルタを分ける 2. 性能改善の際の再学習の難しさ • 再学習の頻度によってフィルタを分ける 顔検出
分類 ‧ ‧ ‧ 複数⼈ 承認 加⼯ ※あくまでイメージです ◦ 複数フィルタに分ける 33 ⼈間以外 注意 全体の精度や処理速度、リソースを考慮する必要あり 顔サイズ⼩
実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 -
アノテーションミス - アンダーサンプリング 34
実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 -
アノテーションミス - アンダーサンプリング 35
アノテーションミス • ⼈間なのでミスは必ず存在する - ただ機械学習にはそれが致命的 - 再アノテーション => コストと 時間
36
アノテーションミス • ⼈間なのでミスは必ず存在する - ただ機械学習にはそれが致命的 - 再アノテーション => コストと 時間
データを綺麗にするためにも機械学習を使う 37
データを綺麗にするための機械学習の使⽤ 1. 公開されている学習済みモデルや外部のAPIを使⽤する 例: 「⼈間以外」の教師ラベルがついたデータから、「⼈間」が写っているものを取り除く 2. ⾃分で学習させたModel_version1の推論を使⽤する 例: Model_version1の推論結果と教師ラベルが違うものを候補として再アノテーションする ※あくまで候補の抽出として使⽤
38
実社会へ機械学習を応⽤するときの課題 1. 機械学習への落とし込み - 複雑な基準 - 再学習の難しさ 2. データセットの作成 -
アノテーションミス - アンダーサンプリング 39
アンダーサンプリング • 不均衡なデータをアンダーサンプリングするときの⼯夫 1. 同⼀⼈物のデータ数を制限する 2. 同⼀⼈物の短期間の申請画像のうち、NGな画像とOKの画像がある場合、学習 データセットに必ず追加する NG OK
プロフ審査の現状 • ⾃動承認のみ適⽤ - 機械学習システムが OK としたものは⾃動で承認、NG としたものを⽬視で再度審査する • 効果
- コスト削減 - 審査の⾼速化 - ブレの防⽌ • 精度(precision) - 99%以上を常にキープ • 品質管理 - ユーザーからの通報だけでなく、⾃動承認したものを⼀部⽬視でも確認 41
まとめ
まとめ • 「タップル誕⽣」のプロフ審査における機械学習の応⽤ - 機械学習への落とし込み や データセットの作成 も重要 • 複数フィルタに分ける
• データを綺麗にすることにも機械学習を使⽤ • 注⽬している研究分野 - 不均衡データ - 半教師あり学習 - 弱教師あり学習 43
ありがとうございました