Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
モデル更新コストを削減しつつ精度改善を達成した話
Search
tonouchi510
August 12, 2022
Technology
0
140
モデル更新コストを削減しつつ精度改善を達成した話
こちらのイベントの登壇資料。
https://machine-learning-pitch.connpass.com/event/199555/
tonouchi510
August 12, 2022
Tweet
Share
More Decks by tonouchi510
See All by tonouchi510
日本ディープラーニング協会主催 CVPR 2020 技術報告会(登内)
tonouchi510
0
12
日本ディープラーニング協会主催 CVPR 2021 技術報告会(登内)
tonouchi510
0
4
第22回 MLOps 勉強会:みてねのMLOps事情
tonouchi510
2
2k
Other Decks in Technology
See All in Technology
Potential EM 制度を始めた理由、そして2年後にやめた理由 - EMConf JP 2025
hoyo
2
1.6k
RemoveだらけのPHPUnit 12に備えよう
cocoeyes02
0
130
システム・ML活用を広げるdbtのデータモデリング / Expanding System & ML Use with dbt Modeling
i125
1
310
脳波を用いた嗜好マッチングシステム
hokkey621
0
260
エンジニアリング価値を黒字化する バリューベース戦略を用いた 技術戦略策定の道のり
kzkmaeda
6
1.5k
Apache Iceberg Case Study in LY Corporation
lycorptech_jp
PRO
0
250
偏光画像処理ライブラリを作った話
elerac
1
150
【内製開発Summit 2025】イオンスマートテクノロジーの内製化組織の作り方/In-house-development-summit-AST
aeonpeople
1
470
設計を積み重ねてシステムを刷新する
sansantech
PRO
0
130
データマネジメントのトレードオフに立ち向かう
ikkimiyazaki
6
1.2k
株式会社EventHub・エンジニア採用資料
eventhub
0
4.3k
遷移の高速化 ヤフートップの試行錯誤
narirou
5
840
Featured
See All Featured
For a Future-Friendly Web
brad_frost
176
9.6k
Building Adaptive Systems
keathley
40
2.4k
Being A Developer After 40
akosma
89
590k
Site-Speed That Sticks
csswizardry
4
400
It's Worth the Effort
3n
184
28k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Making the Leap to Tech Lead
cromwellryan
133
9.1k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
Raft: Consensus for Rubyists
vanstee
137
6.8k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
21
2.5k
Statistics for Hackers
jakevdp
797
220k
Transcript
「今季の成果は凄かったぞ!!!」登壇資料 モデル更新コストを削減しつつ 精度改善を達成した話 株式会社ミクシィ みてね事業部 開発グループ MLエンジニア 登内雅人
この登壇資料 https://machine-learning-pitch.connpass.com/event/199555/
登内 雅人(Tonouchi Masato) 株式会社ミクシィ みてね事業部 開発グループ MLエンジニア 20新卒エンジニア Twitter:@tono2700 業務
・ MLが絡む施策の研究開発 ・ ML研究開発基盤の構築 今期は特に「人物ごとのアルバム」という 機能の顔分類精度改善のための研究開発に注力
現在はこの顔識別結果はこの機能でのみ使用されていますが、顔識別の精度が上がったら様々 な施策に展開することを考えており、精度改善は非常に重要な課題となっています。
主な成果 • 特徴抽出モデルの精度改善をバックフィルフリーを実現しつつ達成 ◦ チームの半年分の開発工数をまるっと削減! • 部署の研究開発の基盤を0から構築 ◦ Kubeflowの利用 ◦
実験サイクルを高速化・属人性排除 ◦ コスト・時間効率最大化
人物ごとのアルバムの解析システムについて
解析の流れ 1. メディアから顔を検出する 2. 顔画像をモデルに入力して、年齢性別・特徴ベクトルを取得する 3. 特徴ベクトル(512次元)を使ってクラスタリング(撮影月ごと) 4. 年齢性別の結果と家族情報を利用して、クラスタを人物に紐付け 他サービスではユーザに人を選択させてますが、みてねでは自動で紐付けるされるように
していて、ユーザに驚きの体験を与えるという部分を大事にしています。
特徴抽出モデルの精度改善の課題 • モデルの更新が辛い 別々にトレーニングされたモデル は、一般に同じ埋め込み空間には ならない 引用元:https://arxiv.org/abs/2003.11942
案1:既存の特徴ベクトルを全てバックフィル • バックフィルにかかるコスト(大規模なデータに再推論処理が必要) ◦ 分散処理、ジョブ管理なども • 新旧ギャラリーセットの整合性チェック • 新旧モデル、ギャラリーセットの切り替えのタイミング DB移行と同等の開発・作業が必要、モデル更新の度にこの問題が出てくる
みてねの既存の画像・動画全 件をバックフィルすると、少なく とも数百〜数千万円オーダー の推論コストがかかり、現実 的でない
案2:新旧特徴抽出モデルを使い分ける • モデルの出しわけ処理の開発 ◦ 新モデル導入以前に撮影されたメディアは旧モデルで引き続き抽出 ▪ 昔撮影されたメディアがあとでアップロードされてくることもある ◦ 新モデル導入以降に撮影されたメディアは新モデルで抽出 •
新旧特徴ベクトルでクラスタリングした結果の紐付け処理 ◦ 場合によっては一部期間のバックフィルが必要 • ただし、これだけやっても旧モデルの分類結果を新モデルで引き継げる保証はない チーム内で工数見 積もりを行ったとこ ろ、半年ほどかか ると判明 精度が上がったからといって簡単に更新の意思決定を行えるような 状態ではない
解決方法:最新論文を読み漁って発見 面白い論文だったので解説記事も AI-Scholarに投稿してます。 https://ai-scholar.tech/articles/表現学習/backword-compatible-representation-learning
成果 • 古い特徴ベクトルとの互換性を持ったまま精度改善達成! • 半年分の開発工数を削減! • 今後はバンバン特徴抽出モデルの更新ができる! 精度 BCT無し 0.0655
BCT有り 0.9268 引用元:https://arxiv.org/abs/2003.11942
その他 • 研究開発基盤を一から構築 ◦ 分散学習・Preemptive TPU導入によるコスト・時間効率最大化 ▪ 実験サイクルは早ければ早いほどよい • 分散学習
=> 約8倍 • TPU => 約4倍 ▪ さらにコストも削減 => 半分以下に • TPU v3-8が$2.4/h、GPU v100x8が$5.9/h ◦ 実験手順簡略化、属人性排除 ▪ MLの研究開発はデータとかコードがいろんな場所に散在しやすい • 研究開発戦略の立て方 ◦ モデル更新の影響 ◦ アノテーションコスト減らすために教師無しのアプローチはできないか?他の推論に使いまわせる ように汎用的な特徴ベクトルにできないかなど、精度改善以外の面を気をつけている
採用:エンジニア募集中です https://mitene.us/recruit 特にサーバーサイドエンジニア