Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Pocochaにおける規約違反検知のための機械学習の活用【DeNA TechCon 2021 Autumn】/techcon2021autumn-08

DeNA_Tech
September 29, 2021

Pocochaにおける規約違反検知のための機械学習の活用【DeNA TechCon 2021 Autumn】/techcon2021autumn-08

ライブコミュニケーションアプリであるPocochaは、配信動画・コメント・音声・フォロー関係・様々な行動履歴など、多種多様なデータを同時に扱うサービスです。
DeNAのデータサイエンスグループは、これらの豊富かつ多様なデータ資源に対して機械学習を適用することで、多様化する配信者の中からおすすめの配信者をユーザーごとに推薦したり、急成長で重要度を増す規約違反の検知(審査)を効率化するなど、さらなるプラットフォームの発展に貢献していこうとしています。
本講演では、幾つかある取り組みの中から、プラットフォームの健全化に向けた機械学習の活用事例についてお話しします。
Pocochaの急成長やグローバル展開で審査すべき対象が膨大に増えていく状況に対してどのように審査システムと機械学習を組み合わせて効率化を行っていったのか、審査効率化のためのアルゴリズムやシステム面など、幅広い視点から紹介していきます。

DeNA_Tech

September 29, 2021
Tweet

More Decks by DeNA_Tech

Other Decks in Technology

Transcript

  1. 辛さ - 不均衡さ - 規約違反の配信は全体の中ではごくごく一部 - ものすごく稀な例を正確に抽出できているのか、きちんと評価が必要 → GPUを使用するGKEクラスタの運用による効率化 -

    データセットの巨大さ - 愚直に実験をしていては、時間がかかりすぎる → downsamplingなど、適切なデータの前処理 - 人間の目だけでは検出が難しいNG例がある w/ preemptible-nodepool t
  2. 言語の壁を、ベクトル化によって埋める - 言語が違っても、意味が同じならば似たベクトルになるように変換 - この変換後のベクトルを入力として学習や推論を実施する “How old are you?” “What

    is your age?” “My phone is good.” [0.3, 0.2, ...] [0.3, 0.1, ...] [0.9, 0.6, ...] W elcom e to sim ple yet surprisingly pow erful m ultilingual m odels language understanding m atters m ore than W hat people m ean the language they speak bienvenue à simple encore überraschend stark 多种语言 модели 사람들이 의미하는 것 نﻣ رﺛﻛأ مﮭﯾ la lingua che parlano 言語の理解
  3. さらなる拡張 - より幅広いカテゴリに対して検出を行いたい - 一方、教師データが揃っている場合は一般的に少ない - そこでZeroshot-Learningの活用を検討 食べ物の分類器がほしい 車種の分類器がほしい 花の分類器がほしい

    Zeroshot model 分類カテゴリに食べ物のテキストをセット 分類カテゴリに車種のテキストをセット 分類カテゴリに花の品種のテキストをセット 追加データでのFine-tuning不要=ゼロショット
  4. さらなる拡張 Model Data Class 1 Class 2 Model Data Class

    (自然言語) yes / no - さまざまな公開モデルも存在 - 教師あり学習に精度は劣るが、 - 学習なしで運用できることによる手軽さ - 分析用の情報検索として使えるだけでもありがたい Supervised Zeroshot
  5. まとめ - Pocochaの多様なデータを活用した、規約違反検知用の機械学習システム - 動画、音声、言語、グラフ、行動履歴などなど、様々なデータを活用 - 本日紹介したものの他にも、様々な取り組みが行われている - Human in

    the Loopの構成を活用しながら違反を素早く見つけることで、  健全なプラットフォームの運用に貢献 - 動画情報を活用した配信者の違反検知 - 自然言語情報を活用した視聴者の違反検知