Case Study of Machine Learning in CrowdWorks

CrowdWorksにおける機械学習活用取り組み 2018/01/27 株式会社クラウドワークス CTO 弓山彬

自己紹介 • 弓山彬 (ゆみやまあきら) • 株式会社クラウドワークス執行役員 CTO
• 経歴 ◦ 2011年4月インターネットイニシアティブ入社 ◦ 2015年4月クラウドワークス入社 ◦ 2016年7月クラウドワークス CTO就任 • 業務 ◦ マネジメントしないCTO ◦ 最近：データ分析基盤構築、新サービスアーキテクチャレビュー、機械学習活用プロジェクト推進、技術方針・戦略策定、 ...

CrowdWorksについて

サービス成長（ユーザ数）クラウドワークスについて

サービス成長（仕事投稿数）ユーザ数増加に伴って、仕事依頼数も堅調に推移クラウドワークスについて

サービス抱える課題

悪質案件

ユーザによる不適切投稿（スパム投稿）増加 • CGM (ユーザ投稿型メディア) に共通する課題 • 不適切な投稿が増えることによって ◦ 目的
仕事を見つけづらくなる ◦ サービス品質低下 • 不適切な投稿（仕事募集）例： ◦ サービス意図に反する投稿（アフィリエイト、情報商材、等） ◦ 外部サービス規約に反する投稿（ランキング操作、不正な評価依頼、等） ◦ 成功報酬、雇用を前提とした募集など、サービス利用規約を把握せぬまま投稿するケースクラウドソーシング・サービス抱える課題

ユーザによる不適切投稿（スパム投稿）増加クラウドソーシング・サービス抱える課題利用者が増えてメディア媒体として価値があがる悪質案件急増が課題になっていたスパムに狙われやすくなる

悪質案件に対する取り組み

悪質案件に対する従来取り組み悪質案件に対する取り組みユーザからフィードバック • 「違反報告」によるフィードバック収集悪質案件検出 •
「禁止ワード」チェック（正規表現） • 機械学習活用

ユーザフィードバック収集を増やす悪質案件に対する取り組み

ユーザフィードバック収集を増やす悪質案件に対する取り組み • シンプルな選択肢で回答しやすい • スマホアプリ、Webページともに実装（導線を増やした） • 多くフィードバックが集まり、検索・違反検出
改善に繋がった

機械学習活用 • 「禁止ワード」チェック (正規表現)

「禁止ワード」による違反案件検出 • 違反案件文面に頻出するキーワードを列挙 ◦ HTMLタグ除去、Unicode正規化後、正規表現で一致判定 ◦ いずれか
「禁止ワード」が含まれる場合に事務局チェック対象とする違反案件に対する取り組み事務局目視チェック後、違反であれ掲載停止や利用制限といった対応を実施 ☞ 自動処理が可能な精度に至っていなかった

機械学習活用 • 「禁止ワード」チェック (正規表現)

機械学習活用 • 教師データが存在する ◦ ⇒ 過去ユーザサポートチーム判断結果が残っている •
人によって判断基準ブレにくい ◦ ⇒ 「あなたにおすすめ」人それぞれ好みへ依存度が高い ◦ ⇒ 「よくない」「あやしい」人による判断ブレが少ない • 判定基準が明確である ◦ ⇒ 「利用規約」「ガイドライン」として基準が言語化されている ◦ ⇒ 迷った時最終判断できる人が社内にいる（ユーザサポートチーム）悪質案件検出

試行錯誤するも.. • word2vec • doce2vec • SVM • LSTM •
… • 全てOKか、全てNGに... 悪質案件検出 - 機械学習活用

ベイジアンフィルタによる違反案件検出

違反案件検出処理流れ違反案件検出高精度化に向けた取り組み前処理 • 必要なデータセット抽出 •
HTMLタグ除去、Unicode (NFKC)正規化検出処理 • 形態素解析にMeCabを利用 ◦ mecab-ipadic-NEologd を辞書として利用 ◦ 抽出対象名詞、動詞、形容詞、形容動詞、副詞 ◦ 装飾用記号列など除外した ◦ 活用するもについて基本形 (base form)を用いた • ベイジアンフィルタで判定後処理 • サービス本体と連携 • 事務局による目視チェック結果フィードバック

ベイジアンフィルタによる検出違反案件検出高精度化に向けた取り組み違反案件非違反案件違反判定 807 77 非違反判定 193
923 適合率再現率 F値 0.913 0.807 0.857 ベイジアンフィルタ性能評価違反案件非違反案件違反判定 326 100 非違反判定 674 900 適合率再現率 F値 0.765 0.326 0.457 禁止ワードチェック性能評価 • 適合率、再現率ともに改善した • 複数語出現傾向をもとに判定することで誤判定を減らせた • 従来検知できなかった種類違反案件も大部分を検知できた

ベイジアンフィルタによる検出をサービスに適用する違反案件検出高精度化に向けた取り組み • 従来手法に比べて、適合率が大きく改善(76%→91%)したこと ☞ 自動非公開処理が現実味を帯びてきた ◦ 違反で無いもを非公開にしてしまうケース
ゼロにできない ◦ そ対応コストが許容可能な範囲に収まる程度に性能改善できた手法適合率再現率 F値正規表現 0.765 0.326 0.457 ベイジアンフィルタ 0.913 0.807 0.857

ベイジアンフィルタサービス環境へ組み込み違反案件検出高精度化に向けた取り組みサービス提供用DB 機械学習用DB 必要なデータみ取得・同期する
判定結果を HTTP JSON API で連携する機械学習用 EC2インスタンス Rails App Server サービス環境

ベイジアンフィルタサービス本体と連携違反案件検出高精度化に向けた取り組み学習フェーズ (1回/day) • 1日1回、N日前〜N+60日前 60日分
仕事依頼データを対象に学習させる (N=3〜7) • 違反案件傾向変化に追従させるため • 直近数日分目視チェック未完了場合があるため除外判定フェーズ (1-2回/hour) • 新着案件に対して判定処理を実施 • 違反と判定されたも HTTP JSON API 経由でサービス本体に連携し掲載停止処理を実施

ベイジアンフィルタを組み込んでみて (まとめ) • 今回取り組みによって、初めて「禁止ワード」チェック(正規表現) 性能を定量的に評価した ◦ 従来感覚値で会話していたも
が、定量的に評価し、改善・予測できるようになった • 人力対応コストを大幅に削減できた ◦ 目視で巡回を大幅に減らすことができた ◦ 人力チェック結果を次回ベイジアンフィルタ学習にフィードバックすることで、追加コスト無く継続的に性能を維持できるようになった ◦ アーキテクチャ工夫により、新たな取り組み成果を速やかにサービス適用できた違反案件検出高精度化に向けた取り組み

振り返りとこれから

「どような課題を解決したいか」をしっかりと定義することが重要

これまで：守り悪質案件検出 RPA(自動化)による工数削減

これまで：守り悪質案件検出 RPA(自動化)による工数削減これから：攻めサービス価値を大きくする

良い “仕事上出会い” を創っていきたい

マッチング改善 • いい仕事と、いいクラウドワーカーが出会い環境を作りたい ◦ いい仕事、いいクラウドワーカー特徴、状況（コンテキスト）によって違う ◦ いいエンジニアが、いいデザイナーと
限らない • 今よりも、もっと良い出会いが起こりやすく • クラウドワーカースキルアップ、ステップアップ支援

ユーザに届ける”価値”を最大化するために、何が必要か？

ユーザに価値を届ける”価値”を最大化するために • ユーザ視点で課題を捉え、プロダクトが届けるべき”価値”を整理する • プロダクトオーナー、UXデザイナーを中心に、メンバー全員で議論する • “価値”を届けるために、機械学習が生きる場面があれ、活用していく • プロダクトオーナー(PO)、
エンジニア、UXデザイナー、混成チームで”ユーザー課題”に向き合い続ける

http://designer.crowdworks.co.jp/entry/customer-journey-map-uxdesign http://designer.crowdworks.co.jp/entry/three-conscious-things

https://qiita.com/yo-iida/items/053f7613a68e086a01a4

We're Hiring • インターネットを通じた “仕事” マッチングをより良くしていきたい • ユーザ課題に向き合いながら、サービスを成長させていきたい方 •
プロダクトオーナー、デザイナー、エンジニア混成チームで働きたい方 https://crowdworks.doorkeeper.jp/events/69911 2月21日(水) 19:30〜弊社オフィス (恵比寿ガーデンプレイス) にてミートアップ開催

Case Study of Machine Learning in CrowdWorks

Case Study of Machine Learning in CrowdWorks

More Decks by Akira Yumiyama

Other Decks in Technology

Featured

Transcript