Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MTC2018 - 数十億規模のデータと機械学習で描く未来

mercari
October 04, 2018

MTC2018 - 数十億規模のデータと機械学習で描く未来

Speaker: 山口 拓真

累計出品数が10億品を超え、近年の機械学習・ディープラーニング分野の目覚ましい発展と相まって、データ活用への注目と期待がますます高まっている。多様な商品データや行動データを利用した複数のプロジェクトが進行しており、出品時の画像認識や、不正の自動検知といった機能がすでにサービス内で稼働している。本セッションでは、それらのアルゴリズムと実行基盤の紹介、および、一部の開発中の機能について述べる。

mercari

October 04, 2018
Tweet

More Decks by mercari

Other Decks in Technology

Transcript

  1. すでに, • 商品画像データ (商品情報付き) • 商品閲覧 / 検索→購入 / 非購入履歴

    • etc... など,様々なデータセットを作成可能 ただ規模が大きければいいという訳ではなく 数十億規模のものは現状利用していない 大規模データセット 将来的には,巨大なデータを活用する意気込み (捨てるか使うかしなければただの無駄なコスト) オープンデータセット ・ ImageNet (ILSVRC 2012): 1.2百万画像 / 1000クラス ・ Open Images V4: 9百万画像 / 2万クラス ・ YouTube-8M Dataset: 8百万動画 / 4千クラス ・ Amazon Product Reviews: 8千万件レビュー メルカリの画像系プロジェクト ・ クラス識別用: 8.5百万画像 / 1.4万クラス ・ 出品時の画像認識用 : 5千万画像 As a matter of fact, ImageNet is relatively small by today’s standards; it “only” contains a million images that cover the specific domain of object classification https://arxiv.org/abs/1807.05520, Facebook AI Research
  2. 2017 2016 2018 メルカリ機械学習の歴史 商品画像認識 (感動出品) Kaggleの開催 (価格推定) 規約違反商品の検出 v1

    年齢確認商品の検出 商品の重さ推定 規約違反取引の検出 v1 問い合わせ分類 商品通報の識別 v2 規約違反商品の検出 v2 商品通報の識別 v1 感動出品 v2 規約違反取引の検出 v2 感動出品 (US) 価格推定 ・ 簡単な売買 ・ 安全な売買 これら以外にも精度等の問題で実用に至らなかったプロジェクトも存在 2016年には 多種多様な 運用を全て人手で対応す ることに すでに限界が見 えていた トレンドだから機械学習で はなく 純粋に必要
  3. 2017 2016 2018 メルカリ機械学習の歴史 商品画像認識 (感動出品) Kaggleの開催 (価格推定) 規約違反商品の検出 v1

    年齢確認商品の検出 商品の重さ推定 規約違反取引の検出 v1 問い合わせ分類 商品通報の識別 v2 規約違反商品の検出 v2 商品通報の識別 v1 感動出品 v2 規約違反取引の検出 v2 感動出品 (US) 価格推定 これら以外にも精度等の問題で実用に至らなかったプロジェクトも存在 2016年には 多種多様な 運用を全て人手で対応す ることに すでに限界が見 えていた トレンドだから機械学習で はなく 純粋に必要 ・ 簡単な売買 ・ 安全な売買
  4. 利用規約違反商品 / 取引の検出 規約違反対応 通報対応 規約違反に関するお客さまからの報告を検証 し,問 題のある商品の削除,出品者の利用停止を実施 監視対応 規約違反の可能性がある商品や出品者を抽出

    し, 削除,利用停止を実施 自動検出により通報が不要なサービスへ 自動検出によりスケーラブルなサービスへ 自動化の推進はコスト削減のためではなく,スピーディでスケーラブルなサービス実現のため. 10倍のサービス規模となったとして, 10倍の人員が必要となるのは非現実的.
  5. マルチモーダルモデルの活用 商品名 商品説明 (テキストデータ) 画像 カテゴリ 価格 (カテゴリカル・数 値データ) 意思決定

    複数種類のデータを入力とした機械学習モデル 様々なベースラインとなる識別器を迅速に生成で きるところを目指す USではリリース済みで,日本では精度検証中 (言語の違いからモデルの構成は異なる )
  6. USではリリース済みで,日本では精度検証中 (言語の違いからモデルの構成は異なる ) マルチモーダルモデルの活用 商品名 商品説明 (テキストデータ) 画像 カテゴリ 価格

    (カテゴリカル・数 値データ) 意思決定 複数種類のデータを入力とした機械学習モデル 様々なベースラインとなる識別器を迅速に生成で きるところを目指す • 単純に複数種類のデータを入力できるようにしても期待 通りにはならず,多くの試行錯誤が必要となる • マルチモーダルモデルの課題や失敗事例と,その解決 策についての情報量が少ない • 改善の余地がまだまだあるため,引き続き注力
  7. 2017 2016 2018 メルカリ機械学習の歴史 商品画像認識 (感動出品) Kaggleの開催 (価格推定) 規約違反商品の検出 v1

    年齢確認商品の検出 商品の重さ推定 規約違反取引の検出 v1 問い合わせ分類 商品通報の識別 v2 規約違反商品の検出 v2 商品通報の識別 v1 感動出品 v2 規約違反取引の検出 v2 感動出品 (US) 価格推定 これら以外にも精度等の問題で実用に至らなかったプロジェクトも存在 2016年には 多種多様な 運用を全て人手で対応す ることに すでに限界が見 えていた トレンドだから機械学習で はなく 純粋に必要 ・ 簡単な売買 ・ 安全な売買
  8. 感動出品 (US) Louis Vuitton Wallet Men > Men's accessories >

    Wallets Louis Vuitton 一部のデータは異なるものの日本と USでは同じアルゴリズム構成で運用されている
  9. 感動出品のアルゴリズム CNN (Inception-v3) 画像特徴 ベクトル 類似商品群 Title ラルフローレン ポロシャツ Category

    ベビー・キッズ > ベビー服(男の子用) 〜95cm > トップス Brand ラルフローレン Color 赤 Price ¥800 〜 ¥1,200 シンプルであるが,柔軟性が非常に高く運用しやすい (k-nearest neighbors algorithm) 約5千万画像の画像特徴プール
  10. 感動出品のインフラ Dockerfileを用意して 1週間で提供された 感動出品インフラ モデル更新は,画像の保存されている AWS で実行され, 機能提供は Kubernetes の利用可能な

    GCP (GKE)で運用されている. マイクロサービスと機械学習システムは相性がよく ・リソース管理 ・モデル更新 など,多くの面でメリットがある
  11. 商品の重さ推定 (US) 1. 商品写真をアップロード 2. 感動出品による商品情報推定 3. お客さまによる商品情報追加・補完 4. 配送情報を入力時に重さ推定

    ◦ 重さクラスが事前に自動選択 ◦ 軽いものが選択された場合には警告 • 配送情報入力の手間を緩和する • 配送に関するトラブルを未然に防ぐ
  12. Software 1.0 : • 従来のプログラミングによるもの • ロジックは人間が考える Software 2.0 :

    • プログラミングではない • ニューラルネットワーク等で表現 • データ(入力/期待出力)を与えて学習 • 間違いがあればコードを直すのではなく,うまく いくようにデータを増やす • Software 1.0を置き換えるものではない “Software 2.0”, Andrej Karpathy, https://medium.com/@karpathy/software-2-0-a64152b37c35 Software 2.0 Andrej Karpathy (Director of AI at Tesla)
  13. Software 1.0 : • 従来のプログラミングによるもの • ロジックは人間が考える Software 2.0 :

    • プログラミングではない • ニューラルネットワーク等で表現 • データ(入力/期待出力)を与えて学習 • 間違いがあればコードを直すのではなく,うまく いくようにデータを増やす • Software 1.0を置き換えるものではない “Software 2.0”, Andrej Karpathy, https://medium.com/@karpathy/software-2-0-a64152b37c35 Software 2.0 Andrej Karpathy (Director of AI at Tesla)
  14. One Model To Learn Them All (Google Brain) “Can we

    create a unified deep learning model to solve tasks across multiple domains?” (複数のドメインを跨いだタスクを単一のディープラーニングモデルで扱えるのか? ) “One model to learn them all”, Kaiser et al., https://arxiv.org/abs/1706.05137, 2017
  15. AutoML / NASNet (Google Brain) “AutoML for large scale image

    classification and object detection”, https://ai.googleblog.com/2017/11/automl-for-large-scale-image.html • 機械学習モデルが機械学習モデルを生成 • 画像認識系のタスク用途で生成されたのがNASNet • 従来のモデルよりも高い性能が得られた
  16. 数十億規模のデータと機械学習で描く未来 • 現状では,汎用的な機械学習モデル << タスクに特化した機械学習モデル • 汎用的な機械学習モデル / 仕組みから実用レベルのモデルを量産可能? ◦

    Software 2.0 ◦ One Model To Learn Them All ◦ AutoML ◦ etc... • 公開・提供される学習済み汎用モデルの転移学習がどこまでうまくいくのか? ◦ 規模の大きいモデルを最初から学習するのはコストが高すぎる • 大規模(数億〜)データセットであれば, 汎用的な機械学習モデル >> タスクに特化した機械学習モデル を本当に実現できるのかもしれない