TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方

5e23dee686fc8caecb277c351565d4e9?s=47 taru0216
February 22, 2017

TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方

Retty機械学習基盤について書いた Advent Calander 記事の中から Docker の部分について発表しました。

http://qiita.com/taru0216/items/dda1f9f11397f811e98a

5e23dee686fc8caecb277c351565d4e9?s=128

taru0216

February 22, 2017
Tweet

Transcript

  1. 2.

    Who am I? ▪ Masato Taruishi ▪ 学生時代 ✓ Debian

    Project 公式開発者 ✓ Debian-JP Project 理事会役員 ▪ Career ✓ Red Hat / VA Linux (Eng / Sales) − OS / コンパイラ / ミドルウェア ✓ Google (SWE/SRE) − アプリ・サーバサイド・インフラ・Corp ✓ Rakuten (Eng) − Private Cloud ✓ Retty (CTO) − なんでも屋
  2. 5.

    Agenda ▪ Rety の紹介 (会社、サービス、データ) ▪ Retty 機械学習基盤の紹介 (Docker 周り)

    ✓ 機械学習でやっている事の詳細は別の機 会、または次の氏原の発表で触れたいと 思います
  3. 13.

    グルメ情報に関する信頼性等向上の取り組み ▪ 信頼性 ✓ 実名・顔写真公開による投稿 − 顔の見えるサービスという世界観を創る ✓ 投稿内容をリアルな友達・知人に見てもらう −

    責任ある投稿を促す ▪ 権利関係 ✓ 二次著作の許諾 − ユーザさん投稿の分析・編集・公開などを行う許 諾を受けている
  4. 14.

    ユーザさん・飲食店さん双方が Happy になる世界 ▪ みんながHappyになる Win-Win 関係 ✓ オススメのお店を投稿するコンセプト (リコメンド)

    − ≠評価 (レビュー) ✓ オススメ情報を適切なユーザさんに届けるマッチング 投稿ユーザさん 飲食店さん ファン ユーザさん どなたの発言かがわかる (*) 飲食店さんも含めた Web of Trust (信頼の輪) 信頼 信頼
  5. 15.

    Retty のデータの種類と規模 様々な種類のデータを組み合わせて、 人をHappyにするサービス構築を目指しています! 自然 言語 画像 お店 人 口コミ300万件

    1000万枚 全国80万店舗のお店情報 => 2年で約50%が閉店するといわれている => 「ネットに情報はない」ためそれを作るノウハ ウが大事 ユーザーさんの行動、数千億 ソーシャルグラフ 【Keywords】 Deep Learning Word2Vec LDA/LSI/TFIDF SVM/LR/RandomForest LP/ILP/0-1ILP/NLP Recommendation Automation Data Visualization
  6. 22.

    アーキテクチャ全体像 Hardware - Akiba 1-x OS hdd Distributed storage Container

    Home Container Containers Network GPU CPU, devices Configuration Container Qemu KVM Kubernetes (docker) qemu on docker
  7. 23.

    根幹はRubuntu Server (Retty ubuntu) と Kubernetes (Docker) Hardware - Akiba

    1-x OS hdd Home Container GPU CPU, devices Configuration Kubernetes (docker)
  8. 24.

    開発者は Docker コンテナを使う Hardware - Akiba 1-x OS hdd Home

    Container GPU CPU, devices Configuration Kubernetes (docker)
  9. 26.

    すべての Docker イメージはコア Docker から継承 retty2-runtime-core retty2-runtime-cuda retty2-runtime-anaconda retty2-runtime-builder retty2-runtime-dev

    retty2-tech-home 監視エージェント・ログ・証明書管理・ パッケージ監視(セキュリティ対策)など retty2 開発環境 on retty2 cuda anaconda / tensorflow / chainer / mxnet / cabocha / mxnet / fasttext ….. shell / editors / tmux / screen …. ssh / samba ...
  10. 27.

    docker build は configure && make -j で http proxy

    cache ローカル対応で docker build が超高速 public データのダウンロード速度最大 350MB/s