Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ分析基盤を開発・運用するエンジニアリングチームの技術活用とその変遷 / StudySap...

データ分析基盤を開発・運用するエンジニアリングチームの技術活用とその変遷 / StudySapuri Data Meetup 02 Engineering Team Introduction

akitoshi toita

July 20, 2018
Tweet

More Decks by akitoshi toita

Other Decks in Technology

Transcript

  1. 戸井田 明俊 @toita / @toitech ソーシャルゲーム開発会社でオンプレ Hadoop 上に構 築されたデータ分析基盤の開発・運用に従事した後、 2017年に株式会社リクルートマーケティングパートナー

    ズに入社。 スタディサプリでは各種データ連携の拡充や分析者の 使いやすい環境を目指した基盤整備に加え、データを 活用した機能開発などを担当。 1児の父。趣味で特定のラーメン屋に似たジャンルのお 店を探せる検索エンジン※ を開発中。しかし進捗は芳し くない。 ※ https://yumy.tokyo
  2. 企画提案 研究開発 実証実験 性能改善 本番実装 本番運用 効果検証 要因分析 施策立案 分析

    データサイエンティスト エンジニアリング データエンジニア R&D データリサーチエンジニア
  3. 現在のシステム構成 Treasure Data (Hive / Presto) レポーティング 分析 Kinesis Lambda

    TD SDK クライアントサイドログ サーバーサイドログ マスタデータ
  4. ➔ レコード数:10億超(動画視聴ログ) ➔ テーブル数:450+ ➔ ジョブ数:80+ / day(Presto)、 10+ /

    day(Hive) ➔ 利用者:プロダクト・マーケ・経営企画などサービス関係者全般 活用状況
  5. 利用者別クエリ管理(ワークフロー)の使い分け Luigi + Jenkins Digdag / TD Workflow TD 登録クエリ

    開発者・提供元 Spotify OSS (Treasure Data) Treasure Data 利用者 データグループの エンジニアリングチーム データグループの 分析チーム データグループ以外の 組織 エンジニア データ分析者 非エンジニア・分析者 言語・UI Python YAML GUI 利用者の用途やスキルに合わせた実行環境を提供
  6. 利用者別クエリ管理(ワークフロー)の使い分け Luigi + Jenkins Digdag / TD Workflow TD 登録クエリ

    開発者・提供元 Spotify OSS (Treasure Data) Treasure Data 利用者 データグループの エンジニアリングチーム データグループの 分析チーム データグループ以外の 組織 エンジニア データ分析者 非エンジニア・分析者 言語・UI Python YAML GUI 利用者の用途やスキルに合わせた実行環境を提供 リソース分離されていないため、ワイルドクエリ にリソースを占有されてしまう問題 基幹集計処理とユーザーが待ち合わせできず、 遅延した時にデータが更新されない問題
  7. 進化したデータ分析基盤(予定) Treasure Data (Hive / Presto) レポーティング 分析 Kinesis Lambda

    BigQuery CRM TD SDK クライアントサイドログ サーバーサイドログ マスタデータ サービス提供 機械学習 モデル構築
  8. BigQuery の導入 Treasure Data (Hive / Presto) レポーティング 分析 Kinesis

    Lambda BigQuery CRM TD SDK クライアントサイドログ サーバーサイドログ マスタデータ サービス提供 機械学習 モデル構築 ・基幹集計は BigQuery で実行 ・行動ログは TD で受けるため一部その中で集計 ・運用維持のために集計結果を BigQuery から TD に連携 ・基幹集計処理の遅延(ワイルドクエリ問題)解消 ・BigQuery に蓄積されている他国データの活用
  9. 研究開発成果のプロダクト実装 Treasure Data (Hive / Presto) レポーティング 分析 Kinesis Lambda

    BigQuery CRM TD SDK クライアントサイドログ サーバーサイドログ マスタデータ サービス提供 機械学習 モデル構築 ・ユーザーに直接価値を返すサービス開発(e.g., 講義動画レコメンド) ・R&D チームの研究開発成果を性能担保した上で本番実装 ・プロダクトサイドのマイクロサービス化の動きと連携 ・アドホック分析から定常的な学習・モデル構築へ
  10. きめ細やかなユーザー伴走の実現 Treasure Data (Hive / Presto) レポーティング 分析 Kinesis Lambda

    BigQuery CRM TD SDK クライアントサイドログ サーバーサイドログ マスタデータ サービス提供 機械学習 モデル構築 MA ツールとの連携を通して、ユーザー属性や学習状況に応じたきめ細や かなコミュニケーションが可能に