Upgrade to Pro — share decks privately, control downloads, hide ads and more …

スタディサプリのデータ分析基盤とその活用事例 / StudySapuri Data Infrastructure and Applications

Tetsuo Yamabe
December 16, 2018

スタディサプリのデータ分析基盤とその活用事例 / StudySapuri Data Infrastructure and Applications

SENDAI X-TECH Innovation Project『テクノロジードリブンでビジネスインパクトを生み出す!-最前線でチャレンジをするチームの取組事例を大公開-』( https://techplay.jp/event/708354 ) での講演資料です。

Tetsuo Yamabe

December 16, 2018
Tweet

More Decks by Tetsuo Yamabe

Other Decks in Technology

Transcript

  1. #techplayjp スタディサプリのデータ分析基盤とその活用事例 Agenda | 01 02 03 04 05 自己紹介

    スタディサプリとデータ組織 データ分析基盤と活用事例 3年間の振り返りとこれから まとめ
  2. #techplayjp スタディサプリのデータ分析基盤とその活用事例 有料会員数 : 74 万人(2017 年度 国内外累計) 国内導入高校数 :

    2,353 校 授業動画数 4 万本 / 問題数 2 万本 海外展開 : インドネシア・フィリピン・メキシコ
  3. #techplayjp スタディサプリのデータ分析基盤とその活用事例 ブランド移管 システム統合 2016.02.25 2016 2017 2018 データ分析基盤 開発・運用

    データ抽出・レポーティング データ分析・事業伴走 BI 環境整備・データ活用推進 研究開発 新規機能開発
  4. #techplayjp スタディサプリのデータ分析基盤とその活用事例 企画提案 研究開発 実証実験 性能改善 本番実装 本番運用 効果検証 要因分析

    施策立案 分析 データサイエンティスト エンジニアリング データエンジニア R&D データリサーチエンジニア
  5. Treasure Data (Hive / Presto) Reporting Analytics Kinesis Lambda BigQuery

    CRM TD SDK Client side log Server side log Master data Microservices Machine Learning Data marts API call SoftBank Payment Service データ分析基盤
  6. Treasure Data (Hive / Presto) Reporting Analytics Kinesis Lambda BigQuery

    CRM TD SDK Client side log Server side log Master data Microservices Machine Learning Data marts API call SoftBank Payment Service 参考)スタディサプリを支えるデータ分析基盤 ~設計の 勘所と利活用事例~ @デブサミ 2017 https://www.slideshare.net/beniyama/ss-72260669 Work in progress !
  7. Treasure Data (Hive / Presto) Reporting Analytics Kinesis Lambda BigQuery

    CRM TD SDK Client side log Server side log Master data Microservices Machine Learning Data marts API call SoftBank Payment Service • レコード数:10億超(動画視聴ログ) • テーブル数:450+ • ジョブ数:80+ / day(Presto)、 10+ / day(Hive) • 利用者:プロダクト・マーケ・経営企画などサービス関係者全般
  8. #techplayjp スタディサプリのデータ分析基盤とその活用事例 KEEP : 多くの人の業務に浸透 ➔ データ集約・整備に基づく『守りの活用』から手堅くスタート ◆ イメージのしやすいレポーティング・モニタリング業務から支援 ◆

    分析基盤にしかデータがない = 利用する必然性 ➔ 『攻めの活用』は十分に信頼貯金が貯まってから ◆ 売上や事業 KPI に直結する新規機能(データプロダクト) ◆ 開発コストも不確実性も高い
  9. #techplayjp スタディサプリのデータ分析基盤とその活用事例 KEEP : 少さなデータ組織でも運用可能 ➔ マネージドサービスを組み合わせてミニマムスタート ◆ データエンジニアリング周辺技術のコモディティ化 ◆

    要件に応じたデータ加工や障害時の再集計処理の設計に注力 ➔ 非エンジニアでも使いやすい技術も採用 ◆ SQL によるデータ加工・抽出処理の実装 ◆ Digdag による YAML ベースでのワークフロー定義
  10. #techplayjp スタディサプリのデータ分析基盤とその活用事例 PROBLEM : 民主化の裏でたまり続けるデータ的負債 ➔ データを解放して各部署で仕組み作りができる方が柔軟性は高いが… ◆ 想定外のデータ利用による不正確なレポートが生まれる ◆

    運用担保・継承できない属人化されたシステムが生まれる ➔ データガバナンスを効かせつつ自由度を提供する仕組みの必要性 ◆ データマート作成による管理コストの低減と分析効率の向上 ◆ 属人化・サイロ化を防ぐための大局的なデータフロー設計
  11. #techplayjp スタディサプリのデータ分析基盤とその活用事例 PROBLEM : 利用者の増加によるリソース競合と性能劣化 ➔ 品質・頻度の面で非効率なクエリが増加してしまい… ◆ スロット待ち行列が生まれ業務や障害対応に支障をきたすことも ◆

    原因調査や改修対応に基盤チームのリソースが割かれる ➔ 即時発見や定期クリーニングがしやすい仕組みの必要性 ◆ クエリメトリクス(作者・実行時間・コスト etc)はログに落とす ◆ 内部レポートでも利用状況は必ず可視化できるようにしておく
  12. #techplayjp スタディサプリのデータ分析基盤とその活用事例 TRY : データ分析基盤のリニューアル ➔ PROBLEM の点を中心に技術的負債を解消すべく移管中 ◆ BigQuery

    の導入による性能向上と他国データの統合 ◆ データフローやデータマート、アクセスコントロールを再設計 ◆ 旧基盤は3年動いたし、新しい担い手自身で作るのがきっと大事
  13. #techplayjp スタディサプリのデータ分析基盤とその活用事例 TRY : データプロダクト開発による『攻めの活用』 ➔ 研究開発成果をプロダクトに搭載 ◆ レコメンド:学習ログを活用した個別学習の最適化 ◆

    サーチ:わからないことにピンポイントで応えるための検索機能 ➔ データプロダクト開発のための体制作り ◆ 多様な人材をどうチーミングしていくのか? ◆ 多様な人材をどう評価・キャリアフォローしていくのか?
  14. Treasure Data (Hive / Presto) Reporting Analytics Kinesis Lambda BigQuery

    CRM TD SDK Client side log Server side log Master data Microservices Machine Learning Data marts API call SoftBank Payment Service 参考)スタディサプリを支えるデータ分析基盤 ~設計の 勘所と利活用事例~ @デブサミ 2017 https://www.slideshare.net/beniyama/ss-72260669 Work in progress Work in progress !
  15. #techplayjp スタディサプリのデータ分析基盤とその活用事例 2. サーチ:わからないことをすぐ学べる学習体験の提供 映像 音声 Google Cloud Speech API

    と 手修正による音声認識 シーン情報 テキスト ディープラーニングを活用した 手書き文字認識 テキスト
  16. #techplayjp スタディサプリのデータ分析基盤とその活用事例 TRY : データプロダクト開発による価値創造 ➔ 研究開発成果をプロダクトに搭載 ◆ レコメンド:学習ログを元にした個別学習の最適化 ◆

    サーチ:わからないことにピンポイントで応えるための検索機能 ➔ データプロダクト開発のための体制作り ◆ 多様な人材をどうチーミングしていくのか? ◆ 多様な人材をどう評価・キャリアフォローしていくのか?
  17. #techplayjp スタディサプリのデータ分析基盤とその活用事例 あってよかったデータ組織と分析基盤 ➔ 『守りの活用』でも十分インパクトは大きい ◆ 分析基盤の構築やデータ貯蓄コストはますます下がりつつある ◆ 地道な既存業務改善から信頼貯金を積み上げることも重要 ◆

    『攻めの活用』はまだこれから、他社様の知見ぜひ伺いたい ➔ プロダクト開発に限らず組織の情報設計を請け負う部署は重要 ◆ 人事データ、経理データ、CS データなど可能性は無限大