Upgrade to Pro — share decks privately, control downloads, hide ads and more …

スタディサプリのデータ基盤の進歩と調和 / meetup_toita

スタディサプリのデータ基盤の進歩と調和 / meetup_toita

2022/01/27_スタディサプリのデータ基盤を支える技術 2022 -RECRUIT TECH MEET UP #3-での、戸井田の講演資料になります

Recruit
PRO

January 27, 2022
Tweet

More Decks by Recruit

Other Decks in Technology

Transcript

  1. #Rtech
    スタディサプリのデータ基盤の進歩と調和
    戸井田 明俊
    スタディサプリのデータ基盤を支える技術 2022 ーRECRUIT TECH MEET UP #3ー

    View Slide

  2. #Rtech
    戸井田明俊
    2017年11月に(株)リクルートに入
    社。データエンジニアマネージャーと
    して、データ基盤・データプロダクトの
    開発に従事。
    前職は、オンラインゲーム会社で広
    告配信システム・データ分析基盤の
    開発に従事。
    2児の父。

    View Slide

  3. #Rtech
    Agenda | 01
    02
    03
    04
    リクルートとスタディサプリの紹介
    スタディサプリでのデータ利活用状況
    データ基盤移管プロジェクト
    まとめ

    View Slide

  4. #Rtech
    リクルートとスタディサプリの紹介
    01

    View Slide

  5. #Rtech 5
    ミッション「まだ、ここにない、出会い。」を「より早く、シンプルに、もっと近くに。」実現
    人材領域と販促領域で、事業者と個人のマッチング支援、事業者の業務・経営支援などを行っている
    販促領域
    (主に国内)
    リクルートグループの事業領域は「人材」と「販促」
    人材領域
    (国内外)

    View Slide

  6. #Rtech
    人材領域の主な事業とビジネスモデル
    採用ソリューション事業
    求人広告事業
    (求人情報・口コミサイト)
    人材紹介(斡旋)事業 人材派遣事業
    サービス
    ブランド

    事業会社
    事業概要
    企業の採用業務支援事業
    ・オンライン面接プラットフォーム
    ・人材アセスメントツール
    ・求職者に対するブランディング
     のコンサルティングなど
    求人広告や口コミサイトなどのメディア事業
    ・正社員領域:リクナビNEXT、はたらいく
    ・アルバイト・パート領域:
     タウンワーク、フロムエーナビ
    ・新卒領域:リクナビ
    ※Indeed、Glassdoorは領域横断
    エージェントが仲介し、求職者と企業
    をマッチングする事業(エージェントが
    求職者を企業に紹介)
    ・国内はリクルートエージェント中心に展開
    ・海外は中国、インド、東南アジアを中心に
    展開
    登録しているスタッフを派遣会社(リク
    ルート)で雇用し、企業に派遣する事業
    1970年から事業展開し、2007年にスタッフ
    サービスを買収。国内での派遣ビジネスのノ
    ウハウを生かしビジネス拡大するため、2010
    年ごろより海外の派遣会社のM&Aを積極的に
    実施。
    ビジネス
    モデル
    ●コンサルティング費用:求人企業に
    対してのコンサルティングサービス
    を提供。
    ●サービス利用料(月額課金)
    ※その他Indeed採用ソリューションサービ
    ス:人材アセスメントツール、面接プラッ
    トフォームツールなどは現在無料で提供。
    ●広告費(掲載費):広告枠を出稿いただく
    ●広告費(クリック課金:indeed、
    Glassdoor):求人情報がクリックされた場
    合にのみ費用が発生。クリック単価は入札
    で決定。
    紹介手数料(成果報酬):人材の入社時
    に、成功報酬として企業から手数料を
    いただく。手数料は入社者の年収に対
    して一定の割合が支払われる。
    ※候補者の転職決定時ではなく入社時に、
    売上が計上される。
    手数料:派遣先企業からリクルートに対
    し、派遣スタッフの給与と、リクルート
    への手数料が支払われる。
    ※注意:決算における「売上収益」において
    はスタッフの給与も売り上げに含まれるた
    め、規模が大きく見える。

    View Slide

  7. #Rtech
    事業
    メディア事業 ソリューション事業
    (SaaS型業務・経営支援サービス)
    その他
    広告収入 手数料収入
    ブランド
    Air ビジネスツールズ
    (Airレジ、Airペイ等)
    事業
    概要
    事業者とユーザーのマッチングプラットフォーム
    住宅、美容、結婚、旅行、飲食などの分野において、オンラインや雑
    誌を中心としたプラットフォームを運営。これにより、個人ユーザー
    に対して、日常生活におけるより多くの選択肢を提供するとともに、
    企業クライアントに対しては、広告を通じたユーザー獲得支援などを
    行っている。
    事業者の業務負荷を低減するSaaS型業務・経営支援サービス
    予約・受付管理、会計、決済からシフト管理まで、事業者の業務
    にかかる、手間、時間、コスト軽減に寄与するサービスを提供。
    自社開発学習コンテンツ提供
    CtoCマッチングプラット
    フォーム提供 等
    ビジネス
    モデル
    広告費:
    顧客である企業が支払うメディアへの広告
    掲載費。集客のための手法として広告費を
    いただく
    手数料:
    旅行者が、実際に宿泊
    した際に、システム利
    用料(手数料)として
    顧客である企業より手
    数料をいただく
    サービスによって異なる:
    ・Airレジ:0円
    ・Airペイ:決済手数料
    ・Airウェイト:0円~
    ・Airシフト:人数×100円
    ・レストランボード:基本機能は無料*。拡充機能には月額利用料
    が発生
    ・サロンボード:ホットペッパービューティーへの広告掲載と
    セット
    サブスクリプション:
    ・ユーザーより、サービス使
    用料をいただく
    販促領域の主な事業とビジネスモデル

    View Slide

  8. #Rtech
    スタディサプリについて
    累計有料会員194万人(2020年度)のオンライン学習サービス

    View Slide

  9. #Rtech
    スタディサプリの学習サービス 一覧
    小・中学校 高校 大学・社会人
    オンラインビデオ
    (B to C)
    オンラインビデオ
    &
    アセスメント
    (B to B to C)
    オンラインコーチング
    and more…

    View Slide

  10. #Rtech
    スタディサプリでのデータ利活用状況
    02

    View Slide

  11. #Rtech
    データ組織の簡単な歴史
    2016 2017 2018 2019 2020
    ・スタディサプリ、リ
    リース
    ・データ基盤構築
    (Treasure Data)
    ・BI導入(DOMO) ・Marketo導入
    ・Karte導入
    ・BI移行(Looker)
    ・レコメンド機能開発
    ・サーチ機能開発
    ・Salesforce連携
    ・データ基盤移管
    (BigQuery)
    ・営業読み予測開発
    ・Vertex AI導入
    ・メタ情報管理の強化
    ・顧客スコアリングの
    開発
    2021
    データ基盤
    立ち上げ
    モニタリング&
    分析の整備
    SaaS連携
    強化
    データプロダク
    ト開発
    データ基盤
    移管
    データマネジメ
    ント強化

    View Slide

  12. #Rtech
    データソリューション G ※
    データ利活用を支える組織体制
    データプラットフォーム G
    小中高
    ENGLISH
    スクール
    グローバ

    進学情報
    データマネジメント G
    データエンジニアリング G
    データ組織の構成
    発表者は
    ココ
    事業伴走組織
    ● 分析&レポーティングを行うデータアナ
    リスト・サイエンティストが所属
    ● 事業ドメインごとに4Gある
    機能横断組織
    ● データ基盤&機能開発を行うエンジニア
    ・データマネージャーが所属
    ● レイヤごとに3Gある
    ● 発表者3名は、データプラットフォーム G
    (メンバ8名)に所属
    ※ G=グループの略

    View Slide

  13. #Rtech
    BigQuery (BQ) データの利用状況
    BQのテーブル数
    6000
    個以上
    BQのクエリ数 / 日
    5000
    個以上
    BQ利用アカウント数
    80
    個以上
    BQストレージサイズ
    300
    TB以上
    BQデータセット数
    200
    個以上

    View Slide

  14. #Rtech
    主なデータの種類
    データの種別 詳細
    マスターデータ
    ● マイクロサービス単位で DBのスナップショットを取得
    ● 属性情報、契約・課金情報、コンテンツ情報 ...
    クライアントデータ ● ページ遷移などのログをクライアントデバイスから取得
    サーバーサイドデータ ● 学習データなどのログをサーバーサイドから取得
    SaaSデータ
    ● マーケ、CSなどのデータを外部から取得
    ● Salesforce, Karte, Marketo, Twilio, Optimizely, Appsflyer, SBPS…

    View Slide

  15. #Rtech
    これらのデータを利活用し
    様々な価値提供をしています

    View Slide

  16. #Rtech
    データのモニタリング・分析
    ➔ Looker / Tableauによるモニタリング
    ◆ 事業KPI、リソース状況などを可視化し、事業の意思決定を行う
    ➔ データ異常値の Slack 通知
    ➔ データ分析による事業伴走
    ◆ 営業支援・効果予測
    ◆ コーチ業務支援
    ◆ etc
    活用シーン①
    スタディサプリにおけるLooker活用事例 (Join : the Tour Tokyo 2019) 資料より
    https://speakerdeck.com/beniyama/data-governance-and-organizational-innovation

    View Slide

  17. #Rtech
    データプロダクトの開発・運用
    ➔ 講義動画検索
    ◆ Cloud Speech-to-textで発話データを
    文字起こし、検索インデックス化
    ➔ 学習レコメンデーション
    ◆ 学習履歴からVertex Trainingを活用し
    講義動画を推薦
    And more…
    活用シーン②
    Google Cloud Day: Digital ’21 資料より
    https://services.google.com/fh/files/events/d2-ml-02.pdf

    View Slide

  18. #Rtech
    CRM / Customer Success でのデータ活用
    ➔ Marketo / Salesforce / Karte などの外部 SaaSとの連携
    ◆ 配信セグメントやMLを用いた顧客スコアを作成し、顧客との最適なコ
    ミュニケーション・訴求に活用
    ◆ SaaS でのアクションログ(配信ログ、開封ログなど)をDWHに取り込み
    効果測定
    活用シーン③

    View Slide

  19. #Rtech
    データ基盤移管プロジェクト
    03

    View Slide

  20. #Rtech
    データ基盤の3つの課題
    集計リソースの
    枯渇
    技術的負債の
    蓄積
    MLシステムとの
    分断
    ➔ 2016年のデータ基盤の誕生から、利用ドメインとステークホルダーの増加に
    伴いデータや機能を追加するなか、歪みが生じていた
    ① ② ③

    View Slide

  21. #Rtech
    これらの課題を解消する
    新基盤の登場が期待されていた

    View Slide

  22. #Rtech
    新世代学習データ分析基盤 Platon / Organon 誕生
    ➔ Platon(小中学校・高校向けのデータ基盤)の由来
    ◆ 紀元前387年、プラトンが「アカデメイア」という土地に学園を開設し、そ
    れが「アカデミー」の語源となった。(かつ、響きがPlatformっぽい)
    ➔ Organon(English向けのデータ基盤)の由来
    ◆ Platon を Fork したものなので、弟子のアリストテレスが案として上がっ
    たが、師弟関係を連想させるのでボツ。アリストテレスの論理の集大成
    オルガノン から命名。
    まずは名前から。移行先のデータ基盤の名は?

    View Slide

  23. #Rtech
    技術選定・実装方針のポイント
    ➔ 学習コスト最小化 & 多能工化のための技術スタックの統一
    ➔ 権限管理やレガシー化防止を考慮し、GCPのマネージドサービスを積極採

    ➔ MLOps 基盤や他データ基盤への連携の親和性や拡張性
    ➔ 枯れた技術を使う(リクルート内外での先行事例の有無)
    ➔ 将来的な移植性を考慮して、技術選定&実装を行う
    新データ基盤に求められる要件 ①

    View Slide

  24. #Rtech
    チームとしての運用方針のポイント
    ➔ SLAを定め、週次で振り返る
    ➔ 障害時は、作業ログを残す
    ➔ 属人化しそうな対応は、ペアプロしながら進める
    ➔ MVP的なインフラコード化 & CI/CDの整備
    ➔ データ整合性のチェック機構の強化
    新データ基盤に求められる要件 ②

    View Slide

  25. #Rtech
    GCPの知見が少なかったため検証期間を長くとった
    移管スケジュール
    2019年1月 2021年3月
    2020年1月
    旧データ基盤撤退
    プロジェクト開始 β版 利用開始
    技術検証・共通部分の開発
    Platon の開発
    Organon の開発

    View Slide

  26. #Rtech
    Platon / Organonの構成
    Kinesis + lambda + (S3)
    Serverside Log
    firebase Analytics
    Client Log (Web / App)
    Cloud Storage BigQuery
    AWS
    GCP
    PostgreSQL / mongoDB / MySQL CRM
    SecureDB

    View Slide

  27. #Rtech
    Platon / Organon によって得られた成果
    ➔ 集計処理の高速化
    ◆ 従来のデータ基盤より日次処理が最大4時間短縮
    ◆ アドホックなクエリの渋滞の解消
    ➔ 技術的負債の解消と運用コストの削減
    ◆ ミドルウェアのバージョンアップの負担減
    ◆ インフラのコード化
    ◆ GitOps的にSQL & メタ情報管理
    ➔ [WIP] MLOps 基盤とのシームレスな連携

    View Slide

  28. #Rtech
    Platon / Organon 化の振り返り(Keep)
    ➔ 旧基盤からの移行を(大きな)事故なく行えた
    ➔ プロジェクト開始当初、GCPの知見が組織になかったため、MVP的なシステ
    ムを一旦完成させ、足りない部分を段階的に拡張していき、ムダなものを作
    らずに済んだ(YAGNI的な精神)
    ➔ プロジェクトを通じ、メンバー & 組織が成長できた

    View Slide

  29. #Rtech
    Platon / Organon 化の振り返り(Problem)
    ➔ ドメイン間の共通部分の設計が甘かった(横断データ、UDF、ライブラリ etc)
    ➔ データの欠損や不整合を起こさないため、新旧基盤の二重運用の期間が長
    くなり運用コストが大きくなってしまった
    ➔ 移行期間中、データ基盤利用者視点で、データの整合性や網羅性が把握し
    にくかった

    View Slide

  30. #Rtech
    まとめ
    04

    View Slide

  31. #Rtech
    まとめ
    ➔ スタディサプリでは、データドリブンに事業をエンハンスしている
    ➔ データのドメイン&ステークホルダーの拡大により、旧データ基盤は技術的
    な課題に直面していた
    ➔ 新データ基盤である Platon / Organonにより、技術的な課題が解決され、
    メンバー&組織が成長した

    View Slide

  32. #Rtech
    プロジェクトでの苦労や工夫は次の2つの発表で紹介!

    View Slide

  33. #Rtech
    WE’RE HIRING
    DATA
    ENGINEER
    ML
    ENGINEER
    DATA
    SCIENTIST

    View Slide

  34. #Rtech
    ご清聴ありがとうございました

    View Slide