2022/01/27_スタディサプリのデータ基盤を支える技術 2022 -RECRUIT TECH MEET UP #3-での、戸井田の講演資料になります
#Rtechスタディサプリのデータ基盤の進歩と調和戸井田 明俊スタディサプリのデータ基盤を支える技術 2022 ーRECRUIT TECH MEET UP #3ー
View Slide
#Rtech戸井田明俊2017年11月に(株)リクルートに入社。データエンジニアマネージャーとして、データ基盤・データプロダクトの開発に従事。前職は、オンラインゲーム会社で広告配信システム・データ分析基盤の開発に従事。2児の父。
#RtechAgenda | 01020304リクルートとスタディサプリの紹介スタディサプリでのデータ利活用状況データ基盤移管プロジェクトまとめ
#Rtechリクルートとスタディサプリの紹介01
#Rtech 5ミッション「まだ、ここにない、出会い。」を「より早く、シンプルに、もっと近くに。」実現人材領域と販促領域で、事業者と個人のマッチング支援、事業者の業務・経営支援などを行っている販促領域(主に国内)リクルートグループの事業領域は「人材」と「販促」人材領域(国内外)
#Rtech人材領域の主な事業とビジネスモデル採用ソリューション事業求人広告事業(求人情報・口コミサイト)人材紹介(斡旋)事業 人材派遣事業サービスブランド・事業会社事業概要企業の採用業務支援事業・オンライン面接プラットフォーム・人材アセスメントツール・求職者に対するブランディング のコンサルティングなど求人広告や口コミサイトなどのメディア事業・正社員領域:リクナビNEXT、はたらいく・アルバイト・パート領域: タウンワーク、フロムエーナビ・新卒領域:リクナビ※Indeed、Glassdoorは領域横断エージェントが仲介し、求職者と企業をマッチングする事業(エージェントが求職者を企業に紹介)・国内はリクルートエージェント中心に展開・海外は中国、インド、東南アジアを中心に展開登録しているスタッフを派遣会社(リクルート)で雇用し、企業に派遣する事業1970年から事業展開し、2007年にスタッフサービスを買収。国内での派遣ビジネスのノウハウを生かしビジネス拡大するため、2010年ごろより海外の派遣会社のM&Aを積極的に実施。ビジネスモデル●コンサルティング費用:求人企業に対してのコンサルティングサービスを提供。●サービス利用料(月額課金)※その他Indeed採用ソリューションサービス:人材アセスメントツール、面接プラットフォームツールなどは現在無料で提供。●広告費(掲載費):広告枠を出稿いただく●広告費(クリック課金:indeed、Glassdoor):求人情報がクリックされた場合にのみ費用が発生。クリック単価は入札で決定。紹介手数料(成果報酬):人材の入社時に、成功報酬として企業から手数料をいただく。手数料は入社者の年収に対して一定の割合が支払われる。※候補者の転職決定時ではなく入社時に、売上が計上される。手数料:派遣先企業からリクルートに対し、派遣スタッフの給与と、リクルートへの手数料が支払われる。※注意:決算における「売上収益」においてはスタッフの給与も売り上げに含まれるため、規模が大きく見える。
#Rtech事業メディア事業 ソリューション事業(SaaS型業務・経営支援サービス)その他広告収入 手数料収入ブランドAir ビジネスツールズ(Airレジ、Airペイ等)事業概要事業者とユーザーのマッチングプラットフォーム住宅、美容、結婚、旅行、飲食などの分野において、オンラインや雑誌を中心としたプラットフォームを運営。これにより、個人ユーザーに対して、日常生活におけるより多くの選択肢を提供するとともに、企業クライアントに対しては、広告を通じたユーザー獲得支援などを行っている。事業者の業務負荷を低減するSaaS型業務・経営支援サービス予約・受付管理、会計、決済からシフト管理まで、事業者の業務にかかる、手間、時間、コスト軽減に寄与するサービスを提供。自社開発学習コンテンツ提供CtoCマッチングプラットフォーム提供 等ビジネスモデル広告費:顧客である企業が支払うメディアへの広告掲載費。集客のための手法として広告費をいただく手数料:旅行者が、実際に宿泊した際に、システム利用料(手数料)として顧客である企業より手数料をいただくサービスによって異なる:・Airレジ:0円・Airペイ:決済手数料・Airウェイト:0円~・Airシフト:人数×100円・レストランボード:基本機能は無料*。拡充機能には月額利用料が発生・サロンボード:ホットペッパービューティーへの広告掲載とセットサブスクリプション:・ユーザーより、サービス使用料をいただく販促領域の主な事業とビジネスモデル
#Rtechスタディサプリについて累計有料会員194万人(2020年度)のオンライン学習サービス
#Rtechスタディサプリの学習サービス 一覧小・中学校 高校 大学・社会人オンラインビデオ(B to C)オンラインビデオ&アセスメント(B to B to C)オンラインコーチングand more…
#Rtechスタディサプリでのデータ利活用状況02
#Rtechデータ組織の簡単な歴史2016 2017 2018 2019 2020・スタディサプリ、リリース・データ基盤構築(Treasure Data)・BI導入(DOMO) ・Marketo導入・Karte導入・BI移行(Looker)・レコメンド機能開発・サーチ機能開発・Salesforce連携・データ基盤移管(BigQuery)・営業読み予測開発・Vertex AI導入・メタ情報管理の強化・顧客スコアリングの開発2021データ基盤立ち上げモニタリング&分析の整備SaaS連携強化データプロダクト開発データ基盤移管データマネジメント強化
#Rtechデータソリューション G ※データ利活用を支える組織体制データプラットフォーム G小中高ENGLISHスクールグローバル進学情報データマネジメント Gデータエンジニアリング Gデータ組織の構成発表者はココ事業伴走組織● 分析&レポーティングを行うデータアナリスト・サイエンティストが所属● 事業ドメインごとに4Gある機能横断組織● データ基盤&機能開発を行うエンジニア・データマネージャーが所属● レイヤごとに3Gある● 発表者3名は、データプラットフォーム G(メンバ8名)に所属※ G=グループの略
#RtechBigQuery (BQ) データの利用状況BQのテーブル数6000個以上BQのクエリ数 / 日5000個以上BQ利用アカウント数80個以上BQストレージサイズ300TB以上BQデータセット数200個以上
#Rtech主なデータの種類データの種別 詳細マスターデータ● マイクロサービス単位で DBのスナップショットを取得● 属性情報、契約・課金情報、コンテンツ情報 ...クライアントデータ ● ページ遷移などのログをクライアントデバイスから取得サーバーサイドデータ ● 学習データなどのログをサーバーサイドから取得SaaSデータ● マーケ、CSなどのデータを外部から取得● Salesforce, Karte, Marketo, Twilio, Optimizely, Appsflyer, SBPS…
#Rtechこれらのデータを利活用し様々な価値提供をしています
#Rtechデータのモニタリング・分析➔ Looker / Tableauによるモニタリング◆ 事業KPI、リソース状況などを可視化し、事業の意思決定を行う➔ データ異常値の Slack 通知➔ データ分析による事業伴走◆ 営業支援・効果予測◆ コーチ業務支援◆ etc活用シーン①スタディサプリにおけるLooker活用事例 (Join : the Tour Tokyo 2019) 資料よりhttps://speakerdeck.com/beniyama/data-governance-and-organizational-innovation
#Rtechデータプロダクトの開発・運用➔ 講義動画検索◆ Cloud Speech-to-textで発話データを文字起こし、検索インデックス化➔ 学習レコメンデーション◆ 学習履歴からVertex Trainingを活用し講義動画を推薦And more…活用シーン②Google Cloud Day: Digital ’21 資料よりhttps://services.google.com/fh/files/events/d2-ml-02.pdf
#RtechCRM / Customer Success でのデータ活用➔ Marketo / Salesforce / Karte などの外部 SaaSとの連携◆ 配信セグメントやMLを用いた顧客スコアを作成し、顧客との最適なコミュニケーション・訴求に活用◆ SaaS でのアクションログ(配信ログ、開封ログなど)をDWHに取り込み効果測定活用シーン③
#Rtechデータ基盤移管プロジェクト03
#Rtechデータ基盤の3つの課題集計リソースの枯渇技術的負債の蓄積MLシステムとの分断➔ 2016年のデータ基盤の誕生から、利用ドメインとステークホルダーの増加に伴いデータや機能を追加するなか、歪みが生じていた① ② ③
#Rtechこれらの課題を解消する新基盤の登場が期待されていた
#Rtech新世代学習データ分析基盤 Platon / Organon 誕生➔ Platon(小中学校・高校向けのデータ基盤)の由来◆ 紀元前387年、プラトンが「アカデメイア」という土地に学園を開設し、それが「アカデミー」の語源となった。(かつ、響きがPlatformっぽい)➔ Organon(English向けのデータ基盤)の由来◆ Platon を Fork したものなので、弟子のアリストテレスが案として上がったが、師弟関係を連想させるのでボツ。アリストテレスの論理の集大成オルガノン から命名。まずは名前から。移行先のデータ基盤の名は?
#Rtech技術選定・実装方針のポイント➔ 学習コスト最小化 & 多能工化のための技術スタックの統一➔ 権限管理やレガシー化防止を考慮し、GCPのマネージドサービスを積極採用➔ MLOps 基盤や他データ基盤への連携の親和性や拡張性➔ 枯れた技術を使う(リクルート内外での先行事例の有無)➔ 将来的な移植性を考慮して、技術選定&実装を行う新データ基盤に求められる要件 ①
#Rtechチームとしての運用方針のポイント➔ SLAを定め、週次で振り返る➔ 障害時は、作業ログを残す➔ 属人化しそうな対応は、ペアプロしながら進める➔ MVP的なインフラコード化 & CI/CDの整備➔ データ整合性のチェック機構の強化新データ基盤に求められる要件 ②
#RtechGCPの知見が少なかったため検証期間を長くとった移管スケジュール2019年1月 2021年3月2020年1月旧データ基盤撤退プロジェクト開始 β版 利用開始技術検証・共通部分の開発Platon の開発Organon の開発
#RtechPlaton / Organonの構成Kinesis + lambda + (S3)Serverside Logfirebase AnalyticsClient Log (Web / App)Cloud Storage BigQueryAWSGCPPostgreSQL / mongoDB / MySQL CRMSecureDB
#RtechPlaton / Organon によって得られた成果➔ 集計処理の高速化◆ 従来のデータ基盤より日次処理が最大4時間短縮◆ アドホックなクエリの渋滞の解消➔ 技術的負債の解消と運用コストの削減◆ ミドルウェアのバージョンアップの負担減◆ インフラのコード化◆ GitOps的にSQL & メタ情報管理➔ [WIP] MLOps 基盤とのシームレスな連携
#RtechPlaton / Organon 化の振り返り(Keep)➔ 旧基盤からの移行を(大きな)事故なく行えた➔ プロジェクト開始当初、GCPの知見が組織になかったため、MVP的なシステムを一旦完成させ、足りない部分を段階的に拡張していき、ムダなものを作らずに済んだ(YAGNI的な精神)➔ プロジェクトを通じ、メンバー & 組織が成長できた
#RtechPlaton / Organon 化の振り返り(Problem)➔ ドメイン間の共通部分の設計が甘かった(横断データ、UDF、ライブラリ etc)➔ データの欠損や不整合を起こさないため、新旧基盤の二重運用の期間が長くなり運用コストが大きくなってしまった➔ 移行期間中、データ基盤利用者視点で、データの整合性や網羅性が把握しにくかった
#Rtechまとめ04
#Rtechまとめ➔ スタディサプリでは、データドリブンに事業をエンハンスしている➔ データのドメイン&ステークホルダーの拡大により、旧データ基盤は技術的な課題に直面していた➔ 新データ基盤である Platon / Organonにより、技術的な課題が解決され、メンバー&組織が成長した
#Rtechプロジェクトでの苦労や工夫は次の2つの発表で紹介!
#RtechWE’RE HIRINGDATAENGINEERMLENGINEERDATASCIENTIST
#Rtechご清聴ありがとうございました