Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
スタディサプリのデータ基盤の進歩と調和 / meetup_toita
Search
Recruit
PRO
January 27, 2022
Technology
5
5.3k
スタディサプリのデータ基盤の進歩と調和 / meetup_toita
2022/01/27_スタディサプリのデータ基盤を支える技術 2022 -RECRUIT TECH MEET UP #3-での、戸井田の講演資料になります
Recruit
PRO
January 27, 2022
Tweet
Share
More Decks by Recruit
See All by Recruit
Azure Functions HTTPトリガーにおけるタイムアウトでハマったこと
recruitengineers
PRO
2
160
実務につなげる数理最適化
recruitengineers
PRO
6
690
うちにも入れたいDatadog
recruitengineers
PRO
2
380
リクルートのデータ基盤 Crois 年3倍成長!1日40,000コンテナの実行を支える AWS 活用とプラットフォームエンジニアリング
recruitengineers
PRO
2
330
Splunk Enterpriseで S3のデータを直接検索してみた!
recruitengineers
PRO
2
150
Looker APIを使い倒す ユーザーフィードバックを基にした継続的改善サイクル
recruitengineers
PRO
3
57
Kaggleふりかえり会〜LLM 20 Questions & ISIC 2024
recruitengineers
PRO
2
240
Balancing Revenue Goals and Off-Policy Evaluation Performance in Coupon Allocation
recruitengineers
PRO
2
51
Flutterによる 効率的なAndroid・iOS・Webアプリケーション開発の事例
recruitengineers
PRO
0
390
Other Decks in Technology
See All in Technology
サイバー攻撃を想定したセキュリティガイドライン 策定とASM及びCNAPPの活用方法
syoshie
3
1.3k
Storage Browser for Amazon S3
miu_crescent
1
140
How to be an AWS Community Builder | 君もAWS Community Builderになろう!〜2024 冬 CB募集直前対策編?!〜
coosuke
PRO
2
2.8k
Snowflake女子会#3 Snowpipeの良さを5分で語るよ
lana2548
0
230
LINEスキマニにおけるフロントエンド開発
lycorptech_jp
PRO
0
330
AI時代のデータセンターネットワーク
lycorptech_jp
PRO
1
280
Qiita埋め込み用スライド
naoki_0531
0
4.8k
5分でわかるDuckDB
chanyou0311
10
3.2k
あの日俺達が夢見たサーバレスアーキテクチャ/the-serverless-architecture-we-dreamed-of
tomoki10
0
450
小学3年生夏休みの自由研究「夏休みに Copilot で遊んでみた」
taichinakamura
0
150
TSKaigi 2024 の登壇から広がったコミュニティ活動について
tsukuha
0
160
Oracle Cloud Infrastructure:2024年12月度サービス・アップデート
oracle4engineer
PRO
0
180
Featured
See All Featured
Facilitating Awesome Meetings
lara
50
6.1k
Automating Front-end Workflow
addyosmani
1366
200k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
What's in a price? How to price your products and services
michaelherold
243
12k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Designing for humans not robots
tammielis
250
25k
Unsuck your backbone
ammeep
669
57k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.2k
Transcript
#Rtech スタディサプリのデータ基盤の進歩と調和 戸井田 明俊 スタディサプリのデータ基盤を支える技術 2022 ーRECRUIT TECH MEET UP
#3ー
#Rtech 戸井田明俊 2017年11月に(株)リクルートに入 社。データエンジニアマネージャーと して、データ基盤・データプロダクトの 開発に従事。 前職は、オンラインゲーム会社で広 告配信システム・データ分析基盤の 開発に従事。 2児の父。
#Rtech Agenda | 01 02 03 04 リクルートとスタディサプリの紹介 スタディサプリでのデータ利活用状況 データ基盤移管プロジェクト
まとめ
#Rtech リクルートとスタディサプリの紹介 01
#Rtech 5 ミッション「まだ、ここにない、出会い。」を「より早く、シンプルに、もっと近くに。」実現 人材領域と販促領域で、事業者と個人のマッチング支援、事業者の業務・経営支援などを行っている 販促領域 (主に国内) リクルートグループの事業領域は「人材」と「販促」 人材領域 (国内外)
#Rtech 人材領域の主な事業とビジネスモデル 採用ソリューション事業 求人広告事業 (求人情報・口コミサイト) 人材紹介(斡旋)事業 人材派遣事業 サービス ブランド ・
事業会社 事業概要 企業の採用業務支援事業 ・オンライン面接プラットフォーム ・人材アセスメントツール ・求職者に対するブランディング のコンサルティングなど 求人広告や口コミサイトなどのメディア事業 ・正社員領域:リクナビNEXT、はたらいく ・アルバイト・パート領域: タウンワーク、フロムエーナビ ・新卒領域:リクナビ ※Indeed、Glassdoorは領域横断 エージェントが仲介し、求職者と企業 をマッチングする事業(エージェントが 求職者を企業に紹介) ・国内はリクルートエージェント中心に展開 ・海外は中国、インド、東南アジアを中心に 展開 登録しているスタッフを派遣会社(リク ルート)で雇用し、企業に派遣する事業 1970年から事業展開し、2007年にスタッフ サービスを買収。国内での派遣ビジネスのノ ウハウを生かしビジネス拡大するため、2010 年ごろより海外の派遣会社のM&Aを積極的に 実施。 ビジネス モデル •コンサルティング費用:求人企業に 対してのコンサルティングサービス を提供。 •サービス利用料(月額課金) ※その他Indeed採用ソリューションサービ ス:人材アセスメントツール、面接プラッ トフォームツールなどは現在無料で提供。 •広告費(掲載費):広告枠を出稿いただく •広告費(クリック課金:indeed、 Glassdoor):求人情報がクリックされた場 合にのみ費用が発生。クリック単価は入札 で決定。 紹介手数料(成果報酬):人材の入社時 に、成功報酬として企業から手数料を いただく。手数料は入社者の年収に対 して一定の割合が支払われる。 ※候補者の転職決定時ではなく入社時に、 売上が計上される。 手数料:派遣先企業からリクルートに対 し、派遣スタッフの給与と、リクルート への手数料が支払われる。 ※注意:決算における「売上収益」において はスタッフの給与も売り上げに含まれるた め、規模が大きく見える。
#Rtech 事業 メディア事業 ソリューション事業 (SaaS型業務・経営支援サービス) その他 広告収入 手数料収入 ブランド Air
ビジネスツールズ (Airレジ、Airペイ等) 事業 概要 事業者とユーザーのマッチングプラットフォーム 住宅、美容、結婚、旅行、飲食などの分野において、オンラインや雑 誌を中心としたプラットフォームを運営。これにより、個人ユーザー に対して、日常生活におけるより多くの選択肢を提供するとともに、 企業クライアントに対しては、広告を通じたユーザー獲得支援などを 行っている。 事業者の業務負荷を低減するSaaS型業務・経営支援サービス 予約・受付管理、会計、決済からシフト管理まで、事業者の業務 にかかる、手間、時間、コスト軽減に寄与するサービスを提供。 自社開発学習コンテンツ提供 CtoCマッチングプラット フォーム提供 等 ビジネス モデル 広告費: 顧客である企業が支払うメディアへの広告 掲載費。集客のための手法として広告費を いただく 手数料: 旅行者が、実際に宿泊 した際に、システム利 用料(手数料)として 顧客である企業より手 数料をいただく サービスによって異なる: ・Airレジ:0円 ・Airペイ:決済手数料 ・Airウェイト:0円~ ・Airシフト:人数×100円 ・レストランボード:基本機能は無料*。拡充機能には月額利用料 が発生 ・サロンボード:ホットペッパービューティーへの広告掲載と セット サブスクリプション: ・ユーザーより、サービス使 用料をいただく 販促領域の主な事業とビジネスモデル
#Rtech スタディサプリについて 累計有料会員194万人(2020年度)のオンライン学習サービス
#Rtech スタディサプリの学習サービス 一覧 小・中学校 高校 大学・社会人 オンラインビデオ (B to C)
オンラインビデオ & アセスメント (B to B to C) オンラインコーチング and more…
#Rtech スタディサプリでのデータ利活用状況 02
#Rtech データ組織の簡単な歴史 2016 2017 2018 2019 2020 ・スタディサプリ、リ リース ・データ基盤構築
(Treasure Data) ・BI導入(DOMO) ・Marketo導入 ・Karte導入 ・BI移行(Looker) ・レコメンド機能開発 ・サーチ機能開発 ・Salesforce連携 ・データ基盤移管 (BigQuery) ・営業読み予測開発 ・Vertex AI導入 ・メタ情報管理の強化 ・顧客スコアリングの 開発 2021 データ基盤 立ち上げ モニタリング& 分析の整備 SaaS連携 強化 データプロダク ト開発 データ基盤 移管 データマネジメ ント強化
#Rtech データソリューション G ※ データ利活用を支える組織体制 データプラットフォーム G 小中高 ENGLISH スクール
グローバ ル 進学情報 データマネジメント G データエンジニアリング G データ組織の構成 発表者は ココ 事業伴走組織 • 分析&レポーティングを行うデータアナ リスト・サイエンティストが所属 • 事業ドメインごとに4Gある 機能横断組織 • データ基盤&機能開発を行うエンジニア ・データマネージャーが所属 • レイヤごとに3Gある • 発表者3名は、データプラットフォーム G (メンバ8名)に所属 ※ G=グループの略
#Rtech BigQuery (BQ) データの利用状況 BQのテーブル数 6000 個以上 BQのクエリ数 / 日
5000 個以上 BQ利用アカウント数 80 個以上 BQストレージサイズ 300 TB以上 BQデータセット数 200 個以上
#Rtech 主なデータの種類 データの種別 詳細 マスターデータ • マイクロサービス単位で DBのスナップショットを取得 • 属性情報、契約・課金情報、コンテンツ情報
... クライアントデータ • ページ遷移などのログをクライアントデバイスから取得 サーバーサイドデータ • 学習データなどのログをサーバーサイドから取得 SaaSデータ • マーケ、CSなどのデータを外部から取得 • Salesforce, Karte, Marketo, Twilio, Optimizely, Appsflyer, SBPS…
#Rtech これらのデータを利活用し 様々な価値提供をしています
#Rtech データのモニタリング・分析 ➔ Looker / Tableauによるモニタリング ◆ 事業KPI、リソース状況などを可視化し、事業の意思決定を行う ➔ データ異常値の
Slack 通知 ➔ データ分析による事業伴走 ◆ 営業支援・効果予測 ◆ コーチ業務支援 ◆ etc 活用シーン① スタディサプリにおけるLooker活用事例 (Join : the Tour Tokyo 2019) 資料より https://speakerdeck.com/beniyama/data-governance-and-organizational-innovation
#Rtech データプロダクトの開発・運用 ➔ 講義動画検索 ◆ Cloud Speech-to-textで発話データを 文字起こし、検索インデックス化 ➔ 学習レコメンデーション
◆ 学習履歴からVertex Trainingを活用し 講義動画を推薦 And more… 活用シーン② Google Cloud Day: Digital ’21 資料より https://services.google.com/fh/files/events/d2-ml-02.pdf
#Rtech CRM / Customer Success でのデータ活用 ➔ Marketo / Salesforce
/ Karte などの外部 SaaSとの連携 ◆ 配信セグメントやMLを用いた顧客スコアを作成し、顧客との最適なコ ミュニケーション・訴求に活用 ◆ SaaS でのアクションログ(配信ログ、開封ログなど)をDWHに取り込み 効果測定 活用シーン③
#Rtech データ基盤移管プロジェクト 03
#Rtech データ基盤の3つの課題 集計リソースの 枯渇 技術的負債の 蓄積 MLシステムとの 分断 ➔ 2016年のデータ基盤の誕生から、利用ドメインとステークホルダーの増加に
伴いデータや機能を追加するなか、歪みが生じていた ① ② ③
#Rtech これらの課題を解消する 新基盤の登場が期待されていた
#Rtech 新世代学習データ分析基盤 Platon / Organon 誕生 ➔ Platon(小中学校・高校向けのデータ基盤)の由来 ◆ 紀元前387年、プラトンが「アカデメイア」という土地に学園を開設し、そ
れが「アカデミー」の語源となった。(かつ、響きがPlatformっぽい) ➔ Organon(English向けのデータ基盤)の由来 ◆ Platon を Fork したものなので、弟子のアリストテレスが案として上がっ たが、師弟関係を連想させるのでボツ。アリストテレスの論理の集大成 オルガノン から命名。 まずは名前から。移行先のデータ基盤の名は?
#Rtech 技術選定・実装方針のポイント ➔ 学習コスト最小化 & 多能工化のための技術スタックの統一 ➔ 権限管理やレガシー化防止を考慮し、GCPのマネージドサービスを積極採 用 ➔
MLOps 基盤や他データ基盤への連携の親和性や拡張性 ➔ 枯れた技術を使う(リクルート内外での先行事例の有無) ➔ 将来的な移植性を考慮して、技術選定&実装を行う 新データ基盤に求められる要件 ①
#Rtech チームとしての運用方針のポイント ➔ SLAを定め、週次で振り返る ➔ 障害時は、作業ログを残す ➔ 属人化しそうな対応は、ペアプロしながら進める ➔ MVP的なインフラコード化
& CI/CDの整備 ➔ データ整合性のチェック機構の強化 新データ基盤に求められる要件 ②
#Rtech GCPの知見が少なかったため検証期間を長くとった 移管スケジュール 2019年1月 2021年3月 2020年1月 旧データ基盤撤退 プロジェクト開始 β版 利用開始
技術検証・共通部分の開発 Platon の開発 Organon の開発
#Rtech Platon / Organonの構成 Kinesis + lambda + (S3) Serverside
Log firebase Analytics Client Log (Web / App) Cloud Storage BigQuery AWS GCP PostgreSQL / mongoDB / MySQL CRM SecureDB
#Rtech Platon / Organon によって得られた成果 ➔ 集計処理の高速化 ◆ 従来のデータ基盤より日次処理が最大4時間短縮 ◆
アドホックなクエリの渋滞の解消 ➔ 技術的負債の解消と運用コストの削減 ◆ ミドルウェアのバージョンアップの負担減 ◆ インフラのコード化 ◆ GitOps的にSQL & メタ情報管理 ➔ [WIP] MLOps 基盤とのシームレスな連携
#Rtech Platon / Organon 化の振り返り(Keep) ➔ 旧基盤からの移行を(大きな)事故なく行えた ➔ プロジェクト開始当初、GCPの知見が組織になかったため、MVP的なシステ ムを一旦完成させ、足りない部分を段階的に拡張していき、ムダなものを作
らずに済んだ(YAGNI的な精神) ➔ プロジェクトを通じ、メンバー & 組織が成長できた
#Rtech Platon / Organon 化の振り返り(Problem) ➔ ドメイン間の共通部分の設計が甘かった(横断データ、UDF、ライブラリ etc) ➔ データの欠損や不整合を起こさないため、新旧基盤の二重運用の期間が長
くなり運用コストが大きくなってしまった ➔ 移行期間中、データ基盤利用者視点で、データの整合性や網羅性が把握し にくかった
#Rtech まとめ 04
#Rtech まとめ ➔ スタディサプリでは、データドリブンに事業をエンハンスしている ➔ データのドメイン&ステークホルダーの拡大により、旧データ基盤は技術的 な課題に直面していた ➔ 新データ基盤である Platon
/ Organonにより、技術的な課題が解決され、 メンバー&組織が成長した
#Rtech プロジェクトでの苦労や工夫は次の2つの発表で紹介!
#Rtech WE’RE HIRING DATA ENGINEER ML ENGINEER DATA SCIENTIST
#Rtech ご清聴ありがとうございました