Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
スタディサプリのデータ基盤の進歩と調和 / meetup_toita
Search
Recruit
PRO
January 27, 2022
Technology
5
5.8k
スタディサプリのデータ基盤の進歩と調和 / meetup_toita
2022/01/27_スタディサプリのデータ基盤を支える技術 2022 -RECRUIT TECH MEET UP #3-での、戸井田の講演資料になります
Recruit
PRO
January 27, 2022
Tweet
Share
More Decks by Recruit
See All by Recruit
Browser
recruitengineers
PRO
9
2.9k
JavaScript 研修
recruitengineers
PRO
8
1.7k
TypeScript入門
recruitengineers
PRO
36
12k
モダンフロントエンド 開発研修
recruitengineers
PRO
12
6.9k
Webアクセシビリティ入門
recruitengineers
PRO
4
1.8k
攻撃と防御で実践するプロダクトセキュリティ演習~導入パート~
recruitengineers
PRO
4
2.2k
モバイルアプリ研修
recruitengineers
PRO
6
1.9k
事業価値と Engineering
recruitengineers
PRO
10
6.2k
制約理論(ToC)入門
recruitengineers
PRO
10
4.3k
Other Decks in Technology
See All in Technology
職種の壁を溶かして開発サイクルを高速に回す~情報透明性と職種越境から考えるAIフレンドリーな職種間連携~
daitasu
0
190
AI時代を生き抜くエンジニアキャリアの築き方 (AI-Native 時代、エンジニアという道は 「最大の挑戦の場」となる) / Building an Engineering Career to Thrive in the Age of AI (In the AI-Native Era, the Path of Engineering Becomes the Ultimate Arena of Challenge)
jeongjaesoon
0
260
Snowflake×dbtを用いたテレシーのデータ基盤のこれまでとこれから
sagara
0
120
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
10
75k
20250910_障害注入から効率的復旧へ_カオスエンジニアリング_生成AIで考えるAWS障害対応.pdf
sh_fk2
3
280
KotlinConf 2025_イベントレポート
sony
1
140
エンジニアが主導できる組織づくり ー 製品と事業を進化させる体制へのシフト
ueokande
1
110
メルカリIBISの紹介
0gm
0
370
今日から始めるAWSセキュリティ対策 3ステップでわかる実践ガイド
yoshidatakeshi1994
0
120
下手な強制、ダメ!絶対! 「ガードレール」を「檻」にさせない"ガバナンス"の取り方とは?
tsukaman
2
460
Platform開発が先行する Platform Engineeringの違和感
kintotechdev
4
590
TS-S205_昨年対比2倍以上の機能追加を実現するデータ基盤プロジェクトでのAI活用について
kaz3284
1
230
Featured
See All Featured
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Building Adaptive Systems
keathley
43
2.7k
It's Worth the Effort
3n
187
28k
Visualization
eitanlees
148
16k
Become a Pro
speakerdeck
PRO
29
5.5k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
Speed Design
sergeychernyshev
32
1.1k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.6k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
1.1k
The Language of Interfaces
destraynor
161
25k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
850
Typedesign – Prime Four
hannesfritz
42
2.8k
Transcript
#Rtech スタディサプリのデータ基盤の進歩と調和 戸井田 明俊 スタディサプリのデータ基盤を支える技術 2022 ーRECRUIT TECH MEET UP
#3ー
#Rtech 戸井田明俊 2017年11月に(株)リクルートに入 社。データエンジニアマネージャーと して、データ基盤・データプロダクトの 開発に従事。 前職は、オンラインゲーム会社で広 告配信システム・データ分析基盤の 開発に従事。 2児の父。
#Rtech Agenda | 01 02 03 04 リクルートとスタディサプリの紹介 スタディサプリでのデータ利活用状況 データ基盤移管プロジェクト
まとめ
#Rtech リクルートとスタディサプリの紹介 01
#Rtech 5 ミッション「まだ、ここにない、出会い。」を「より早く、シンプルに、もっと近くに。」実現 人材領域と販促領域で、事業者と個人のマッチング支援、事業者の業務・経営支援などを行っている 販促領域 (主に国内) リクルートグループの事業領域は「人材」と「販促」 人材領域 (国内外)
#Rtech 人材領域の主な事業とビジネスモデル 採用ソリューション事業 求人広告事業 (求人情報・口コミサイト) 人材紹介(斡旋)事業 人材派遣事業 サービス ブランド ・
事業会社 事業概要 企業の採用業務支援事業 ・オンライン面接プラットフォーム ・人材アセスメントツール ・求職者に対するブランディング のコンサルティングなど 求人広告や口コミサイトなどのメディア事業 ・正社員領域:リクナビNEXT、はたらいく ・アルバイト・パート領域: タウンワーク、フロムエーナビ ・新卒領域:リクナビ ※Indeed、Glassdoorは領域横断 エージェントが仲介し、求職者と企業 をマッチングする事業(エージェントが 求職者を企業に紹介) ・国内はリクルートエージェント中心に展開 ・海外は中国、インド、東南アジアを中心に 展開 登録しているスタッフを派遣会社(リク ルート)で雇用し、企業に派遣する事業 1970年から事業展開し、2007年にスタッフ サービスを買収。国内での派遣ビジネスのノ ウハウを生かしビジネス拡大するため、2010 年ごろより海外の派遣会社のM&Aを積極的に 実施。 ビジネス モデル •コンサルティング費用:求人企業に 対してのコンサルティングサービス を提供。 •サービス利用料(月額課金) ※その他Indeed採用ソリューションサービ ス:人材アセスメントツール、面接プラッ トフォームツールなどは現在無料で提供。 •広告費(掲載費):広告枠を出稿いただく •広告費(クリック課金:indeed、 Glassdoor):求人情報がクリックされた場 合にのみ費用が発生。クリック単価は入札 で決定。 紹介手数料(成果報酬):人材の入社時 に、成功報酬として企業から手数料を いただく。手数料は入社者の年収に対 して一定の割合が支払われる。 ※候補者の転職決定時ではなく入社時に、 売上が計上される。 手数料:派遣先企業からリクルートに対 し、派遣スタッフの給与と、リクルート への手数料が支払われる。 ※注意:決算における「売上収益」において はスタッフの給与も売り上げに含まれるた め、規模が大きく見える。
#Rtech 事業 メディア事業 ソリューション事業 (SaaS型業務・経営支援サービス) その他 広告収入 手数料収入 ブランド Air
ビジネスツールズ (Airレジ、Airペイ等) 事業 概要 事業者とユーザーのマッチングプラットフォーム 住宅、美容、結婚、旅行、飲食などの分野において、オンラインや雑 誌を中心としたプラットフォームを運営。これにより、個人ユーザー に対して、日常生活におけるより多くの選択肢を提供するとともに、 企業クライアントに対しては、広告を通じたユーザー獲得支援などを 行っている。 事業者の業務負荷を低減するSaaS型業務・経営支援サービス 予約・受付管理、会計、決済からシフト管理まで、事業者の業務 にかかる、手間、時間、コスト軽減に寄与するサービスを提供。 自社開発学習コンテンツ提供 CtoCマッチングプラット フォーム提供 等 ビジネス モデル 広告費: 顧客である企業が支払うメディアへの広告 掲載費。集客のための手法として広告費を いただく 手数料: 旅行者が、実際に宿泊 した際に、システム利 用料(手数料)として 顧客である企業より手 数料をいただく サービスによって異なる: ・Airレジ:0円 ・Airペイ:決済手数料 ・Airウェイト:0円~ ・Airシフト:人数×100円 ・レストランボード:基本機能は無料*。拡充機能には月額利用料 が発生 ・サロンボード:ホットペッパービューティーへの広告掲載と セット サブスクリプション: ・ユーザーより、サービス使 用料をいただく 販促領域の主な事業とビジネスモデル
#Rtech スタディサプリについて 累計有料会員194万人(2020年度)のオンライン学習サービス
#Rtech スタディサプリの学習サービス 一覧 小・中学校 高校 大学・社会人 オンラインビデオ (B to C)
オンラインビデオ & アセスメント (B to B to C) オンラインコーチング and more…
#Rtech スタディサプリでのデータ利活用状況 02
#Rtech データ組織の簡単な歴史 2016 2017 2018 2019 2020 ・スタディサプリ、リ リース ・データ基盤構築
(Treasure Data) ・BI導入(DOMO) ・Marketo導入 ・Karte導入 ・BI移行(Looker) ・レコメンド機能開発 ・サーチ機能開発 ・Salesforce連携 ・データ基盤移管 (BigQuery) ・営業読み予測開発 ・Vertex AI導入 ・メタ情報管理の強化 ・顧客スコアリングの 開発 2021 データ基盤 立ち上げ モニタリング& 分析の整備 SaaS連携 強化 データプロダク ト開発 データ基盤 移管 データマネジメ ント強化
#Rtech データソリューション G ※ データ利活用を支える組織体制 データプラットフォーム G 小中高 ENGLISH スクール
グローバ ル 進学情報 データマネジメント G データエンジニアリング G データ組織の構成 発表者は ココ 事業伴走組織 • 分析&レポーティングを行うデータアナ リスト・サイエンティストが所属 • 事業ドメインごとに4Gある 機能横断組織 • データ基盤&機能開発を行うエンジニア ・データマネージャーが所属 • レイヤごとに3Gある • 発表者3名は、データプラットフォーム G (メンバ8名)に所属 ※ G=グループの略
#Rtech BigQuery (BQ) データの利用状況 BQのテーブル数 6000 個以上 BQのクエリ数 / 日
5000 個以上 BQ利用アカウント数 80 個以上 BQストレージサイズ 300 TB以上 BQデータセット数 200 個以上
#Rtech 主なデータの種類 データの種別 詳細 マスターデータ • マイクロサービス単位で DBのスナップショットを取得 • 属性情報、契約・課金情報、コンテンツ情報
... クライアントデータ • ページ遷移などのログをクライアントデバイスから取得 サーバーサイドデータ • 学習データなどのログをサーバーサイドから取得 SaaSデータ • マーケ、CSなどのデータを外部から取得 • Salesforce, Karte, Marketo, Twilio, Optimizely, Appsflyer, SBPS…
#Rtech これらのデータを利活用し 様々な価値提供をしています
#Rtech データのモニタリング・分析 ➔ Looker / Tableauによるモニタリング ◆ 事業KPI、リソース状況などを可視化し、事業の意思決定を行う ➔ データ異常値の
Slack 通知 ➔ データ分析による事業伴走 ◆ 営業支援・効果予測 ◆ コーチ業務支援 ◆ etc 活用シーン① スタディサプリにおけるLooker活用事例 (Join : the Tour Tokyo 2019) 資料より https://speakerdeck.com/beniyama/data-governance-and-organizational-innovation
#Rtech データプロダクトの開発・運用 ➔ 講義動画検索 ◆ Cloud Speech-to-textで発話データを 文字起こし、検索インデックス化 ➔ 学習レコメンデーション
◆ 学習履歴からVertex Trainingを活用し 講義動画を推薦 And more… 活用シーン② Google Cloud Day: Digital ’21 資料より https://services.google.com/fh/files/events/d2-ml-02.pdf
#Rtech CRM / Customer Success でのデータ活用 ➔ Marketo / Salesforce
/ Karte などの外部 SaaSとの連携 ◆ 配信セグメントやMLを用いた顧客スコアを作成し、顧客との最適なコ ミュニケーション・訴求に活用 ◆ SaaS でのアクションログ(配信ログ、開封ログなど)をDWHに取り込み 効果測定 活用シーン③
#Rtech データ基盤移管プロジェクト 03
#Rtech データ基盤の3つの課題 集計リソースの 枯渇 技術的負債の 蓄積 MLシステムとの 分断 ➔ 2016年のデータ基盤の誕生から、利用ドメインとステークホルダーの増加に
伴いデータや機能を追加するなか、歪みが生じていた ① ② ③
#Rtech これらの課題を解消する 新基盤の登場が期待されていた
#Rtech 新世代学習データ分析基盤 Platon / Organon 誕生 ➔ Platon(小中学校・高校向けのデータ基盤)の由来 ◆ 紀元前387年、プラトンが「アカデメイア」という土地に学園を開設し、そ
れが「アカデミー」の語源となった。(かつ、響きがPlatformっぽい) ➔ Organon(English向けのデータ基盤)の由来 ◆ Platon を Fork したものなので、弟子のアリストテレスが案として上がっ たが、師弟関係を連想させるのでボツ。アリストテレスの論理の集大成 オルガノン から命名。 まずは名前から。移行先のデータ基盤の名は?
#Rtech 技術選定・実装方針のポイント ➔ 学習コスト最小化 & 多能工化のための技術スタックの統一 ➔ 権限管理やレガシー化防止を考慮し、GCPのマネージドサービスを積極採 用 ➔
MLOps 基盤や他データ基盤への連携の親和性や拡張性 ➔ 枯れた技術を使う(リクルート内外での先行事例の有無) ➔ 将来的な移植性を考慮して、技術選定&実装を行う 新データ基盤に求められる要件 ①
#Rtech チームとしての運用方針のポイント ➔ SLAを定め、週次で振り返る ➔ 障害時は、作業ログを残す ➔ 属人化しそうな対応は、ペアプロしながら進める ➔ MVP的なインフラコード化
& CI/CDの整備 ➔ データ整合性のチェック機構の強化 新データ基盤に求められる要件 ②
#Rtech GCPの知見が少なかったため検証期間を長くとった 移管スケジュール 2019年1月 2021年3月 2020年1月 旧データ基盤撤退 プロジェクト開始 β版 利用開始
技術検証・共通部分の開発 Platon の開発 Organon の開発
#Rtech Platon / Organonの構成 Kinesis + lambda + (S3) Serverside
Log firebase Analytics Client Log (Web / App) Cloud Storage BigQuery AWS GCP PostgreSQL / mongoDB / MySQL CRM SecureDB
#Rtech Platon / Organon によって得られた成果 ➔ 集計処理の高速化 ◆ 従来のデータ基盤より日次処理が最大4時間短縮 ◆
アドホックなクエリの渋滞の解消 ➔ 技術的負債の解消と運用コストの削減 ◆ ミドルウェアのバージョンアップの負担減 ◆ インフラのコード化 ◆ GitOps的にSQL & メタ情報管理 ➔ [WIP] MLOps 基盤とのシームレスな連携
#Rtech Platon / Organon 化の振り返り(Keep) ➔ 旧基盤からの移行を(大きな)事故なく行えた ➔ プロジェクト開始当初、GCPの知見が組織になかったため、MVP的なシステ ムを一旦完成させ、足りない部分を段階的に拡張していき、ムダなものを作
らずに済んだ(YAGNI的な精神) ➔ プロジェクトを通じ、メンバー & 組織が成長できた
#Rtech Platon / Organon 化の振り返り(Problem) ➔ ドメイン間の共通部分の設計が甘かった(横断データ、UDF、ライブラリ etc) ➔ データの欠損や不整合を起こさないため、新旧基盤の二重運用の期間が長
くなり運用コストが大きくなってしまった ➔ 移行期間中、データ基盤利用者視点で、データの整合性や網羅性が把握し にくかった
#Rtech まとめ 04
#Rtech まとめ ➔ スタディサプリでは、データドリブンに事業をエンハンスしている ➔ データのドメイン&ステークホルダーの拡大により、旧データ基盤は技術的 な課題に直面していた ➔ 新データ基盤である Platon
/ Organonにより、技術的な課題が解決され、 メンバー&組織が成長した
#Rtech プロジェクトでの苦労や工夫は次の2つの発表で紹介!
#Rtech WE’RE HIRING DATA ENGINEER ML ENGINEER DATA SCIENTIST
#Rtech ご清聴ありがとうございました