Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
cssj2026.pdf
Search
Taro Takaguchi
March 02, 2026
Technology
0
11
cssj2026.pdf
Taro Takaguchi
March 02, 2026
Tweet
Share
More Decks by Taro Takaguchi
See All by Taro Takaguchi
keisu_special_lecture_20210511.pdf
ttakaguchi
0
500
takaguchi_15th_neteco.pdf
ttakaguchi
0
500
KDD2018 ダイジェスト @ Data Ship Update Lecture #6
ttakaguchi
1
120
ウェブ企業の非研究者ポジションで行うサイエンス
ttakaguchi
0
4k
Other Decks in Technology
See All in Technology
契約書からの情報抽出を行うLLMのスループットを、バッチ処理を用いて最大40%改善した話
sansantech
PRO
2
260
データマネジメント戦略Night - 4社のリアルを語る会
ktatsuya
1
240
形式手法特論:SMT ソルバで解く認可ポリシの静的解析 #kernelvm / Kernel VM Study Tsukuba No3
ytaka23
1
790
PostgreSQL 18のNOT ENFORCEDな制約とDEFERRABLEの関係
yahonda
0
120
開発チームとQAエンジニアの新しい協業モデル -年末調整開発チームで実践する【QAリード施策】-
kaomi_wombat
0
240
AWS Systems Managerのハイブリッドアクティベーションを使用したガバメントクラウド環境の統合管理
toru_kubota
0
160
Astro Islandsの 内部実装を 「日本で一番わかりやすく」 ざっくり解説!
knj
1
280
Phase10_組織浸透_データ活用
overflowinc
0
1.6k
スピンアウト講座01_GitHub管理
overflowinc
0
1.4k
CloudFrontのHost Header転送設定でパケットの中身はどう変わるのか?
nagisa53
1
190
やさしいとこから始めるGitHubリポジトリのセキュリティ
tsubakimoto_s
1
1.1k
Phase01_AI座学_基礎
overflowinc
0
3.9k
Featured
See All Featured
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.2k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9k
Music & Morning Musume
bryan
47
7.1k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.8k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
110k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
250
Building an army of robots
kneath
306
46k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
190
Joys of Absence: A Defence of Solitary Play
codingconduct
1
320
Designing for Timeless Needs
cassininazir
0
170
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.3k
Transcript
企業のデータ基盤とデータ組織づくりにみる 計算社会科学との接点 第5回計算社会科学会大会 CSSJ2026 高口 太朗 2026年3月2日 | クリエート浜松 1
高口 太朗 株式会社メルカリ Data Managementチーム エンジニアリングマネージャー 博士(情報理工学) 専門:ネットワーク科学 Temporal networks,
Bursty human behavior) ※本講演の内容は所属企業の事業とは直接関係ありません 自己紹介 2
実態の説明 企業におけるデータ活用と は具体的にどのような活 動なのか? アクターの理解 誰が、どうやって データ活用に関わるのか? アプローチ 架空のサービスを題材に 構築の過程を順に再現する
本講演の主題 3
データ活用は科学的思考そのもの データ活用は「観測」「仮説」「検証」という、科学研究と共通のプロセスで成り立ってい る データ活用自体が社会科学的な考察の対象 異なる主体が関わる営為であり、組織や人間関係、ルールなどの社会科学的視点 が活かされる 本講演の主張 4
学生の方へ 将来ありうる仕事の 雰囲気を知る 研究者の方へ 企業連携の 基礎的な共通言語 実務者の方へ 現場の見方の一事例とし て 本講演のメッセージ
5
架空の語学学習アプリ 収益源:無料教材中の広告収入 + 有料教材の販売 このサービスのデータ活用の過程を追いながらデー タ基盤と組織の展開を考える ※実在の企業・事業とは無関係です 題材|Gogakuclass 6
サービス提供用のデータベース( DB)構造 これらはサービス提供のための「本番DB」であり、分析用ではない ユーザーDB ユーザーID 教材ID 進捗ステータス 更新日時 ユーザーID 氏名
登録日時 履修ログDB 購入ログDB ユーザーID 教材ID 購入金額 決済日時 7
KPI(主要業績指標)はどう推移しているのか? リリース直後の「問い」|観測の開始 8 ? 登録ユーザー数 ? 履修ユーザー数 ¥? 売上金額 プロダクトマネージャ(PM)
9 方法|本番 DBからの直接抽出 ユーザーDB 履修ログDB 購入ログDB バックエンド エンジニア PM
本番負荷: 分析クエリがユーザー向けサービスを阻害するリスク 再現性: 本番DBは状態が上書きされるため、過去の数値が変化しうる 属人化: エンジニアしか権限がなく、抽出依頼のコミュニケーションが発生 横断分析: 複数の独立したDBに跨がる「複雑な問い」に答えられない 直接抽出が抱える 4つの問題点
10
本番DBから定期的にコピーを作成し、一箇所に集める環境を構築する 分析用データ基盤の構築 11 本番負荷: 本番DBに分析作業の影響なし 再現性: 過去のデータを保存 属人化: 非エンジニアにも参照権限あり 横断分析:
複数DBの組み合わせ可能 本番DB データ基盤
役割 本番DBのデータを定常的に分析環境へ届ける 専門性 膨大なデータを安定的・効率的に処理し保管する技術 技術要素 インフラ構築、ELT(Extract / Load / Transform)パイプライン、SQLなど
データエンジニアの採用 12
13 データ基盤へのパイプライン構築 ユーザーDB 履修ログDB 購入ログDB バックエンドエンジニア データ 利用者 データ エンジニア
データ基盤 データセット
重複処理の解消: 「毎回行う同じデータの変換や結合を省略したい」 効率化: 「よく使うデータのまとまりを事前に作り、クエリの速度を上げたい」 次に出てくる要求|分析用のデータの前処理 14 本番DBはサービス提供のための構造で、そもそも分析用ではない
アナリティクスエンジニアの採用 15 役割 分析に使いやすい「データマート」を設計し実装する 専門性 事業分析の観点とエンジニアリングの観点の両立 技術要素 SQL、データ設計、データ変換ツールなど
16 分析用に処理されたデータマートの構築 データ 利用者 データ基盤 本番DB アナリティクスエ ンジニア データマート
ノーコードでの利用: 「SQLを実行せず、数値だけをダッシュボードで見たい」 定義の統一: 「人によって指標の定義が異なるのを防ぎたい」 次に出てくる要求|可視化の要望と指標の統一定義 17 利用者が増えるにつれ、知識のばらつきによる多様化が生じる
ビジネスインテリジェンス( BI)エンジニアの採用 18 役割 事業の意思決定プロセスを理解し、適切な情報を提供する 専門性 可視化手法ツールの理解と事業指標の定義 技術要素 データ可視化技術、ユーザーインターフェースなど
19 19 統一された指標定義に基づく可視化の提供 データ基盤 本番DB BIエンジニア ダッシュボード
ここまで|「観測・仮説」のためのデータフロー 20 「問い」から始まり、効率的で再現性の高い観測を実現する仕組みへ ? 事業KPI データマート ダッシュボード
リーガル 法令遵守 適切な取得と利用 セキュリティ 不正アクセス・漏洩防止 プライバシー 個人権利の保護 透明性の確保 データガバナンス|統制への要求 21
データの取得と利用が多様化・複雑化する前に最初から備える
観測に基づく仮説 「登録初月に履修する日数が多いほど、有料教材の購入率が高まる」 「適切なレベルの教材を見つけて履修完了できるほど、利用継続率が高まる」 直接的な介入 教材の推薦、ユーザーインターフェイスのA/Bテスト、 お知らせメッセージの配信など 「観測・仮説」から「介入・検証」へ 22
23 データサイエンティスト・機械学習エンジニアの採用 役割 事業課題を数理的問題に翻訳し、データ駆動のサイクルを回す 専門性 統計的推論とモデリングを通じて現実の設定でノイズとバイアスを制御する 技術要素 SQL、統計、機械学習のエンジニアリングなど 直接的な介入にはビジネスリスクを伴うので、統計の専門性が必要
24 題材|教材の推薦 「適切なレベルの教材を見つけて履修完了できるほど、利用継続率が高まる」
一方向のデータフローから、推薦結果を介した「循環」へ 実装したいデータ利用の流れ 25 機械学習モデル 学習・推論
企画 目的と指標の定義 収集 ログ定義・実装 モデリング 学習・推論 提供 本番へのパイプライン 推薦システムの構築ステップ 26
※ 全体のうちデータ利用に関わる部分のみ
27 1. 企画|全体の設計図づくり 目的 教材購入の増加 成功指標 購入率 = 購入者数 /
履修者数 推薦の対象と頻度 教材 X ユーザー 1日1回更新
アプリクライアントログ: クリック、ページ閲覧、スクロールなどの行動 中間段階の計測: 最終的な購入に至るまでの「利用者の迷い」を可視化する ガバナンスの重要性: ログが詳細になるほど個人情報保護の統制が重要に 2. 収集|詳細な行動ログの定義と実装 28
オフライン評価 過去に観測された購買の有無を正解として、 「仮に当時このモデルがあったら購買の有無を予測できていたか」を検証する 3. モデリング 29 表現学習 / 特徴量の設計・モデルパラメータの学習 ユーザーをうまく表すベクトル表現を構築し、パラメータを探索する
過去の分析や調査の知見、類似する前例からの参照
30 4. 提供|毎日、安定的に推薦結果を届ける 運用の設計: 推薦結果の提供に失敗したら、売れ筋ランキングを表示する、など モニタリング: 入力データと推薦結果の変化を監視する オンライン評価: ランダムに割り当てたユーザー群に A/B
テストを行う
ここまでの達成|データ駆動の実現 31 データ基盤 統一された データプロダクト データ組織 多様な専門性の 集まるチーム 継続的改善 「観測」から「検証」まで
データの循環 シンプルな「問い」を出発点に Gogakuclass が築き上げてきたもの
32 ※ 説明のための理想化された例
内的要因: 事業、組織、データ 設計思想: 「将来には必ず変わる」ことを意識した柔軟な設計が不可欠 AIによる支援: 調査や書き換えなどのボトルネックはAIで効率化されつつある 現実にはもっと紆余曲折がある 33 あらゆる物事は急速に変化し続ける 外的要因:
社会、ルール、市場環境、技術
案件ごとに発生する多対多の調整が、効率を低下させる N 生成者 N 利用者 N ガバナンス 過渡状態の構造| NNNの調整 34
調整 生成者・利用者・ ガバナンス間の調整を行う 仕組み化 汎用的なルールとツール を提供する 更新 社内外の変化に合わせて 要件を修正し続ける データマネジメントの役割
35
各フェーズに関わるエンジニア、データ利用者、ガバナンス部門が 目的を実現するために相互に連携する 事業上の「問い」を出発点に、「観測」「仮説」「検証」のサイクルを回す そのフローを組織内で誰でも利用可能にするための仕組み 本講演の主題|ふりかえり 36 企業におけるデータ活用とは具体的にどのような活動なのか? 誰が、どうやってデータ活用に関わるのか?
37 計算社会科学との接点
社会の縮図 多数の人と組織が関わる 過程そのものが分析対象 となる 定量的解決 調整や運用を定量的な 観点で分析し、答えを出す データ活用から見た計算社会科学の有用性 38
データ基盤|企業が積み重ねた意思決定の「地層」 39 単なるデータの蓄積ではない 事業: 新規、拡大、縮小、転換 組織: 人員、階層 技術: 選定、仕様
AI 活用|データ基盤は企業の OS に 40 文書など非構造化データも、データ基盤に集約される 「業務」「制度」「権限」がメタ情報として蓄積される
まとめ 41 データ活用は科学的思考そのもの データ活用は「観測」「仮説」「検証」という、科学研究と共通のプロセスで成り立ってい る データ活用自体が社会科学的な考察の対象 異なる主体が関わる営為であり、組織や人間関係、ルールなどの社会科学的視点 が活かされる