Slide 1

Slide 1 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 意思決定のスループットを向上! 日経が挑戦する「逆算のデータ可視化」 日本経済新聞社 プラットフォーム推進室・データインテリジェンスグループ(DIG) 1
 マネージャー データエンジニア 佐野 玄 萩原 匡侑

Slide 2

Slide 2 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. Copyright ⓒ 2023 Nikkei Inc. All rights reserved. 2
 今日の発表者 
 佐野 玄 マネージャー プラットフォーム推進室 データインテリジェンスグループ (DIG) 萩原 匡侑 データエンジニア プラットフォーム推進室 データインテリジェンスグループ (DIG) Atlas チーム - 2020年 (再)入社 - 2016〜2019 マーケティングテクノロジスト - 2020〜 - 95% ピープルマネージャー - 5% デベロッパー - キャリアの軸は マーケティング ✖ データ - マーケSaaSのカスタマーサクセスマネージャー - データSaaSのソリューションアーキテクト - 広告代理店でのコンサルタント - Atlas, Ingestly... - 2022年 入社 - データエンジニアリング(基盤開発・ELT開発) - それまで - ECモールの運営・データ分析・マーケ など - 最近の興味 - 手作りRDBMSに入門したいと思い続け早1年

Slide 3

Slide 3 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 3 1. データ可視化のビジネス要件 2. Bespokeのアプローチ 3. BIの使い分け 4. 可視化ニーズに迅速に対応するために… 5. まとめ

Slide 4

Slide 4 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 意思決定の「スループット」とは? 4
 データ可視化のビジネス要件 事象の 発生 分析 可視化 解釈 打ち手 データ化 分析可能になるまでの時差 分析を通じて打ち手を打つまでの所要時間・時間あたりの数 Latency Throughput

Slide 5

Slide 5 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 私たちの役割 5
 データインテリジェンスグループは特定の事業部門に属さず、横断的な基盤整備や事業支援を担うプラット フォーム推進室の4グループの一つ。全社的なデータ利活用の推進や定量評価に基づく意思決定の浸透を目 指す横串組織として様々なビジネス要件に対応している。 データ可視化のビジネス要件 News & Insights 電子版をはじめとするメディア Decision-making 法人向けデータ事業 Brand Communication 広告・イベント Experience 教育、転職、文化事業 プラットフォーム推進室 技術戦略ユニット 事業ドメイン別組織 横串組織 データインテリジェンス グループ

Slide 6

Slide 6 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 社内の「データ消費者」 6
 データ可視化のビジネス要件 データが生まれる・利用される 最大勢力は日経電子版だけれど … 4つの事業ドメインで 90超の日経ID連携サービス 1000万人の会員 1.6億レコード/日のログ 2000テーブル

Slide 7

Slide 7 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 社内の「データ消費者」 7
 データ可視化のビジネス要件 日経電子版 サービス開発 ウェブ、アプリ、通知… 記者・編集 記事、映像、SNS発信、 データジャーナリズム… マーケティング 新規会員、オンボーディング、 エンゲージメント… 広告ビジネス インベントリ、ターゲティング、レポート… 一つのサービスの中にも様々なデータ利用者がいる。 この構造が、日経ID経済圏の数十のサービスに。

Slide 8

Slide 8 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. データは重力を持つ 8
 データ可視化のビジネス要件 データ 他の データ 他の データ Latency ● 元データと利用先が近いほど、その供給に係る時差が小さくなる ● 鮮度の高いデータであるほど、利用価値が高まったり用途が増える Throughput ● すでにあるデータと JOINする頻度が高い・価値があるデータを「連 携対象」とすると、近くにあればあるほど掛け合わせて利用する頻 度が高まり時間あたりの流通量が増える。 Gravity ● 大きなデータが中心となり、徐々に [相対的に] 小さなデータが集まってくる ● より多くのデータが集まるほどに重力が増し、他のデータも吸い寄せられてくる 連携 対象 利用者 * 所謂 Data Gravity の概念を元に説明しやすく言い換えてみた

Slide 9

Slide 9 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. データ基盤 Upstream, Downstream 9
 データ可視化のビジネス要件 アクセスログ 記事データ 広告 Salesforce Marketo 記者・編集 マーケ担当 サービス開発者 広告営業 電子版 利用者 社内システム 自分たちで仕様を決められる サードパーティ 汎用化・標準化されている サードパーティ連携 リアルタイム性 探索的な集計・可視化 ☑ ☑ ☑ ☑ ☑ ☑ ☑ ☑ ☑ ☑ データソースから利用者まで、要件を満たしながら速くインサイトを届ける 顧客情報

Slide 10

Slide 10 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. Challenges 10
 データ可視化のビジネス要件 1. 90超のサービス 3. ビッグデータ 2. ステークホルダー 4. 安全管理 1 2 3 多数のサービス(プロダクト)に由来する多様な データを扱う 個々のサービスの中にも様々なロール&レスポンシ ビリティを持つ担当者がいる データは多様で巨大だが、それらを“イイ感じ” に 活用するためのインターフェースが必要 4 セキュリティやプライバシーの観点から共有すべき データと権限を分けるデータがそれぞれ存在する

Slide 11

Slide 11 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 11 1. データ可視化のビジネス要件 2. Bespokeのアプローチ 3. BIの使い分け 4. 多様な利用ケースへの対応 5. 可視化ニーズに迅速に対応するために… 6. まとめ

Slide 12

Slide 12 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. ニーズとスキルに応じたツールを用意 12
 Bespokeのアプローチ 1 データサイエンティスト(数十人) 6名のKaggle Masterを含む、データサイエンス・統計の専門家 PythonやRでゴリゴリとプリミティブな処理を自分で書く人たち 何をどう可視化するか、まで自分たちで決めて実現する 2 データアナリスト(数十人) ビジネス要件に基づいて BIツールやSQLを操りデータを抽出・可視化する人たち 必要に応じてデータ連携やデータマート処理も作り込めるスキルを備えている 可視化して定点観測する、可視化して人に伝える 3 マーケ担当・サービス開発者(数百人) 日々ダッシュボードを参照して意思決定をし事業を回している人たち 必要に応じて計測実装をしたり、探索的な分析もセルフサービスでやっている 定点観測を軸にしつつ、気になったことを自発的に調べる 4 記者・編集(1000人〜) 電子版トップページにどの記事を載せるか、どんな記事を用意するかを常に判断し、その 瞬間瞬間で読んでいただくべき記事を選択・発信している 報道の根幹を担いながら読まれ方や情報ニーズを確認する

Slide 13

Slide 13 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. データ量、速度、柔軟性の両立 リアルタイムに分析したいというニーズと、多数のデータを統合して扱う際のデータ量、増え続ける分析の切り口に 対応したい。一つのデータベースだけで全てを実現することはできず、3つのデータベースを組み合わせ・使い分 けることでシステム全体として実現できている。 
 13
 Bespokeのアプローチ 1秒未満 数十分 反映時間 Google BigQuery 数秒〜数分 行・列単位 列単位+JSONカラム データ構造 JSONドキュメント アクセスログと記事データ 全てのデータ 扱う情報 アクセスログ ニュースメディアの業務スピードに対応する超 高速なインメモリーDB データ投入から集計までの高速化を担う 期待 多数のデータソースからデータを受け取り、安全な 管理と大容量データの処理を行う データ基盤の中核となるデータウェアハウス アクセスログの集計・可視化に特化 日々増えていく分析の切り口、いわゆるディメン ションの増加に柔軟に対応

Slide 14

Slide 14 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. ツールと人の両輪で意思決定を推進できる人を増やす 14
 Bespokeのアプローチ できる人 を 増やす データのスキルを持つ人材 使いやすいデータとツール - 人材育成 - 採用活動への協力 - 日常的なサポート - セルフサービス化 - 情報発信と勉強会 - データ基盤の開発と運用 - BI・ダッシュボード整備 - データ連携とマート開発 - 計測実装 - マーケティング関連ツール

Slide 15

Slide 15 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 15 1. データ可視化のビジネス要件 2. Bespokeのアプローチ 3. BIの使い分け 4. 可視化ニーズに迅速に対応するために… 5. まとめ

Slide 16

Slide 16 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 幅広い組織にデータ可視化を浸透する Redash 16
 BIの使い分け Google BigQuery マーケ担当 サービス開発者 広告営業 ● 600名以上が利用中 ● OSS版Redash を セルフマネージド ➔ユーザー数が増減しても低コスト利用継続 ● BI側にDB閲覧権限を付与 ➔ユーザー追加に伴うDB側の設定が不要 (権限管理のしにくさがデメリット) ● SQLが必要なため、データ人材以外にはハー ドル高い (一方で)GUIの試行錯誤の余地が小さく、迷 い・寄り道が発生しにくい ● 一度のクエリーで複数の可視化を更新できて 合理的な面も

Slide 17

Slide 17 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 旗艦サービスで徹底的な データドリブンを実現するTableau 17
 BIの使い分け Google BigQuery マーケ担当 サービス開発者 法人営業担当 経営幹部 サービス Creator & Viewer Embed ● 経営幹部や旗艦サービスである電子版関係者 向けにリッチなダッシュボードを提供 ● 表現力や視認性の高さが高評価 ● 中間データをTableau内に保持 ➔絞り込み条件やグラフ表現更新時のBQへの クエリーが抑制できる ● クラウド版利用で埋め込み機能を利用 ➔サービス画面に可視化を埋め込むことが可 能 ● 利用目的と頻度によってライセンスを調整 ➔事業部側がライセンス費用を負担

Slide 18

Slide 18 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 報道を支える内製ダッシュボード、 DataSquad 18
 BIの使い分け “渾身分析ツール” 電子版トップページ “渾身” 記事分析 18
 ● 速報性や情報ニーズの変化に合わせる必要性 ➔数分単位で渾身記事を入れ替えるケースも ● 電子版担当者が利用する「渾身分析ツール」 ➔記事と掲載位置、CTR等を読み取りながら 需要に応じた調整を重ねる ● 記事を評価する「エンゲージメントスコア」 ➔読まれ方の傾向や読者の特徴、流入元をニ アリアルタイムに可視化する ● 記者向けに個別化したダッシュボードを開発 を進行中 ➔「書いた記事の可視化」から「どんな記事 を書くか」へのシフト

Slide 19

Slide 19 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 適材適所なBI 19
 BIの使い分け 広く多くのスタッフ 電子版関係者 編集関係者 ターゲット 原則セルフサービス 各部門のデータ人材が可視化 専属のデータアナリストが可視化 アナリストがPdMを兼任 運用 ユーザー数を増やしやすい (事業部門のP/Lに影響しない) 操作性や表現性が高い キャッシュが効いてDB負荷を抑制 組織に最適なGUIで学習コスト低い 必要な機能を内製で自由に構築できる 良いところ OSS版をセルフホスト クラウド版ライセンスを購入 内製開発 セットアップ

Slide 20

Slide 20 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 20 1. データ可視化のビジネス要件 2. Bespokeのアプローチ 3. BIの使い分け 4. 可視化ニーズに迅速に対応するために 5. まとめ

Slide 21

Slide 21 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. ニーズ:広告キャンペーンの初速をすぐ知りたい 21
 可視化ニーズに迅速に対応するために ニーズ ソリューション 施策の開始直後に反響を確認したい、あるいは部分的なテストの結果で全体の施策を決定したい サイトへの流入やその後のサイト内の動線はすぐに集計・可視化できます! Google BigQuery AtlasでLPのトラッキングコードを計測、RedashかKibanaで集計

Slide 22

Slide 22 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. ニーズ:記事の付帯情報を加味した分析がしたい 22
 可視化ニーズに迅速に対応するために ニーズ ソリューション 記事CMSで付与しているメタデータを分析に使いたい、けれどメタデータはよく更新される CMS由来のデータはリアルタイムに連携され、アクセスログに Pre-JOINしているから大丈夫! CMS Enrichment ログを受け取った後で記事のメタデー タを付与していくことで、集計時の JOIN操作を抑制する ストレージコストはコンピューティングコストより安い。 都度処理するよりもPre-JOINしてしまう方がお得だと判断した。

Slide 23

Slide 23 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. ニーズ:Marketoのデータと並べて確認したい 23
 可視化ニーズに迅速に対応するために ニーズ ソリューション Marketo(など外部のツール)の中にある数字も、普段使っている Redashに統合したい BigQueryに取り込めばOK! (でも誰が?) Google BigQuery BQにあればRedashで見えるから、BQに取り込もう! PythonでAPI叩いて、Airflowで回そうか…?

Slide 24

Slide 24 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. ニーズ:Marketoのデータと並べて確認したい 24
 可視化ニーズに迅速に対応するために ニーズ ソリューション Marketo(など外部のツール)の中にある数字も、普段使っている Redashに統合したい BigQueryに取り込めばOK! (でも誰が?) Google BigQuery BQにあればRedashで見えるから、BQに取り込もう! PythonでAPI叩いて、Airflowで回そうか…? これも可能だが...!

Slide 25

Slide 25 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. その連携、TROCCOがよくない? 25
 可視化ニーズに迅速に対応するために Google BigQuery 💡Marketo連携、自社固有のものではない (他社も同じことしているはず) 🤔 連携一つ増えるごとに 運用管理も増えてしまう 😭 開発の優先度上がらない… 🎉 設定してしまえばほぼ手放し運用

Slide 26

Slide 26 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 国内のマーケツール連携が充実しているTROCCO 26
 可視化ニーズに迅速に対応するために 意思決定に必要なデータソースは 部署や役割によって様々 連携して可視化するまでの待ち時間を短縮したい ≒ エンジニアリングの工数最小で実現できるとグッド👌 TROCCOのコネクタは “よくある” 連携ニーズをカバー チーム機能とGitHub連携で複数部署での利用も安心

Slide 27

Slide 27 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 内製するか外部調達するかの判断をする 27
 可視化ニーズに迅速に対応するために そ の 機 能 ・ 仕 様 は 事 業 戦 略 上 ど の 程 度 重 要 か 汎 用 的 ・ 代 替 可 能 固 有 の 価 値 の 源 泉 質・コスト・納期・柔軟性(QCD+F)は内製と外製どちらが有利か 外部調達する方が有利 内製する方が有利 外部調達すべき 依存度・ROIに注意しながら購入 または 内製化していく 余裕があれば内製する 価値の源泉となり得る要件に昇華する 内製に注力、継続的に投資していく 自社システム間の連携 内製化のメリット大 リアルタイム性の要求 新規性の高い何か 外部ツールとの連携 粗めの定期実行で ファイル連携するもの 汎用的なDB間の転送 単純な構造 すでに慣れている連携 立ち上げ速度が重要

Slide 28

Slide 28 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 28 1. データ可視化のビジネス要件 2. Bespokeのアプローチ 3. BIの使い分け 4. 可視化ニーズに迅速に対応するために… 5. まとめ

Slide 29

Slide 29 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. 逆算して整える 29
 まとめ 事象の 発生 分析 可視化 解釈 打ち手 データ化 分析を通じて打ち手を打つまでの所要時間・時間あたりの数 Throughput 意思決定に必要な情報は何? 最速で可視化可能にするには? 実現方法 技術スタック 組織体制 どうすべき? どんな判断 をする?

Slide 30

Slide 30 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. Key Takeaway 30
 まとめ 1. 目的に応じたDBとBIを整備する ○ 分析・可視化の目的を明確にする ○ 機能、性能、学習コスト、それにデータ構造、可用性も目的と要件に応じて ○ 投資(コスト)は事業規模によって判断 2. ツールだけではなく、ヒト面も同時に ○ 課題設定スキルや可視化ノウハウが正しいインサイトを導く ○ セルフサービス化でデータの地産地消を促進、広く速く活用が進む ○ 人材育成と組織文化とどちらも重要 3. データが扱えるようになるまでのタイムラグを最小に ○ 報道機関の仕事の速度に合わせたリアルタイムアナリティクス ○ データソースが増える際の開発工期を削減するためのTROCCO導入 ○ 内製するかどうかの判断基準を持つ

Slide 31

Slide 31 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. データエンジニア&データアナリスト募集中 一緒にデータ基盤の改良・運用をしたり、データ利活用を推進する仲間を募集しています! データエンジニア - Google Cloud と AWS のマルチクラウド環境 - Go、Python、Rust、TypeScript、Node.js などを利用 - IaC(Terraform),オーケストレーション(Airflow, Dataform),CI/CD(GitHub Actions) - コーディングが得意な方も、インフラ管理が得意な方も、プロマネが得意な方もぜひ! データアナリスト・サイエンティスト - 事業部門のデータのニーズに応える役割です - 主にBigQueryでSQLを使うことが多いです - 要件のヒアリングや計測設計にも関わる、いわゆるアナリティクス寄りの仕事です! 31
 まとめ

Slide 32

Slide 32 text

Copyright ⓒ 2024 Nikkei Inc. All rights reserved. Thank you! 32