Slide 1

Slide 1 text

事業をデータエンジニアリングする データエンジニアの未来@サポーターズCoLab 近森 淳平(チカモリ ジュンペイ) @pei0804

Slide 2

Slide 2 text

事業にとって、 データエンジニアとは何なのか?

Slide 3

Slide 3 text

データ基盤を作る人?

Slide 4

Slide 4 text

それだけ?

Slide 5

Slide 5 text

データ基盤を作るのも大事。 けど、もっとやれることはあるし、 これからは作ってからが大事な時代になる。

Slide 6

Slide 6 text

データ基盤構築は民主化されつつある。

Slide 7

Slide 7 text

データ基盤作るだけだと、 力量不足になる時代が、遠くない未来に来る。

Slide 8

Slide 8 text

作った先の課題を解く必要が出てきた。

Slide 9

Slide 9 text

事業をデータエンジニアリングしよう

Slide 10

Slide 10 text

アジェンダ ● 自己紹介 ● データエンジニア界で起きていること ● 事業をデータエンジニアリングする ● CARTA MARKETING FIRMをデータエンジニアリングする

Slide 11

Slide 11 text

アジェンダ ● 自己紹介 ● データエンジニア界で起きていること ● 事業をデータエンジニアリングする ● CARTA MARKETING FIRMをデータエンジニアリングする

Slide 12

Slide 12 text

自己紹介 ぺい @pei0804 近森淳平(チカモリ ジュンペイ) VP of Data @ CARTA MARKETING FIRM / CARTA HOLDINGS 2024, 2025 Snowflake Data Superheroes

Slide 13

Slide 13 text

アジェンダ ● 自己紹介 ● データエンジニア界で起きていること ● 事業をデータエンジニアリングする ● CARTA MARKETING FIRMをデータエンジニアリングする

Slide 14

Slide 14 text

データエンジニア界で起きていること

Slide 15

Slide 15 text

データ基盤構築の民主化

Slide 16

Slide 16 text

一昔前は、データエンジニアリングには 多くの技術的課題がありました。

Slide 17

Slide 17 text

よく見かけるデータエンジニアリングの技術的課題 ● データの統合 ○ 様々な場所に散在したデータを集める。 ● 大量データ処理 ○ 現実的な時間で処理しきれるようにする。 ● データパイプライン構築 ○ 複雑なジョブツリーの管理 ● インフラ管理 ○ 様々な処理を支えるインフラ管理

Slide 18

Slide 18 text

昨今データエンジニアリングの技術的課題は、 多くが一般化されつつあります。

Slide 19

Slide 19 text

データ基盤構築するだけなら、 高度な専門知識が不要になりつつある。

Slide 20

Slide 20 text

前だと雑に作るだけでも、 結構大変だったけど、 いまは本当にさくっと作れる。

Slide 21

Slide 21 text

毎日ペタバイト級のデータがロードされる。 パブリッククラウドが使えない。 こういった現場では、 まだまだ技術的課題があります。 頑張っていきましょう💪

Slide 22

Slide 22 text

どのように一般化されているのか

Slide 23

Slide 23 text

OSSや便利なサービスの登場

Slide 24

Slide 24 text

https://notion.castordoc.com/modern-data-stack-guide

Slide 25

Slide 25 text

具体的にどのように解決されたか ※抜粋

Slide 26

Slide 26 text

データ取り込みの進化 通常データは様々な場所に散在しています。 以前はデータウェアハウスへの取り込みだけでも多大な労力を 要しました。各データソースのAPI理解や取り込み処理の実装には 高度な開発スキルが必要です。 しかし現在では、Fivetran、TROCCO、Airbyteなどの 専用ツールの登場により、この仕事は大幅に効率化されました。

Slide 27

Slide 27 text

データ処理の進化 かつてデータ処理の壁となっていたリソース制約やクラスター管理の 複雑さは、Snowflake、BigQuery、Databricks、Redshiftといった クラウドデータウェアハウスの登場により解消されました。 データエンジニアはインフラ管理から解放され、 柔軟なリソースのスケーリングが可能になりました。

Slide 28

Slide 28 text

データパイプライン構築の進化 データパイプラインは「タスクセントリック」から 「アセットセントリック」へと進化し、 複雑な依存関係管理が大幅に簡素化されました。 従来はAirflowなどで明示的に処理順序を指定する必要がありましたが、 dbtやDagsterでは必要なデータを記述するだけで依存関係が 自動的に追跡されます。これにより開発者はデータ自体に集中でき、 パイプラインの構築・保守効率が飛躍的に向上し、拡張性も高まりました。

Slide 29

Slide 29 text

他の様々な技術課題についても、 日々解決されつつある。

Slide 30

Slide 30 text

しかも、昨今では日本語で、 データエンジニアリングの情報に アクセスできる。

Slide 31

Slide 31 text

技術も手法も民主化しつつある。

Slide 32

Slide 32 text

これが今起きていること。

Slide 33

Slide 33 text

どれぐらいのスピード感で、 この業界は進化しているか?

Slide 34

Slide 34 text

https://multithreaded.stitchfix.com/blog/2016/03/16/engineers-shouldnt-write-etl/

Slide 35

Slide 35 text

先駆的アイデアから一般常識へ 2016年、Stitch Fix社が提唱した「Engineers Shouldn't Write ETL」。 それまで当然視されていた「データサイエンティストが考え、エンジニアが実装す る」という分断された役割から、「データサイエンティストが 自らデータ加工を行い、エンジニアは土台となる仕組みを提供する」 という協業モデルへの転換を促したのです。 当時は革新的だったこの考え方も、現在では便利なツールやクラウドの 普及により、多くの企業で標準的な手法となっています。 わずか数年で先進的な取り組みが当たり前になる。これこそがデータエンジニアリ ングの進化スピードを物語る象徴的な例といえるでしょう。

Slide 36

Slide 36 text

これを初めて読んだとき、 雷に打たれたような衝撃を受けました。

Slide 37

Slide 37 text

これ2016年だと・・・(私が読んだのは2022年) めちゃくちゃ進んでるやんけ・・・

Slide 38

Slide 38 text

衝撃と同時に、今ならこれを実行するために 必要なツールが揃っていると気付いた。

Slide 39

Slide 39 text

実例:開発体制を協業へ 「Engineers Shouldn't Write ETL」を読 んで、「これだ!」と確信し、 データエンジニアは仕組みづくりを 担当し、機械学習エンジニアは その仕組みを活用して業務を 行うという協業体制に移行しました。 https://speakerdeck.com/pei0804/engineers-in-carta-vol3-data-engineer?slide=45

Slide 40

Slide 40 text

このような変革が実現できたのは、 便利なツールが揃っていたから。

Slide 41

Slide 41 text

技術課題のハードルが下がった結果、 真の課題が見え始めた。

Slide 42

Slide 42 text

https://www.getdbt.com/resources/reports/state-of-analytics-engineering-2024

Slide 43

Slide 43 text

https://www.getdbt.com/resources/reports/state-of-analytics-engineering-2024

Slide 44

Slide 44 text

データ活用の真の難題 ● データ品質の問題 ○ データ実務者の57%が直面する最大の課題(2022年の41%から増加) ● ステークホルダーのデータリテラシー不足 ○ 約50%の実務者が課題として挙げる人的要素 ● データオーナーシップの曖昧さ ○ 約50%が挙げる「誰がこのデータに責任を持つのか」という組織的問題 技術的課題(データ変換の構築など)は解決されつつあるが、 人・組織・文化に関連する課題が拡大している

Slide 45

Slide 45 text

「データ基盤を作る人」だけでは力不足になる アンケート結果が示すのは、日本のデータエンジニアの未来予想図です。 課題として挙げられていた ● データ品質 ● データリテラシー不足 ● オーナーシップの曖昧さ これらの主要課題は技術ではなく、組織と人に関わる問題です。 「データ基盤構築」だけでは真の課題は解けないことを示しています。

Slide 46

Slide 46 text

そうだ。 事業をデータエンジニアリングしよう

Slide 47

Slide 47 text

アジェンダ ● 自己紹介 ● データエンジニア界で起きていること ● 事業をデータエンジニアリングする ● CARTA MARKETING FIRMをデータエンジニアリングする

Slide 48

Slide 48 text

「事業をデータエンジニアリングする」とは

Slide 49

Slide 49 text

データを軸に事業の仕組みを構築し、 事業の価値を高める

Slide 50

Slide 50 text

平たく言うと、 データに関する全部をやる。

Slide 51

Slide 51 text

データエンジニアリングが行き着く先は、 組織や人、そして、事業の課題。

Slide 52

Slide 52 text

技術の枠に囚われると、 出せる価値にアッパーが出来てしまう。

Slide 53

Slide 53 text

データで事業を変革できるのか? 多くの人がそう疑問に思います

Slide 54

Slide 54 text

私はできると信じている

Slide 55

Slide 55 text

本質的にはデータとは 人間の行動であり、事業そのものです

Slide 56

Slide 56 text

データとは データは、個々の事実・数値、情報、統計、変数の項目である。 より厳密には、データとは1人または複数の人や物や事象に関する 定性的または定量的な値の集まりである。 引用 データ - Wikipedia

Slide 57

Slide 57 text

データとは、人であり、事業 データとは、人間活動の痕跡そのものであり、 事業は、人々が価値を紡ぎ出すプロセスです。 データの質と活用度を高めることは、 事業の本質的価値と成果を直接的に向上させることに他なりません。

Slide 58

Slide 58 text

組織全体でデータを戦略的に活用することは、 社員一人ひとりの創造性と貢献度を 最大化することと同義です

Slide 59

Slide 59 text

CARTA MARKETING FIRMでは、 この野望を現実にするための挑戦を 日々重ねています。

Slide 60

Slide 60 text

アジェンダ ● 自己紹介 ● データエンジニア界で起きていること ● 事業をデータエンジニアリングする ● CARTA MARKETING FIRMをデータエンジニアリングする

Slide 61

Slide 61 text

CARTA MARKETING FIRMを データエンジニアリングする

Slide 62

Slide 62 text

データ成熟度で理解する CARTA MARKETING FIRMの現在地

Slide 63

Slide 63 text

https://www.heap.io/blog/the-four-stages-of-data-maturity

Slide 64

Slide 64 text

データ成熟度の4段階 ● Data-exploring ○ データ収集はしているが活用できておらず、意思決定は直感に頼る段階。 ● Data-informed ○ データの価値を認識し始め、分析ツールやデータスタックへの投資が始まる段階。 ● Data-driven ○ データが意思決定の中心となり、組織全体でデータ活用が浸透する段階。 ● Data-transformed ○ データが組織のDNAとなり、すべての活動がデータに基づいて最適化される段階。

Slide 65

Slide 65 text

データ成熟度の4段階 ● Data-exploring ○ データ収集はしているが活用できておらず、意思決定は直感に頼る段階。 ● Data-informed ○ データの価値を認識し始め、分析ツールやデータスタックへの投資が始まる段階。 ● Data-driven ○ データが意思決定の中心となり、組織全体でデータ活用が浸透する段階。 ● Data-transformed ○ データが組織のDNAとなり、すべての活動がデータに基づいて最適化される段階。 CARTA MARKETING FIRMはここだと思う。

Slide 66

Slide 66 text

データ成熟度の4段階 ● Data-exploring ○ データ収集はしているが活用できておらず、意思決定は直感に頼る段階。 ● Data-informed ○ データの価値を認識し始め、分析ツールやデータスタックへの投資が始まる段階。 ● Data-driven ○ データが意思決定の中心となり、組織全体でデータ活用が浸透する段階。 ● Data-transformed ○ データが組織のDNAとなり、すべての活動がデータに基づいて最適化される段階。 ここを目指している。

Slide 67

Slide 67 text

しかし、道のりは簡単ではない

Slide 68

Slide 68 text

https://www.heap.io/blog/the-four-stages-of-data-maturity す ご い 高 い 壁

Slide 69

Slide 69 text

Data-drivenへの壁:技術から人へのシフト Data-informedまではエンジニアのマンパワーとツールの力で達成可能ですが、 Data-drivenへの移行は全く異なる性質の課題です。 この段階では技術より「人」が中心課題となり、 組織文化や意思決定プロセス、個々の行動様式を変える必要があります。 最新のデータ基盤を導入しても組織の行動が 変わらなければ真のData-drivenは実現しません。 ここからの道のりは、技術的課題から組織変革へと本質が変わるのです。

Slide 70

Slide 70 text

Data-drivenへ 向かうためにやっていること

Slide 71

Slide 71 text

RevOpsの導入 RevOpsの考え方を経営に導入し、 部門間の壁を越えて収益最大化を 目指しています。 短期的な課題解決と 長期的なビジョンを両立させながら、 データを経営資本として活用することを 目標にデータ活用を推進中。 https://speakerdeck.com/pei0804/path-to-revops

Slide 72

Slide 72 text

何のために、RevOpsに取り組むか。

Slide 73

Slide 73 text

https://primenumber.com/events/01-p-1 THE RevOps 〜The Model型ビジネスモデルで成果を出すためのデータ活用術〜

Slide 74

Slide 74 text

https://primenumber.com/events/01-p-1 THE RevOps 〜The Model型ビジネスモデルで成果を出すためのデータ活用術〜

Slide 75

Slide 75 text

https://primenumber.com/events/01-p-1 THE RevOps 〜The Model型ビジネスモデルで成果を出すためのデータ活用術〜

Slide 76

Slide 76 text

設定されたKPIに対して、 みんなベストを尽くしている

Slide 77

Slide 77 text

こういった現象はツールやデータが、 サイロしていると起きやすい。

Slide 78

Slide 78 text

全体最適を加味したKPIを設定したい。 しかし、そのためには、レベニュープロセスを 横断的に見れる必要がある。

Slide 79

Slide 79 text

これを実行するためのHowとしてのRevOps。

Slide 80

Slide 80 text

部門間を超えた連携を、 データで実現する

Slide 81

Slide 81 text

データを接着剤に、 組織を一つにしたい。

Slide 82

Slide 82 text

何のために組織を一つにするか

Slide 83

Slide 83 text

ただの図体でかい企業にならないため

Slide 84

Slide 84 text

4社統合で発生した壁(≒サイロ) CARTA MARKETING FIRMは、2023年10月1日にCARTA HOLDINGS内の 4社が事業強化戦略に基づいて統合して誕生した会社です。 会社統合を経験したことがある人なら理解できるでしょうが、 話す言葉からデータ、ツールに至るまで、あらゆる面で相違点があります。 これはデータのサイロというよりも、 人間の間に存在するサイロのような状態です。 私はこのような状態のまま事業を進め続けることにリスクを感じました。

Slide 85

Slide 85 text

違うデータを見ていると、言葉も合わない データは言語のように機能します。 同じデータを共有していれば共通言語として相互理解を促進しますが、 異なるデータを参照していると言葉の壁が生じます。 使用する用語も違うため、会話の内容を理解するのが難しくなります。 故に部門間のコラボレーションのハードルは高くなるため、 統合後にシナジーが生まれにくくなります。

Slide 86

Slide 86 text

でかい組織になったメリットを最大化する 統合によって、組織内の人材の多様性は急速に高まりました。 このレベルの多様性を採用だけで実現するのは容易ではないでしょう。しか し、秩序のない多様性はカオス状態を生み出します。 理想的には適切な秩序を築きながら多様性の利点を活かすこと。 この課題解決にデータが重要な役割を果たすと考えている。

Slide 87

Slide 87 text

まず、データから統合していく そして、人の営みも統合していく。

Slide 88

Slide 88 text

データで共通言語作る。

Slide 89

Slide 89 text

そのためのHowとして、 Data-drivenを目指している。

Slide 90

Slide 90 text

一つの生き物のように動く でかい企業になりたい。

Slide 91

Slide 91 text

そのために、 事業をデータエンジニアリングする。

Slide 92

Slide 92 text

データ成熟度の4段階 ● Data-exploring ○ データ収集はしているが活用できておらず、意思決定は直感に頼る段階。 ● Data-informed ○ データの価値を認識し始め、分析ツールやデータスタックへの投資が始まる段階。 ● Data-driven ○ データが意思決定の中心となり、組織全体でデータ活用が浸透する段階。 ● Data-transformed ○ データが組織のDNAとなり、すべての活動がデータに基づいて最適化される段階。 これが実現できてる世界見たくないですか?

Slide 93

Slide 93 text

【PR】We're hiring 【アナリティクスエンジニア】データ活用の可能性を引き出し、新たな価値創造に挑戦 https://hrmos.co/pages/cartaholdings/jobs/cmf-e04 【データエンジニア】データの源泉から価値創造までエンジニアリングする https://hrmos.co/pages/cartaholdings/jobs/cmf-e05

Slide 94

Slide 94 text

https://findy.connpass.com/event/349580/