Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データエンジニアがこの先生きのこるには...?

Avatar for 10xinc 10xinc
September 30, 2025

 データエンジニアがこの先生きのこるには...?

Avatar for 10xinc

10xinc

September 30, 2025
Tweet

More Decks by 10xinc

Other Decks in Technology

Transcript

  1. 10X, Inc. ALL RIGHTS RESERVED データエンジニアがこの先 生きのこるには...? Data Engineering Study

    #31 公開企画会議 アドバイザーと語る気になる技術 株式会社10X Yasuhisa Yoshida
  2. 10X, Inc. ALL RIGHTS RESERVED 自己紹介 • 吉田 康久 ◦

    Xやはてなidは@syou6162 / id:syou6162 • 株式会社10Xでデータエンジニア ◦ 2022/09に入社、4年目 ◦ プロダクト本部 データ基盤チームに所属 ◦ データマネジメント / データガバナンスの仕事をしてます • 京都から働いてます • これまでの職歴としては研究者(NLP & ML) => Webアプリケーションエンジニア, MLエンジニア => データエンジニ ア, Analytics Engineer • データ系のコミュニティが主戦場です ◦ datatech-jpの運営の一人です、Slackをベースに1800人以上が参加 ◦ dbt Community spotlight & Google Developer Expertに選出されました ◦ New: Data Engineering Studyのアドバイザに就任しました • アーキテクチャConference2025で「現場課題から考えるセマンティックレイヤーとデータモデリング」を話します 2
  3. 10X, Inc. ALL RIGHTS RESERVED ネットスーパー運営に必要な全ての要素を提供しています 3 Stailer ネットスーパー事業 -

    提供プロダクト 小売事業者向けアプリ ミスが少なく効率的な 業務オペレーションを実現 配達スタッフ向けアプリ スタッフ用アプリと完全連動し、 効率的なルーティングを実施 ネットスーパーアプリ 数万点のSKUからスムーズに お買い物ができる
  4. 10X, Inc. ALL RIGHTS RESERVED アジェンダ • データエンジニアがこの先生き残るには...? ◦ 1:

    LLM向けのガードレールを整備する ◦ 2: 語彙と意味を定義する ◦ 3: 全体最適としてのデータガバナンス/マネジメント • まとめ 5
  5. 10X, Inc. ALL RIGHTS RESERVED アジェンダ • データエンジニアがこの先生き残るには...? ◦ 1:

    LLM向けのガードレールを整備する ◦ 2: 語彙と意味を定義する ◦ 3: 全体最適としてのデータガバナンス/マネジメント • まとめ 6
  6. 10X, Inc. ALL RIGHTS RESERVED データエンジニアの仕事は何かしらの形で置き換えられてきている • Hadoop / HDFS

    => BigQuery / Snowflake / Databricks / S3 / GCS / … / etc ◦ 大規模データに関わる開発 / 運用が圧倒的に簡単になってきた • Embulk / Digdag => Fivetran / TROCCO / dbt / Dataform ◦ データの取り込みや加工がSaaSやSQLだけで簡単に行なえるようになってきた • Looker Studio / TableauなどのBIツールにより、データ分析や可視化も簡単に行なえるようになってきた ◦ Semantic LayerやConversational Analyticsで一貫した分析が画面操作や自然言語でも簡単に • データカタログ / メタデータ管理 ◦ Dataplex Universal Catalogのようなマネージドサービスも当たり前になり、LLMもメタデータを記入できる • 細かなデータに関するスクリプトの作成はLLM Agentが数分でやってくれるようになってきた • 少しずつ確実にデータエンジニアの仕事は置き換わってきている • 注意: これらのプラットフォームを作ること自体ももちろんデータエンジニアリングですが、今回は事業会社でデー タ活用を推し進めるデータエンジニアリングに焦点を当てます 7
  7. 10X, Inc. ALL RIGHTS RESERVED アジェンダ • データエンジニアがこの先生き残るには...? ◦ 1:

    LLM向けのガードレールを整備する ◦ 2: 語彙と意味を定義する ◦ 3: 全体最適としてのデータガバナンス/マネジメント • まとめ 13
  8. 10X, Inc. ALL RIGHTS RESERVED データエンジニアリングにまつわる課題 • 日々たくさん依頼がくる ◦ 例:

    先月の施策の結果を分析したいです ◦ 例: このテーブルにこういうカラム追加できますか? ◦ 例: このカラムってどういう意味ですか? ◦ 例: こういうクエリ書いてみたけど、集計結果がおかしい。クエリを見て欲しいです • たくさんのSQLファイルの保守メンテナンスをしないといけない ◦ 減らすのは大変、日々増えていきがち • 最近の10Xの場合: ◦ 新しい小売企業との連携が始まった ◦ 新しい種類のデータが増え、データ取り込みやデータモデリングする対象が増えた ◦ 出口側のDXアプリも増えてくる 14
  9. 10X, Inc. ALL RIGHTS RESERVED LLM Agent(例: Claude Code)が得意なこと •

    コードベースを広く見てくれる ◦ Grepツールやjqなどを駆使しながら、広く理解しようとしてくれる • 機械的な作業も苦としない ◦ スクリプトを書くまでもない定型作業などは大得意 • 自律的に動いてくれる ◦ 多少うまくいかないことがあっても、諦めずに試行錯誤してくれる • 各方面への連携もできる ◦ 必要があればVSCodeなどのIDE連携もできる ◦ 必要があればGitHub Actions上で動かすこともできる • 「LLM Agentでデータエンジニアリングに関わる全ての課題を解決してやるぜ!!!」でうまくいく...? 15
  10. 10X, Inc. ALL RIGHTS RESERVED LLM Agentはまだまだやんちゃ: その1 16 martにビジネスロジックが染み出して、

    SSoTには程遠い実装。場 当たり的なmartがどんどん出来てしまう ... Claude Code: とにかくこのmartが動いて テストも通ることを確認しましょう
  11. 10X, Inc. ALL RIGHTS RESERVED LLM Agentはまだまだやんちゃ: その2 17 incrementalな履歴テーブルを簡単に消さないで

    ! Claude Code: 何回やってもテストが通らない。上流のテーブルに バグがある可能性があるので、削除してから作り直します
  12. 10X, Inc. ALL RIGHTS RESERVED やんちゃなLLM Agentに活躍してもらうにはガードレールが大事! • 高い自走力の裏返しで、LLM Agentは課題を解決するためにあの手この手で頑張ってしまう

    • その結果、例えば以下のようなことで困ることがそれなりにある ◦ 一貫性のないクエリやデータ品質の高いクエリを初手で書いてしまい、レビューコストが高くなる ◦ 危ないオペレーションを行なってしまう可能性があり、目を離せないため疲れる • LLM Agentに活躍してもらうためには、ガードレールの設計が重要! ◦ 危険なことはそもそもできないようにする ◦ 「こう書いて欲しい」という設計やモデリングがあれば、それをLLM Agentが理解しやすい形で表現する 18
  13. 10X, Inc. ALL RIGHTS RESERVED ガードレールとしての自然言語 • データ基盤のためのリーダブルSQL 同僚の@tenajimaさん作 ◦

    元々は人間用に書いたもの • コードでは書きにくいようなルールはドキュメント(CLAUDE.mdなど)として整備する ◦ 書くときにも使わせることができるし、コードレビューにも使える on Claude Code GitHub Actions 19
  14. 10X, Inc. ALL RIGHTS RESERVED 参考: ピクシブさんのCI/CDでのコードレビュー事例(Gemini on Vertex AI)

    21 LLMとGitLab CI/CDを活用したdbtコードレビューの自動化 より引用
  15. 10X, Inc. ALL RIGHTS RESERVED ガードレールとしての仕様書 • Kiroに代表される仕様書駆動開発(Spec-driven Development)が登場し、界隈では注目を集めている ◦

    当然、この仕様書もLLM Agentに対して強力なガードレールとして働く • 特定のIDEに限定されずに仕様書駆動開発をサポートするツールも登場している ◦ gotalab/claude-code-spec / github/spec-kit / Pimzino/claude-code-spec-workflow / Pimzino/spec-workflow-mcp • データエンジニアリングでも仕様書駆動開発は有効! • 「実装が微妙だな...」と思ったときは仕様書のみ残して書いてもらったコードを捨てる、ということがやりやすい ◦ 人間相手にはやりにくかった 22
  16. 10X, Inc. ALL RIGHTS RESERVED より詳細は 23 dbt開発 with Claude

    Codeのためのガードレール設計 より引用
  17. 10X, Inc. ALL RIGHTS RESERVED アジェンダ • データエンジニアがこの先生き残るには...? ◦ 1:

    LLM向けのガードレールを整備する ◦ 2: 語彙と意味を定義する ◦ 3: 全体最適としてのデータガバナンス/マネジメント • まとめ 24
  18. 10X, Inc. ALL RIGHTS RESERVED 人間がやるべき仕事 • データエンジニアリングの難しいことはマネージドサービスで隠蔽される ◦ 例:

    BigQueryは分散処理エンジンの構築や管理をユーザーから隠蔽してくれる • 多かれ少なかれ、コードはLLMが書く機会が増える ◦ 増えたとしても、ガードレールで破綻しないようにする ◦ 作り方や作って欲しいものが人間の要求に合うように「こう作ってね」を言語化する • じゃあ、人間がやるべき仕事は何だろう? ◦ その内の一つに「定義」する活動が入ってくるのではないか、と私は考えている ▪ 定義したものを参照させる ▪ 迷わせない、勝手に定義させない • データエンジニアリングの文脈で定義するべきものは何か? ◦ 語彙と意味 25
  19. 10X, Inc. ALL RIGHTS RESERVED データエンジニアリングの文脈での語彙と意味 • 語彙: ◦ 自社のビジネスコンテキストを踏まえ、(データ分析に留まらず)社内で広く一貫性を持って使いたい言葉

    ◦ つまり、ユビキタス言語 ◦ 例: 顧客 / 商品 / 契約 • 意味: ◦ 語彙を用いて、データに基づく自社のビジネスの骨格とルールを体系的に記述すること ◦ つまり、データモデリング ◦ 例: ビジネスディメンション / Entityを定義する ◦ 例: ビジネスイベント / ビジネスプロセスを定義する • LLMが語彙や意味を定義することは現時点ではできない ◦ 少なくとも私はそう思っている ◦ 候補やメリット / デメリットを書かせることはできる ◦ 責任を持って長期間運用できるように、一貫性を担保した上で定義する必要がある 26
  20. 10X, Inc. ALL RIGHTS RESERVED 語彙とセットで意味も定義しないと、LLM Agentは思った通りに動いてくれない 31 データレイク DWH

    Data Mart martにビジネスロジックが染み出して、 SSoTには程遠い実装。場 当たり的なmartがどんどん出来てしまう ... 意味がmart毎に異なってしまう... Claude Code: とにかくこのmartが動いて テストも通ることを確認しましょう
  21. 10X, Inc. ALL RIGHTS RESERVED 定義された語彙や意味を参照して、データマートを組み立てる 32 データレイク Staging Raw

    Vault Business Vault Data Mart Fact / Dim Hub: Entityの定義 Link: Entity同士の接続(=ビジネスイベント) Satellite: Entityの属性の履歴管理 Entity / ビジネスイベント / ビジネスロジックが前段までに 「定義」された状態。あとはmartをJOINで組み立てるだけ! 数年間Data Vaultを運用して得られた学びを最近まとめました。 Data Vaultはデータモデリングのエッセンスが詰まっているので、Data Vaultを実運用 しないデータエンジニアでも一回勉強してみるのをオススメします
  22. 10X, Inc. ALL RIGHTS RESERVED 生き残り方その2: 語彙と意味を定義する 34 自社のビジネスコンテキストに即した一貫 した語彙や意味を定義するのは

    LLM Agentには難しい 語彙や意味をきちんと定義することで、同 僚やLLM Agentも仕事がしやすくなる データエンジニアが語彙や意味を定義す るための方法としては、ユビキタス言語 / データモデリング / メタデータなどがある
  23. 10X, Inc. ALL RIGHTS RESERVED アジェンダ • データエンジニアがこの先生き残るには...? ◦ 1:

    LLM向けのガードレールを整備する ◦ 2: 語彙と意味を定義する ◦ 3: 全体最適としてのデータガバナンス/マネジメント • まとめ 35
  24. 10X, Inc. ALL RIGHTS RESERVED データにまつわる課題例: 必要なデータはどれ?!問題 36 分析には正しいデータを使うことが必須...だけど現実は厳しい BigQueryにはOrderって名前のテーブ

    ルがたくさんあるけど、自分の用途に 合っているのはどのテーブル ...? このテーブルな気がするけど、カラム AとカラムBの違いが分からな い...微妙に数字が違うけど、どっちを使えばいいの ... そもそもこのテーブルを管理しているの は誰なの... よく分からないけど、今回はこのテーブ ルで分析してみるか (案の定用途に 合ってないテーブルで手戻り発生 ) BizDevやアナリスト
  25. 10X, Inc. ALL RIGHTS RESERVED データにまつわる課題例: データ品質が低い 37 聞いてるだけで胃が痛い... やっとのことでそれっぽいテーブル

    が見つかったぞ... 分析に使いたいカラム、 20%くらい 欠損してるけど、なんで ... どうも去年の10月分までのデータ しか入ってないんだが ... えっ、そもそもデータ更新のバッチ が先月から止まってるの ?! こんな品質のデータではパート ナーの信用は勝ち取れないよ ... BizDevやアナリスト
  26. 10X, Inc. ALL RIGHTS RESERVED データにまつわる課題例: このデータどうやって作られてるの問題 38 エンジニアの悩み...データがどうやって作られているかの謎を解き明かすために我々はアマゾンの奥地に FireStore

    GCS BigQuery(ローデータ) BigQuery上で 様々な加工... スプレッドシート上で 様々な加工... BI上で 様々な加工... 品質に問題があるって言われたか ら、このデータどうやって作られて るか見てみるか... 構成図もないから、 コードを読み解くしか ない。このテーブルを 作っているのはどこ だ... いくつもの層で加工されていて頭 が混乱してきた... この作り(アーキテク チャ)で求められてる 品質を満たすの無 理じゃないか... 元データもそういう 用途で使われること を想定していなかっ たらしい エンジニアやアナリスト
  27. 10X, Inc. ALL RIGHTS RESERVED データにまつわる課題例: 全体をいい感じに回さないといけない問題 39 各所からくる要望が溢れていて、困り果てる担当者 メタデータが整備されない

    と、分析するまで大変です ! データ品質が高くないと業務 に支障が出ます! データアーキテクチャちゃん としないと要求に答えられな いです! データセキュリティ、ちゃんと してください! とにかく色んな要望があること だけは分かる。それ以外は何 も分からない... どれが本当に重要度が高く て、どういう順番でアプローチ すればいいんだ...
  28. 10X, Inc. ALL RIGHTS RESERVED 全体を見通す: データマネジメントのアセスメントの実施 40 取り組む順番を依存関係のDAGとして定義 特に優先して進めたい項目

    ! 時系列で毎年の推移が追えます(一昨年 / 去年 / 今年) 何をどういう順序で解くとデータガバナン スとしてよさそうか、依存関係を決めるこ とができた
  29. 10X, Inc. ALL RIGHTS RESERVED 10Xの例: データの生成過程のマネジメント 41 データパイプライン ダッシュボード

    / 各分析のユースケース データソース データソースに近い上流(契約 / 業務ルール / システム設計)から関心を持ち、受け入れ基準 を定めることが今後より重要になる。 ただし、これはデータエンジニアだけで完結できる話ではなく、BizDevやPdMなど事業サイド と連携して源流から是正に関わることが不可欠。
  30. 10X, Inc. ALL RIGHTS RESERVED 10Xの例: データの生成過程のマネジメント 42 データパイプライン ダッシュボード

    / 各分析のユースケース データソース 入口の改善としてData Contractの運用開始。 Garbage in, garbage outにならないようにデータの入口を固く守る。 仕様はMachine Readableな形でやり取りする。 入口の設計と受け入れ基準の定義が、下流の品質や生産性を守るカギの一つになる!
  31. 10X, Inc. ALL RIGHTS RESERVED 10Xの例: データの生成過程のマネジメント 43 データパイプライン ダッシュボード

    / 各分析のユースケース データソース データ活用者側との期待値をData Reliability Levelとして定義。 「何でもかんでも品質を高める」ではなく、品質をコ ントロール配下に置き、制御できるようにする
  32. 10X, Inc. ALL RIGHTS RESERVED 10Xの例: データの生成過程のマネジメント 44 データパイプライン ダッシュボード

    / 各分析のユースケース データソース しかし、データパイプラインの中だけでできることは 思った以上に限られていることが多い。 局所最適化を頑張るのではなく、データの生成過程 を系と見なして、全体のボトルネックにアプローチし ていこう! データパイプラインのデータ品質の可視化や改善も同 時に行なっている
  33. 10X, Inc. ALL RIGHTS RESERVED 生き残り方その3: 全体最適としてのデータガバナンス/マネジメント 45 個別の課題をやみくもに力技で撃破 するのではなく、全体を見通した上でデー

    タの課題に取り組むことができる ! 個別課題はマネージド SaaSやLLM Agentに任せられるけど、どの領域をやる / やらないを決めていくのはデータエンジ ニアの重要な仕事!
  34. 10X, Inc. ALL RIGHTS RESERVED アジェンダ • データエンジニアがこの先生き残るには...? ◦ 1:

    LLM向けのガードレールを整備する ◦ 2: 語彙と意味を定義する ◦ 3: 全体最適としてのデータガバナンス/マネジメント • まとめ 46
  35. 10X, Inc. ALL RIGHTS RESERVED まとめ • チーム内 / 局所的

    / 小さいタスクはSasS / マネージドサービス / LLM Agentでできるようになってきた ◦ 実装や運用の効率化のために使い倒せばよい • じゃあ、データエンジニアがこの先生き残るには...? ◦ 1: LLM向けのガードレールを整備する ◦ 2: 語彙と意味を定義する ◦ 3: 全体最適としてのデータガバナンス/マネジメント • 価値を出せるようにより本質的なことをやれる時期になってきた、とも言える...! 47
  36. 10X, Inc. ALL RIGHTS RESERVED 最後に • 今日の発表のような話をコミュニティでも色々したい ◦ datatech-jpに来てね!

    ◦ アジャイルデータモデリングの輪読会やってます! ◦ アーキテクチャConference2025で現場課題から考えるセマンティックレイヤーとデータモデリングを話します • 10Xでもデータエンジニアを募集してます! ◦ カジュアル面談からお待ちしてます ◦ 新規プロダクトについて知りたい方はこちらを参照してください! 48