Upgrade to Pro — share decks privately, control downloads, hide ads and more …

入社1ヶ月でデータパイプライン講座を作った話

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Yuta Ozaki Yuta Ozaki
January 29, 2026

 入社1ヶ月でデータパイプライン講座を作った話

本資料は1月29日に実施されたGoogler CloudのコミュニティのJagu'e'rの「月末 Tech Lunch Online#9 - Google Cloud を語る!-」で発表した内容になります
https://jaguer-tech-lunch.connpass.com/event/372663/

Avatar for Yuta Ozaki

Yuta Ozaki

January 29, 2026
Tweet

More Decks by Yuta Ozaki

Other Decks in Technology

Transcript

  1. © MBK Digital co., Ltd. All Rights Reserved. 2 自己紹介

    ざき@waichang111(おざき ゆうた) 西新宿のデジタルマーケの会社に5年ほど勤めてデータの全方位担当 をやってましたが、データをもっとゴリゴリやりたいなと昨年12月に キャリアチェンジしました 所属組織:株式会社MBKデジタル 役割:リードデータエンジニア/PRディレクター コミュニティ活動: 昨年6月にDATA SaberというTableauコミュニティ資格を取得 師匠として後進育成に励み半年で13人データ人材育成💪 データパイプライン講座の講師も始めました
  2. © MBK Digital co., Ltd. All Rights Reserved. 3 3

    概要 事業会社での実務経験を踏まえ、MBKデジタル入社1ヶ月で設計した Google Cloudデータパイプライン講座の「技術的な勘所」を解説します。
  3. © MBK Digital co., Ltd. All Rights Reserved. 4 4

    前提 本発表は11章からなる講座を大きく3段階に凝縮したものです 最小工数でPoCでプロトタイプを作るとしたら?という前提の構成です ロール設計、データ品質、デプロイ戦略などは割愛しています
  4. © MBK Digital co., Ltd. All Rights Reserved. 7 あとはコスト面とどれだけ忌避感を感じさせないか

    他のプラットフォームのスペシャリストでも 短期的に適合できるものが良い ジュニアメンバーやビジネスメンバーでも キャッチアップできるものが良い 講座を切り出して番号で会話できると最高 EX.これは講座番号①②③⑦で対応!! ハードルを下げつつ、作って終わりではない プロトタイプ開発のお作法を注入 標準化 エッセンス注入 PPDACサイクル(データ活用による問題解 決のためのフレームワーク)を注入 QCDの意識と運用者目線での可視化 講座を他のプラットフォームでも横展開して さらに標準化できるとめっちゃ良い
  5. © MBK Digital co., Ltd. All Rights Reserved. 8 実際に作ったもの

    データ収集 データ蓄積 データ整形 データ分析・可視化 BigQuery Cloud Run functions BigQuery Looker Studio Looker Studio
  6. © MBK Digital co., Ltd. All Rights Reserved. 9 STEP1.ローカル仮想環境から表計算ソフト(DB)

    データ収集 データ蓄積 データ整形 データ分析・可視化 BigQuery Cloud Run functions BigQuery Looker Studio Looker Studio
  7. © MBK Digital co., Ltd. All Rights Reserved. 10 Googleが提供するブラウザ上で動作するPythonの実行環境

    機械学習やデータ分析に必要なライブラリーがプリインストールされている。 ▶特別な設定をすることなく、すぎにPythonコードを実行可能 ▶無料でGPU利用可能 制約:無料プランではセッション毎に実行環境構築が必要 ※個人レベルの開発やQuickな疎通確認、プロトタイプのdemo用などが使い所 Google Colab(Google Colaboratory) 🉐認証が楽 標準で基本認証(ユーザー認証情報)ライブラリーがある 実行ユーザーの権限でスプレッドシートやBigQueryの操作が可能になる from google.colab import auth auth.authenticate_user()
  8. © MBK Digital co., Ltd. All Rights Reserved. 11 言わずと知れたGoogleアカウントがあれば無料で使えるクラウド型表計算ソフト

    その汎用性の高さから、幾多のデータエンジニアを闇に葬ってきた ▶もはや説明は不要 制約:1000万セルの上限があり、中長期の時系列データなどレコード数が多いデータには向かない ※業務の標準化や規模拡大フェーズや高度な分析フェーズまでは重宝 Google Spread Sheet 運用者目線で、普段よく使う表計算ソフトで合意形成が取れ るとその後の工程がグッと楽になります いきなりデータパイプライン構築をはじめずに、最小工数で手を動かせ るようにするとGood & 実装者目線 運用者目線 PIVOTテーブル+クエリ関数で動的集計の可視化は可能
  9. © MBK Digital co., Ltd. All Rights Reserved. 12 STEP1.チェックポイント

    データ収集 データ蓄積 データ整形 データ分析・可視化 ①環境準備を省略 ②認証を簡素化 ③DBとして利用 ④ワンツール上で実現
  10. © MBK Digital co., Ltd. All Rights Reserved. 14 STEP2.ローカル仮想環境からBigQuery

    データ収集 データ蓄積 データ整形 データ分析・可視化 BigQuery Cloud Run functions BigQuery Looker Studio Looker Studio
  11. © MBK Digital co., Ltd. All Rights Reserved. 16 導入教育を実施します

    いきなりデータ蓄積に進むのは危険⚠
  12. © MBK Digital co., Ltd. All Rights Reserved. 17 Google

    Cloudが提供するペタバイト級のデータも高速に分析できる サーバレスのクラウド型のデータウェアハウス(DWH) SQLを使用して数秒〜数分で大量データを解析し、AIや機械学習の組み込みも搭載したデータ基盤 ▶1TBまでクエリコストが無料でサンドボックス的な検証を始めやすい 注意点:運用時の留意点やコストがかかる勘所を押さえておかないと大変なことに ※上記のような有識者監修の導入教育を受けた後で利用できると安心 BigQuery リソース階層:請求アカウントとプロジェクトの上位/下位階層の紐付き Pre-scan/ Dry Run:クエリ実行前のコストの見積もり パーティション:日付単位で分割することで、指定期間のデータのみスキャンしなくなる クラスタリング:ブロック単位で設定することでテーブルを効果的にソートする
  13. © MBK Digital co., Ltd. All Rights Reserved. 18 STEP2.チェックポイント

    データ収集 データ蓄積 データ整形 データ分析・可視化 ②導入教育を踏ま えたデータ蓄積 ①導入教育 BigQuery ③サーバレス化 ・Dry Run ・パーティション ・クラスタリング Pre-scan
  14. © MBK Digital co., Ltd. All Rights Reserved. 20 STEP3.サーバレス化と可視化

    データ収集 データ蓄積 データ整形 データ分析・可視化 BigQuery Cloud Run functions BigQuery Looker Studio Looker Studio
  15. © MBK Digital co., Ltd. All Rights Reserved. 21 Google

    Cloud が提供するイベント駆動型の関数実行サービス。 従来は Cloud Functions(第2世代)が Cloud Run 上で動作していたが、 現在はリブランディングされ、Cloud Run に統合された形で Cloud Run Functions として提供されている。 そのため、関数実行とアプリケーション実行が同一基盤上で扱える構成になっている。(統合後の記事がとても少ない) ▶100万回リクエストまでは無料 ▶起動トリガーはHTTPとPub/Subの2種類を提供 🥹インスタンスを増やさずに並列処理すると? 同一インスタンス内のCPU・メモリを複数リクエストで共有する😵 ▷つまり並列処理でメモリ枯渇する。。。。AWSのLambdaの感覚で使うと痛い目にあう 🥹統合前のCloud Functionsを関数コピーでCloud Run functions化はできない ▷2026年1月現在もできない。。。。。技術負債だと思って諦めて新規作成しなおそう。 🥹最長実行時間は60分だが・・・ Cloud TasksやWorkflowsk経由だと30分が上限になる イケテナイところ Cloud Run fnctions
  16. © MBK Digital co., Ltd. All Rights Reserved. 22 Cloud

    Run fnctionsの3大つまづきポイント 実行ログをみると 1.モジュールがrequirement.txtに書かれていない でも出るエラーは以下・・・・あれPORTは問題ないはず・・・ デプロイ編 Container failed to start. Failed to start and then listen on the port defined by the PORT environment variable. 2.関数のエントリーポイントと@functions_framework.httpのメイン関数名が不一致 あれまたPORT?? Container failed to start. Failed to start and then listen on the port defined by the PORT environment variable.
  17. © MBK Digital co., Ltd. All Rights Reserved. 23 Cloud

    Run fnctionsの3大つまづきポイント 3.デプロイ時に起動元のサービスアカウントがデフォルトのサービスアカウントになっている えぇ権限は問題ないはず。デプロイも通ったし・・・。永遠に実行できない 実行編 403 PERMISSION_DENIED: The caller does not have permission デプロイが通っても起動元のサービスアカウントの権限は別問題 コンテナをデプロイする際のセキュリティタブのサービスアカウントを確認しよう
  18. © MBK Digital co., Ltd. All Rights Reserved. 24 Googleが提供する無料のクラウド型BI(ビジネスインテリジェンス)ツール

    専門知識がなくてもドラッグ&ドロップで直感的に操作できる。 悲しいことにLookerと言われた際に10人に6人が想像するのはこちら。 ▷コネクタが豊富でGoogle広告やGA4やスプレッドシートやBigQueryなどが繋ぎやすい ▷データソースの統合やカスタムクエリにより加工が可能 ▷有償のLooker Studio ProにグレードアップするとGemini in Lookerを使用できる Looker Studioを魔改造する方法😈 Looker Studio レベル1.カスタムクエリを使用して独自データソースを作成する レベル2.カスタムクエリからTVFを呼び出してテーブルデータを戻り値として独自データを作成する レベル3.クエリストリングでパラメータを受け取り、2を動的に再集計する レベル4.リモート関数でカスタムクエリからCloud Run functionsを実行して戻り値を得る
  19. © MBK Digital co., Ltd. All Rights Reserved. 25 STEP3.チェックポイント

    データ収集 データ蓄積 データ整形 データ分析・可視化 Cloud Run functions BigQuery Looker Studio Looker Studio ①Colabのロジック流用できる ②APIとしてColabなどからリクエストできる ※サービスアカウントキーが必要 ③データソースの統合や カスタムクエリでETLが可能 ④直感的に可視化でき、フィルタ などでデータの大枠の探索が可能 有償プランでGemini in Lookerも使用できる
  20. © MBK Digital co., Ltd. All Rights Reserved. 26 あれ気づいたら強強に??

    ローカルからスプレッドシートにデータ出しするところから サーバレス化とBIツールで可視化までフルサイクルで実施!!
  21. © MBK Digital co., Ltd. All Rights Reserved. 27 まとめ

    今回はMBKデジタルに入社1ヶ月で設計した Google Cloudのデータパイプライン講座の「技術的な勘所」を解説しました 検証して終わりではなく、講座として残すことが重要 🉐ドキュメント化・講座化することで  ・人に渡せる  ・再利用できる  ・組織に複利で効く 📚持ち帰って欲しいこと 1.最初から基盤構築しない ▷ まず最小構成でプロトタイプを作る 2.BigQueryは 「導入」 と 「運用」 をセットで考える 3.段階的にサーバレス化する ▷ スペシャリティの敷居を下げる ✅ポイント