Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricksについて.pdf

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 Databricksについて.pdf

Avatar for ディップ株式会社

ディップ株式会社 PRO

February 10, 2026
Tweet

More Decks by ディップ株式会社

Transcript

  1. 自己紹介 / 本日の背景 プロフィール:  氏名: 木村 優子 (プラットフォーム部 データ基盤課)  業務:

    BigQueryを中心とした社内分析データ基盤の運用・開発 今回の背景 :  1. DX事業(スポバ・トーク・コボット等 ) のAWSデータ基盤を当課へ移管。  2. 現状課題 : 仕様変更対応等の「運用工数」が肥大化しており、リソースを圧迫。  3. 目的: 運用負荷を最小化するため、 Databricks Lakeflowによる刷新を検討。
  2. 背景:データ活用における「2つの世界」の分断 これまでのデータ基盤には、大きな「壁」がありました。 1. データレイク(Data Lake):  - AI/機械学習エンジニアが使う「ファイル置き場」。安価だが管理が難しい。 2. データウェアハウス( Data

    Warehouse):  - アナリストが使う「綺麗なデータベース」。管理は楽だが高価で柔軟性がない。 課題: データが分断され、移動やコピーの管理コストが肥大化していた。
  3. なぜ我々のチームに合うのか? 高度なスキルセット不要で、最新技術を導入可能 1. SQL中心の実装 (SQL First):  - 難しいプログラミング( Scala/Python)は必須ではない。  -

    チーム全員が使い慣れた SQLだけで、 AI基盤レベルの処理が可能。 2. サーバーレス (Serverless):  - インフラ構築やバージョン管理が不要。  - 「使った分だけ課金」で、スモールスタートに最適。
  4. 直面している課題: 開発スピードへの「追従コスト」 活発な仕様変更(例: スポットバイトル等)への対応が限界 現状の運用( Human Middleware):  - 開発チームの Slackを目視監視し、仕様変更を検知。

     - 変更があれば、手動で RedshiftにDDLを適用(見落とすと停止)。 → 課題: 「Slack張り付き」による認知負荷が高く、本来の業務を圧迫。
  5. PoC検証シナリオ:鉄壁の指定カラム連携 「何でも取り込む」のではなく「決めたものだけ通す」 -- 変更に強い実装: 必要なカラムだけを明示的に指定 CREATE OR REFRESH STREAMING TABLE

    sales_curated AS SELECT transaction_id, amount, transaction_date -- ここに無い "unknown_col" が元データに追加されても無視される FROM cloud_files("s3://bucket/sales/", "json") 検証ポイント:  1. 連携元データに「告知なし」で新カラムを追加する。  2. パイプラインがエラーにならず、定義したカラムだけを正常に取り込み続けるか確認。  → 成功すれば、 Slack監視業務からの解放が実現する。 「何でも取り込む」のではなく「決めたものだけ通す」
  6. まとめとNext Step Databricks × SQL で「止まらない」基盤へ Databricksの選定理由 :  - データレイクと

    DWHを統合し、 SQLだけで運用できるサーバーレス基盤。 Lakeflowによる堅牢化 :  - 「Slack監視 → 手動DDL」の運用を撤廃し、自動化を実現。 Next Step:  - 今週より開発環境にて、指定カラムでの耐久テストを開始します。