Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
45億!増え続けるデータセットと基盤と私
Search
Databricks Japan
April 26, 2024
3
640
45億!増え続けるデータセットと基盤と私
Databricks Japan
April 26, 2024
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
[2024年12月版] Unity Catalogセットアップガイド / Unity Catalog Setup Guide
databricksjapan
0
150
[2024年12月版] Databricks Express Setup手順 / Databricks Express Setup
databricksjapan
1
63
Azure Databricksの最新機能アップデート
databricksjapan
1
70
Databricks Appのご紹介
databricksjapan
1
1.1k
Databricks AI/BI Genie 自然言語を用いたインテリジェンスなデータ分析
databricksjapan
0
280
生成AIとレイクハウス・ガバナンス
databricksjapan
1
160
データプロダクトにおけるCI/CD: Databricks Asset Bundleとは?
databricksjapan
0
240
Databricks クリーンルームについてのご紹介
databricksjapan
0
290
Unity Catalog データ分離設計ガイド / Unity Catalog Data Isolation Design Guide
databricksjapan
1
870
Featured
See All Featured
Designing on Purpose - Digital PM Summit 2013
jponch
116
7k
Faster Mobile Websites
deanohume
305
30k
Building Applications with DynamoDB
mza
91
6.1k
Product Roadmaps are Hard
iamctodd
PRO
49
11k
GitHub's CSS Performance
jonrohan
1030
460k
The World Runs on Bad Software
bkeepers
PRO
65
11k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Thoughts on Productivity
jonyablonski
67
4.4k
The Pragmatic Product Professional
lauravandoore
32
6.3k
The Language of Interfaces
destraynor
154
24k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
170
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Transcript
Copyright © 2024 Looop Inc. 45億︕増え続けるデータセットと 基盤と私 ⼤堀 元 株式会社Looop
システム統括部 エキスパート 2024年4⽉25⽇
Copyright © 2024 Looop Inc. 2 ⾃⼰紹介
Copyright © 2024 Looop Inc. 3 名前 ⼤堀 元 所属
株式会社Looop システム統括部 エキスパート 役割 部付きのエンジニアとして、技術責任者をやっています。 今回ご紹介するデータチームの⽴ち上げとDatabricksの導⼊にも携わり、 現在は、データ分析チームとインフラ基盤チームを主管しています。 好きなもの ・Laravel ・ダイビング ・プログラミング(⼩学⽣のころにN88-BASICに触れてからずっと) ・DatabricksのLakeviewダッシュボード ⾃⼰紹介
Copyright © 2024 Looop Inc. 4 会社名 株式会社Looop 設⽴ 2011年4⽉4⽇
所在地 東京都台東区上野三丁⽬24番6号 従業員数 272名(2023/2/28現在、派遣社員除く) 代表者 代表取締役社⻑ CEO 森⽥卓⺒ 資本⾦ 4,094百万円(資本準備⾦3,773百万円)※2023年3⽉末現在 売上⾼ 67,282百万円 ※2023年3⽉期連結 事業内容 電⼒⼩売、電⼒⼩売事業に関わる各種業務委託業 太陽光発電所システムの開発・販売・⼯事・管理・保守、他 会社概要
Copyright © 2024 Looop Inc. 5 1. ⾃⼰紹介 2. 45億とは︖
3. 導⼊期 4. どのように活⽤しているか︖ 5. 導⼊後の苦労 6. 今後の展望 7. 最後に ※本資料中における表やグラフなどの数字は、実態と異なる場合があり ますのであらかじめご了承ください。 アジェンダ
Copyright © 2024 Looop Inc. 6 早速ですが、45億の話
Copyright © 2024 Looop Inc. 7 本セッションのタイトルである 45億 という数字は何だと思いますか︖
Copyright © 2024 Looop Inc. 8 正解は・・・
Copyright © 2024 Looop Inc. 9 当社の電⼒事業における 1年間に増えるデータの個数です
Copyright © 2024 Looop Inc. 10 当社は⼤きく2つのビジネスを⾏っています。 • 電⼒事業 •
to C、to B向けに、電気の仕⼊れと販売 • 再エネ事業 • 太陽光、⾵⼒などの再⽣可能エネルギーの発電所建設 • 部材販売、運⽤と保守、発電所の保有 当社のビジネスモデル
Copyright © 2024 Looop Inc. 11 当社は⼤きく2つのビジネスを⾏っています。 • 電⼒事業 →
使⽤量データが45億/年ずつ増加 • to C、to B向けに、電⼒の仕⼊れと販売 • 再エネ事業 → 発電量データが19億/年ずつ増加 • 太陽光、⾵⼒などの再⽣可能エネルギーの発電所建設 • 部材販売、運⽤と保守、発電所の保有 当社のビジネスモデル
Copyright © 2024 Looop Inc. 12 当社は⼤きく2つのビジネスを⾏っています。 • 電⼒事業 →
使⽤量データが45億/年ずつ増加 • to C、to B向けに、電⼒の仕⼊れと販売 • 再エネ事業 → 発電量データが19億/年ずつ増加 • 太陽光、⾵⼒などの再⽣可能エネルギーの発電所建設 • 部材販売、運⽤と保守、発電所の保有 合わせると、1年に64億ずつデータが増加しています 当社のビジネスモデル
Copyright © 2024 Looop Inc. 13 すみません︕タイトル間違っていました︕
Copyright © 2024 Looop Inc. 45 64 億︕増え続けるデータセットと 基盤と私 ⼤堀
元 株式会社Looop システム統括部 エキスパート 2024年4⽉25⽇
Copyright © 2024 Looop Inc. 15 • ⼀ヶ⽉あたり3.8億件、年間45億件のデータが増加。(2023年実績) • 電⼒事業の開始から現在までのトータルデータセット数は300億件にもなる。
※こんな集計が数秒で処理完了︕Databricksは凄い︕︕ 電⼒事業の1⽉あたりのデータ件数と累計
Copyright © 2024 Looop Inc. 16 導⼊期
Copyright © 2024 Looop Inc. 17 Databricks導⼊前は、社内の⼀部メンバー向けにデータベースへの直接アクセスの権限を付与し、個々 ⼈で分析業務を⾏っていた。それぞれが分析環境を構築したりCPUリソースを調達していたため、分析環境、 コード、データが分断し、サイロ化が進み課題となっていた。 ⼯数に対する⾮効率
•データ利⽤と前処理の⾮効率 •データ取得はIT部⾨が対応 •データ前処理が毎回⼿間 •開発環境不統⼀、属⼈化 •マシン毎にPythonバージョン やライブラリが異なる •コード管理が属⼈化 CPUリソースとコスト⾮効率 •計算リソースの硬直性 •ダイナミックに変動するCPU需 要に対して硬直的なリソース •⼤規模計算をするために⼤ 容量のサーバを契約するとリソ ースが余り⾮効率 セキュリティとガバナンス •アクセス制御の問題 •DB直接アクセスのリスク •アクセス情報使いまわし •個⼈情報へのアクセス •分析者が⾮マスクの個⼈情 報データにアクセスできてしまう Databricks導⼊前の課題
Copyright © 2024 Looop Inc. 18 Databricks導⼊前の課題 オンプレ 共有PC 共有EC2
計算マシン1 Google Colaboratory 共有EC2 計算マシン2 社内DB 社外データ Excel分析者 インフラ担当者 Python分析者 システム部⾨ CSV ダウンロード データ抽出依頼 リモート接続 ブラウザでアクセス Databricks導⼊前はこのような状態 他部署 データ 抽出依頼 ファイルで 報告 個⼈貸与PC 個⼈貸与PC 個⼈貸与PC 個⼈貸与PC 経営層・マネージャ RDPで アクセス Excelで 連携
Copyright © 2024 Looop Inc. 19 Databricks導⼊前の課題 オンプレ 共有PC 共有EC2
計算マシン1 Google Colaboratory 共有EC2 計算マシン2 社内DB 社外データ システム部⾨ CSV ダウンロード リモート接続 ブラウザでアクセス データ抽出の ⾮効率 ローカルPCでの ⾮効率な分析 開発環境の不統⼀ ソースコードの 属⼈管理 データ取得の ⾮効率 同時ログインの問題 データ前処理の ⾮効率 他部署 Excel分析者 インフラ担当者 Python分析者 ファイルで 報告 情報鮮度の低さ データ抽出依頼 個⼈貸与PC 個⼈貸与PC 個⼈貸与PC 個⼈貸与PC 経営層・マネージャ データ 抽出依頼 計算リソースの 硬直性 RDPで アクセス Excelで 連携 Excel分析 の限界 Databricks導⼊前はこのような状態 →データのサイロ化が問題
Copyright © 2024 Looop Inc. 20 Databricks導⼊後の姿 個⼈貸与PC 社内DB 社外データ
システム部⾨ 個⼈貸与PC 他部署 パイプライン 構築・管理 個⼈貸与PC 個⼈貸与PC 個⼈貸与PC SQL分析者 ML分析者 経営層・マネージャ Python分析者 個⼈貸与PC ノートブックで ⼤量データ処理 と分析 MLモデルを作り 予測・評価、事業部 にフィードバック SQLで抽出・集計し ダッシュボード構築 ダッシュボード構築 数字をもとに⽇々判断 BIに直接 アクセス
Copyright © 2024 Looop Inc. 21 Databricks導⼊後の姿 個⼈貸与PC 社内DB 社外データ
システム部⾨ 個⼈貸与PC 他部署 パイプライン 構築・管理 個⼈貸与PC 個⼈貸与PC 個⼈貸与PC SQL分析者 ML分析者 経営層・マネージャ Python分析者 個⼈貸与PC 全てのデータを⼀箇所に集約 迷わない、探さない 全員がブラウザでアクセス 開発環境と実⾏環境を統⼀ オートスケールするクラスター による、柔軟な計算リソース データパイプラインで処理、監視 ⾮整形データをそのまま取り込み 前処理を統⼀ ユーザ部⾨が⾃分達で 分析できるように SQLやPythonを使って分析 ダッシュボードを直接参照 情報鮮度が⾼い ノートブックで ⼤量データ処理 と分析 MLモデルを作り 予測・評価、事業部 にフィードバック SQLで抽出・集計し ダッシュボード構築 ダッシュボード構築 数字をもとに⽇々判断 BIに直接 アクセス
Copyright © 2024 Looop Inc. 22 現在
Copyright © 2024 Looop Inc. 23 ダッシュボード数、Databricks格納データ数 スキーマ数 55 テーブル数
772 レコード数 494億 データ数 3兆以上 Databricks格納データ数 ※2024.04.20現在 総数 73 1年以内に作成 40 3ヶ⽉以内に作成 32 ダッシュボード数 Databrick導⼊から約2年が経過した時点での利⽤実態をまとめました。 • 導⼊後1年間は、データエンジニア2⼈、データアナリスト4⼈体制で利⽤。 • 直近半年は、⼀部の事業部メンバー向けにSQLを開放し、ダッシュボードを⾃由に作成。
Copyright © 2024 Looop Inc. 24 どのように活⽤しているか︖
Copyright © 2024 Looop Inc. 25 Databricksの活⽤例 1/3 当社が保有する発電所の発電量実績をダッシュボード化
Copyright © 2024 Looop Inc. 26 Databricksの活⽤例 2/3 スマホアプリのユーザ動向をダッシュボード化 新規・累計ユーザ数推移
ユーザごとのアプリバージョンの推移 MAU/WAU/DAU推移
Copyright © 2024 Looop Inc. 27 Databricksの活⽤例 3/3 0 10000
20000 30000 40000 50000 60000 70000 2/1/2023 2/15/2023 3/1/2023 3/15/2023 4/1/2023 4/15/2023 5/1/2023 5/15/2023 6/1/2023 6/15/2023 7/1/2023 7/15/2023 8/1/2023 8/15/2023 9/1/2023 9/15/2023 初回ダウンロード数(累積実績) 新規ダウンロードキャンペーンを実施した際に、アプリのダウンロード数にどの程度影響するのかを検証 • 時系列データ予測ライブラリ Prophet を利⽤し、機械学習と予測を⾏った。 ①︓2/1〜8/21の累積数を学習し、8/21〜8/28の累積数を予測するよう、 モデルのハイパーパラメータをチューニング ②:①で抽出したパラメータで2/1 〜8/28の累積数を学習させ(キャ ンペーン期間) 、8/29〜9/30の 累積数を予測 4/24︓⼤規模リリース (持続7⽇間) 5/19及び5/26︓メール通知 ①(持続3⽇間) 7/14、8/19、8/28、9/13、9/28 メール通知 ②(持続3⽇間)
Copyright © 2024 Looop Inc. 28 Databricksの活⽤例 その他にも、多数のダッシュボードがあるのですが、お⾒せできない数字も多く・・・
Copyright © 2024 Looop Inc. 29 定着のために⾏っていること
Copyright © 2024 Looop Inc. 30 Databricksさんのトレーニング受講の感想を報告し合うチャンネル • データチームのコアメンバーにトレーニングを受講して頂き、Slackでまとめをお願いしています。 •
お互いに刺激となり、モチベーションアップに繋がっています。
Copyright © 2024 Looop Inc. 31 Slackヘルプチャンネルの様⼦(1/2) • ユーザ追加・権限付与の申請はSlackで受け付け •
その他、以前はDatabricksの使い⽅に関する相談が多かったが・・・ • データそのものに関する各種相談が届くようになり・・・ • 最近ではかなり込み⼊った質問が増えてきました → よろず相談窓⼝はあったほうが良いです︕
Copyright © 2024 Looop Inc. 32 Slackヘルプチャンネルの様⼦(2/2) さらに・・・ 当初はユーザ部⾨の開発者からIT部⾨への問い合わせ⽤ ↓
ダッシュボードのユーザが問い合わせるようになる ↓ (⾃発的に)ダッシュボードの開発者が答えるようになる ↓ さらにユーザ部⾨同⼠で意⾒交換が始まる・・・︕ ↓ IT部⾨は関わることなく問い合わせがクローズ︕︕ ダッシュボード利⽤者(マーケティング担当) ダッシュボード開発者(⾮エンジニア) 別のダッシュボード開発者(⾮エンジニア)
Copyright © 2024 Looop Inc. 33 Slackヘルプチャンネルの様⼦(2/2) さらに・・・ 当初はユーザ部⾨の開発者からIT部⾨への問い合わせ⽤ ↓
ダッシュボードのユーザが問い合わせるようになる ↓ (⾃発的に)ダッシュボードの開発者が答えるようになる ↓ さらにユーザ部⾨同⼠で意⾒交換が始まる・・・︕ ↓ IT部⾨は関わることなく問い合わせがクローズ︕︕ データはIT部⾨のモノではなく、 ⾃分達(事業部)のモノである という意識変⾰が起き始めている(と思う) これがデータの⺠主化か・・・︖︕ ダッシュボード利⽤者(マーケティング担当) ダッシュボード開発者(⾮エンジニア) 別のダッシュボード開発者(⾮エンジニア)
Copyright © 2024 Looop Inc. 34 導⼊後の苦労話
Copyright © 2024 Looop Inc. 35 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼 が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 36 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼 が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題 ⼀つずつお話していきます。
Copyright © 2024 Looop Inc. 37 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与 が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 38 テーブル数 772 Databricks格納データ数 ※2024.04.20現在
• • 導⼊後の苦労話 ①データ連携依頼が多すぎる問題
Copyright © 2024 Looop Inc. 39 テーブル数 772 Databricks格納データ数 ※2024.04.20現在
• • 「Databricksが便利らしい」と認知度向上 ⾊々なデータを取り込みたいと要望が増加 都度データ連携の設定を追加 導⼊後の苦労話 ①データ連携依頼が多すぎる問題
Copyright © 2024 Looop Inc. 40 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼 が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 41 • AWS DMS(Database Migration
Service)+CDCを使ってデータ取り込みをすると、Op列、 OpTimestamp列が⾃動付与されるので、これらの列を⾮表⽰にしたい。 • データベースの全項⽬だと多すぎるので、よく使う主要項⽬のみに絞って欲しい。 • 個⼈情報をマスクしたい。(これはガバナンス上必須) → データ取り込み後の様々な加⼯が必要。 メダリオンアーキテクチャを採⽤し、Databricks上でデータパイプラインを構築していくことで対応。 https://www.databricks.com/jp/gl ossary/medallion-architecture ELT(not ETL) ⾮マスク マスク ⼀般ユーザには⾮開放 ブロンズ DBデータを何も加⼯せ ずに全量取り込み シルバー 不要なカラムを削除 最低限のクレンジング ゴールド 分析し易い形へ加⼯ データの⾮正規化も⾏う 導⼊後の苦労話 ②連携後の加⼯依頼が多すぎる問題
Copyright © 2024 Looop Inc. 42 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 43 様々なデータをDatabricksに取り込むようになると、 もっと⾊々な⾓度から分析したい︕ というニーズが増えてきた。 とはいえ、IT部⾨のリソースも分析エンジニアの数もそれほど多くなく、全てに対応することが難しい・・・
であれば、⾃分たちで分析できるように、SQL勉強会を実施して広めていこう︕ ということになりました。 導⼊後の苦労話 ③データ分析依頼が多すぎる問題
Copyright © 2024 Looop Inc. 44 導⼊後の苦労話 ③データ分析依頼が多すぎる問題 ①SQLとは︖ ②Excelと関連付けて説明
③中盤にはJOIN などちょっと⾼度な話も
Copyright © 2024 Looop Inc. 45 全社員の30%がSQL勉強会に参加していることに︕ データの⺠主化が加速しています︕︕ 期 参加者数
FY23 下期 約 30 ⼈ FY24 上期 約 50 ⼈ 導⼊後の苦労話 ③データ分析依頼が多すぎる問題
Copyright © 2024 Looop Inc. 46 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼 が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 47 利⽤部⾨拡⼤と、中途⼊社社員への開放のため、逐次ユーザ追加依頼が届く。 Slack WFで依頼が届くため、GUIでポチポチ追加する必要がある。 現在は、Workspace管理者のみアカウント追加が出来るため、⼀部の管理者(私)に若⼲の負担あり。
→ Databricksさん、アカウント改廃の権限をユーザにつけられるようにして欲しいです︕(相談済み) 今後はID管理を外部のIdPに寄せていき、SSO認証にすれば、負担はかなり減る・・・はず。 ただ、ユーザごとの権限(ワークスペースへのアクセス、クラスター作成の権限)の管理は課題。 導⼊後の苦労話 ④アカウント追加・権限付与が多すぎる問題
Copyright © 2024 Looop Inc. 48 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 49 利⽤が拡⼤することにより、作ったダッシュボードが間違っているのでは︖と指摘されることが増えてきた。 システム部⾨が管理しているデータパイプラインに問題があることもあるが、 ユーザ部⾨が作成したSQLに問題があることもある。 BIは試⾏錯誤しながら改善していくものですし、何よりチャレンジしている姿勢を評価したい︕
とはいえ、データパイプラインとBIの品質をどのように上げていくのかは今後の課題。 (対応⽅針検討中) 導⼊後の苦労話 ⑤分析結果の妥当性検証が⼤変
Copyright © 2024 Looop Inc. 50 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 51 導⼊後の苦労話 ⑥インポート元のデータベースが破損してダッシュボードが停⽌ 当社はインフラ基盤としてAWSを採⽤、データベースの標準はAurora MySQL
とあるDB AWS DMS (Database Migration Service) S3 S3 社外アカウント とあるDB 社内アカウント Databricksアカウント BIユーザ
Copyright © 2024 Looop Inc. 52 とあるDB AWS DMS (Database
Migration Service) S3 S3 社外アカウント とあるDB 社内アカウント Databricksアカウント BIユーザ ︖︖︖ 以後、全てのデータが破壊、ダッシュボードが異常となった 当社はインフラ基盤としてAWSを採⽤、データベースの標準はAurora MySQL 先⽇⾏われたAuroraのマイナーバージョンアップによって、DBのインポート時に実⾏される「カラム⼀覧取得ク エリ」の結果が仕様変更され、DBの中⾝が破損する問題が発⽣した。 カラム⼀覧を取得するクエリの 結果が変更 導⼊後の苦労話 ⑥インポート元のデータベースが破損してダッシュボードが停⽌
Copyright © 2024 Looop Inc. 53 当社はインフラ基盤としてAWSを採⽤、データベースの標準はAurora MySQL 先⽇⾏われたAuroraのマイナーバージョンアップによって、DBのインポート時に実⾏される「カラム⼀覧取得ク エリ」の結果が仕様変更され、DBの中⾝が破損する問題が発⽣した。
とあるDB AWS DMS (Database Migration Service) S3 S3 社外アカウント とあるDB 社内アカウント Databricksアカウント カラム⼀覧を取得するクエリの 結果が変更 BIユーザ ︖︖︖ → Databricksに取り込む際のデータ異常検知の実装課題が浮き彫りに︕ 以後、全てのデータが破壊、ダッシュボードが異常となった 導⼊後の苦労話 ⑥インポート元のデータベースが破損してダッシュボードが停⽌
Copyright © 2024 Looop Inc. 54 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 55 導⼊後の苦労話 ⑦エンジニアが⾜りない問題 増え続ける 分析依頼とデータ連携依頼・・・
データアナリストだけではなく、データエンジニアも⾜りない・・・ 優先度をつけて対応はしているものの、圧倒的エンジニア不⾜・・︕ SQLを書ける社員を増やすだけではなく、 パイプラインも実装できるPythonエンジニアを社内で増やしていく︖ 中途採⽤と、既存社員のリスキリングをどのように強化・推進していくのか︖ (SQL勉強会とは別に、Python勉強会も開始。⻑期の対応⽅針は検討中)
Copyright © 2024 Looop Inc. 56 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コスト増加問題
Copyright © 2024 Looop Inc. 57 利⽤が拡⼤することによりコストが増⼤ 定期的に⾒直しをしているが、ユーザ数とデータが増えることでコストは上昇 導⼊後の苦労話 ⑧コスト増加問題
Photonが早くて良さそう 早いけど⾼い︕ やっぱりPhotonやめました Photonアクセラレータ
Copyright © 2024 Looop Inc. 58 AWSアカウントを組織に⼊れ、 監査対象としたことで コストが増⼤ 同じタイミングでユーザが増え、
実⾏されるノートブックも増加 EC2使⽤量が増⼤ ・クラスターのワーカー数を調整 ・定期実⾏をジョブランに変更 EC2とConfigの急激な増加 利⽤が拡⼤することによりコストが増⼤ 定期的に⾒直しをしているが、ユーザ数とデータが増えることでコストは上昇 導⼊後の苦労話 ⑧コスト増加問題
Copyright © 2024 Looop Inc. 59 急激な増加 微増 S3の急激な増加 →原因はI/Oではなくストレージ
新たに連携開始した巨⼤テーブルが原因か まだ結果は出ていないが、 VACUUMを定期実⾏するように 利⽤が拡⼤することによりコストが増⼤ 定期的に⾒直しをしているが、ユーザ数とデータが増えることでコストは上昇 導⼊後の苦労話 ⑧コスト増加問題
Copyright © 2024 Looop Inc. 60 順調に増加 なんとか削減 横ばい 唐突な⾼騰
さらに頑張って削減 利⽤が拡⼤することによりコストが増⼤ 定期的に⾒直しをしているが、ユーザ数とデータが増えることでコストは上昇 導⼊後の苦労話 ⑧コスト増加問題 Databricksコスト、AWSコスト全体の推移
Copyright © 2024 Looop Inc. 61 導⼊後の苦労話 利⽤が拡⼤することによりコストが増⼤ 定期的に⾒直しをしているが、ユーザ数とデータが増えることでコストは上昇 •
Databricksでコストを可視化し、定期的に⾒直しをしましょう。 • 当社では運⽤チームでコストダッシュボードを⽉に2回以上確認し、⾒直しを図っています。 • トータルコストだけではなく、AWSのサービスごとにコストを⾒ていきましょう。 • 時間帯ごと・曜⽇ごと・クラスターごとに⾒ていくと、回りっぱなしのジョブが⾒つかったりします。 定期的なコストの観察は⾮常に重要。 さらに、将来の利⽤拡⼤を加味して、頑張って予算を確保しましょう︕
Copyright © 2024 Looop Inc. 62 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼 が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題 どれも利⽤者が増えてくれたことに起因。有り難い話︕ チーム体制を強化して対応してまいります︕
Copyright © 2024 Looop Inc. 63 今後の展望
Copyright © 2024 Looop Inc. 64 今後の展望 • 社内の全てのデータを連携したい •
直近ではSalesforceのデータに対する分析ニーズあり • 将来的には社内のあらゆるデータを分析できるようにしていく • どんどんダッシュボード化していきたい • Excelやスプシでの分析は、1回だけで済む業務のみにしていく • 2回以上⾏う分析はSQLを書いていき、どんどん⾃動化していく • データの⺠主化推進 • SQL勉強会の開催拡⼤ • 現在はレベルを統⼀した画⼀的な勉強会のみ。中級〜上級者向けを作っても良さそう • Databricks社のトレーニングをもっと取り⼊れたい • さらなる普及活動(全社利⽤への拡⼤) • データ利活⽤ • ノーコード・ローコード開発基盤との連携(Fivetranでデータ連携、Workatoでノーコード開発) • MLを作って将来予測するだけではなく、サービングして社内外にサービスを提供 → MLOps︕︕
Copyright © 2024 Looop Inc. 65 最後に宣伝させてください︕
Copyright © 2024 Looop Inc. 66 Looopでんき、いかがですか︖ ⽇中は太陽光発電量が多く、電気が余りやすいため、市場単価が安い。 この安い電気をたくさん使っていただける「市場連動型」プランをご⽤意しました。 グッドデザイン賞を受賞したスマホアプリとともに、ぜひご利⽤ください︕
0 2 4 6 8 10 12 14 16 0:00 0:30 1:00 1:30 2:00 2:30 3:00 3:30 4:00 4:30 5:00 5:30 6:00 6:30 7:00 7:30 8:00 8:30 9:00 9:30 10:00 10:30 11:00 11:30 12:00 12:30 13:00 13:30 14:00 14:30 15:00 15:30 16:00 16:30 17:00 17:30 18:00 18:30 19:00 19:30 20:00 20:30 21:00 21:30 22:00 22:30 23:00 23:30 JEPXスポット価格 (2023.10.15 九州) 最安値0.01円 最⾼値13.49円 円/kWh (税抜き) Looopでんきアプリは 2023年度グッドデザイン賞を受賞しました︕ https://looop-denki.com/
Copyright © 2024 Looop Inc. 67 データエンジニアさん・データアナリストさん⼤募集 現在Looopでは、データエンジニア職、データアナリスト職を積極的に採⽤しています。 ビッグデータを扱うパイプラインの構築、データ分析、機械学習モデルを⽤いた事業への貢献に興味がある⽅、 ぜひ⼀緒に働きませんか︖募集要項は以下をご確認ください。
まずはお話を聞いてみたい⽅は、カジュアルにお話しましょう︕ 募集要項 カジュアル⾯談はこちらから︕
Copyright © 2024 Looop Inc. 68 ご清聴、誠にありがとうございました