Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データの"守り"を固めた2022
Search
Takuma Kouno
December 14, 2022
Technology
0
1.7k
データの"守り"を固めた2022
2022/12/14のData Engineering Studyの発表資料
Takuma Kouno
December 14, 2022
Tweet
Share
More Decks by Takuma Kouno
See All by Takuma Kouno
株式会社アイスタイル_Data_Engineering_Summit_全社のデータ活用レベルを上げる__AI-readyな組織を目指す_データ民主化プロジェクト_の裏側.pdf
takumakouno
0
1k
Data Reliabilityを 最小工数で実現するための データ基盤
takumakouno
0
120
位置情報データをコスト最適化しつつ 分析に活かすための データ管理と運用方法について
takumakouno
0
66
データ活用促進のためのデータ分析基盤の進化
takumakouno
2
3.2k
Other Decks in Technology
See All in Technology
Postman v12 で変わる API開発ワークフロー (Postman v12 アップデート) / New API development workflow with Postman v12
yokawasa
0
130
VLAモデル構築のための AIロボット向け模倣学習キット
kmatsuiugo
0
150
マルチプレーンGPUネットワークを実現するシャッフルアーキテクチャの整理と考察
markunet
2
250
VPCエンドポイント意外とお金かかるなぁ。せや、共有したろ!
tommy0124
1
610
SRE NEXT 2026 CfP レビュアーが語る聞きたくなるプロポーザルとは?
yutakawasaki0911
1
340
非情報系研究者へ送る Transformer入門
rishiyama
11
7.5k
クラウド × シリコンの Mashup - AWS チップ開発で広がる AI 基盤の選択肢
htokoyo
2
250
Sansanでの認証基盤内製化と移行
sansantech
PRO
0
470
組織全体で実現する標準監視設計
yuobayashi
3
490
決済サービスを支えるElastic Cloud - Elastic Cloudの導入と推進、決済サービスのObservability
suzukij
2
640
プラットフォームエンジニアリングはAI時代の開発者をどう救うのか
jacopen
5
2.5k
CyberAgentの生成AI戦略 〜変わるものと変わらないもの〜
katayan
0
200
Featured
See All Featured
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.4k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.8k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Unsuck your backbone
ammeep
672
58k
Between Models and Reality
mayunak
2
230
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
76
The Cost Of JavaScript in 2023
addyosmani
55
9.8k
Statistics for Hackers
jakevdp
799
230k
It's Worth the Effort
3n
188
29k
WENDY [Excerpt]
tessaabrams
9
36k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.8k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
380
Transcript
データの”守り”を固めた2022 2022.12.14 株式会社Luup 河野匠真 Data Engineering Study #17
発表者 • 河野 匠真(@makako1124) • 株式会社Luup / Data Strategy部 Data
Engineering Team • 主にデータ基盤の構築から運用、整備を行う
Luupとは 電動キックボードや電動アシスト自転車をはじめとする、電動・小型・一人乗りのマイクロモビリティを、iOS/Android アプリから解錠・ 施錠を行って自由に乗車することのできるシェアリングサービス ポート数 車両数 5,000台以上 2,430以上 展開エリア:東京、大阪、京都、横浜など (2022年11月末時点)
1. Luupのデータとデータ基盤 2. 課題 a. Rawデータはそのまま使えない b. データがどこにあるかわからない 3. 結果
4. 今後実施したいこと 5. まとめ 6. 最後に Agenda
Luupのデータとデータ基盤 API Firebase Extensions 1. アプリや車両のデータをFunctionsで処理してBigQueryへ 2. アプリデータはFirestoreに保存され、BigQueryへ ※上図は簡潔に記載しており、詳細を割愛しています iOS/Androidアプリ
課題 Rawデータはそのまま使えない データがどこにあるかわからない ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています
課題 ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています データを綺麗にして誰でもアクセスできる環境を整えないと! データの守りを固める データの信頼性を上げ、 正しく一貫したデータに誰もがアクセスできるようにする
課題 Rawデータはそのまま使えない データがどこにあるかわからない ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています
データがどこにあるかわからない データがどこに存在しているのかわからない • ほしいときにすぐにデータが手に入らない • そもそも欲しいデータがあるのかわからない ※上図は簡潔に記載しており、詳細を割愛しています API Firebase Extensions
iOS/Androidアプリ
データがどこにあるかわからない ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています データカタログを用意 → データがどこにあり、誰が作成し、いつどれくらいの頻度で更新されるのか等の情報が誰で も確認できる → NotionのDatabaseを採用 (APIで毎日自動生成される仕組みに )
課題 Rawデータはそのまま使えない データがどこにあるかわからない ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています
Rawデータはそのまま使えない BigQueryに入ってきたRawデータはjson形式であり、そのまま使うにはさまざまな弊害が生じる • 膨大なクエリ容量 • 複雑なSQLが必要 • 不透明な定義のため抽出ユーザーによりデータが異なる ※上図は簡潔に記載しており、詳細を割愛しています API
Firebase Extensions iOS/Androidアプリ
Rawデータはそのまま使えない BigQueryに入ってきたRawデータはjson形式であり、そのまま使うにはさまざまな弊害が生じる 例) ライド(乗車)中のデータは、一定間隔で位置情報が更新され続けるので、 1レコードずつデータが追加されていく ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています ..., "routePoints":[{"location":{"_latitude": xxxx,"_longitude":xxxx},"timeStamp": {"_seconds":xxxx,"_nanoseconds":x
xxx}},...], ... ..., "routePoints":[{"location":{"_latitude": xxxx,"_longitude":xxxx},"timeStamp": {"_seconds":xxxx,"_nanoseconds":x xxx}},...], ...
Rawデータはそのまま使えない ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています 1. ワークフローツール(Cloud Composer)の導入 → 安定したデータ処理環境を構築 2. 定義毎にデータ処理層を用意 →
クエリ容量の削減、データの整合性担保 3. 各種Datamartテーブルを用意 → 容易なSQLでデータ取得が可能
結果 • ダッシュボード毎にデータが異なるといったデータ不整合を防げるようになった。 • 一日に使用するクエリ容量が約半分までに減少した。 • 容易なSQLでデータが抽出できるようになった。 • どういうデータが存在するのか誰でも気軽に確認できるようになった。 構築完了したのが直近のため、結果はこれからさらにでてくると想定
今後実施したいこと 攻め=データの可用性を上げ、データが創出しうる価値を最大化する “攻め”の課題(一例) • Map Visualizationの拡充 • IoTデバイスのログ取得拡充と整備 • 会社全体のデータリテラシーの向上
etc API Firebase Extensions iOS/Androidアプリ
まとめ さまざまなツールを検証・導入し、最適なデータフローを考え実装した、 データの”守り”(=データの信頼性を上げ、正しく一貫したデータに誰もが アクセスできるようにする)を徹底した年
最後に Luup Developers Blogにてアドベントカレンダー実施中! データカタログにNotionを選択した理由についても掲載中! Luupでのデータ基盤構築、データ活用に少しでもご興味がある 方、ご連絡お待ちしております。 Luup採用情報