2022/12/14のData Engineering Studyの発表資料
データの”守り”を固めた20222022.12.14 株式会社Luup 河野匠真Data Engineering Study #17
View Slide
発表者● 河野 匠真(@makako1124)● 株式会社Luup / Data Strategy部 Data Engineering Team● 主にデータ基盤の構築から運用、整備を行う
Luupとは電動キックボードや電動アシスト自転車をはじめとする、電動・小型・一人乗りのマイクロモビリティを、iOS/Android アプリから解錠・施錠を行って自由に乗車することのできるシェアリングサービスポート数車両数5,000台以上 2,430以上展開エリア:東京、大阪、京都、横浜など(2022年11月末時点)
1. Luupのデータとデータ基盤2. 課題a. Rawデータはそのまま使えないb. データがどこにあるかわからない3. 結果4. 今後実施したいこと5. まとめ6. 最後にAgenda
Luupのデータとデータ基盤APIFirebase Extensions1. アプリや車両のデータをFunctionsで処理してBigQueryへ2. アプリデータはFirestoreに保存され、BigQueryへ※上図は簡潔に記載しており、詳細を割愛していますiOS/Androidアプリ
課題Rawデータはそのまま使えないデータがどこにあるかわからない※課題は他にもたくさんありますが、重要な二つに絞って紹介しています
課題※課題は他にもたくさんありますが、重要な二つに絞って紹介していますデータを綺麗にして誰でもアクセスできる環境を整えないと!データの守りを固めるデータの信頼性を上げ、正しく一貫したデータに誰もがアクセスできるようにする
データがどこにあるかわからないデータがどこに存在しているのかわからない● ほしいときにすぐにデータが手に入らない● そもそも欲しいデータがあるのかわからない※上図は簡潔に記載しており、詳細を割愛していますAPIFirebase ExtensionsiOS/Androidアプリ
データがどこにあるかわからない※課題は他にもたくさんありますが、重要な二つに絞って紹介していますデータカタログを用意→ データがどこにあり、誰が作成し、いつどれくらいの頻度で更新されるのか等の情報が誰でも確認できる→ NotionのDatabaseを採用 (APIで毎日自動生成される仕組みに)
Rawデータはそのまま使えないBigQueryに入ってきたRawデータはjson形式であり、そのまま使うにはさまざまな弊害が生じる● 膨大なクエリ容量● 複雑なSQLが必要● 不透明な定義のため抽出ユーザーによりデータが異なる※上図は簡潔に記載しており、詳細を割愛していますAPIFirebase ExtensionsiOS/Androidアプリ
Rawデータはそのまま使えないBigQueryに入ってきたRawデータはjson形式であり、そのまま使うにはさまざまな弊害が生じる例)ライド(乗車)中のデータは、一定間隔で位置情報が更新され続けるので、1レコードずつデータが追加されていく※課題は他にもたくさんありますが、重要な二つに絞って紹介しています...,"routePoints":[{"location":{"_latitude":xxxx,"_longitude":xxxx},"timeStamp":{"_seconds":xxxx,"_nanoseconds":xxxx}},...], ......,"routePoints":[{"location":{"_latitude":xxxx,"_longitude":xxxx},"timeStamp":{"_seconds":xxxx,"_nanoseconds":xxxx}},...], ...
Rawデータはそのまま使えない※課題は他にもたくさんありますが、重要な二つに絞って紹介しています1. ワークフローツール(Cloud Composer)の導入→ 安定したデータ処理環境を構築2. 定義毎にデータ処理層を用意→ クエリ容量の削減、データの整合性担保3. 各種Datamartテーブルを用意→ 容易なSQLでデータ取得が可能
結果● ダッシュボード毎にデータが異なるといったデータ不整合を防げるようになった。● 一日に使用するクエリ容量が約半分までに減少した。● 容易なSQLでデータが抽出できるようになった。● どういうデータが存在するのか誰でも気軽に確認できるようになった。構築完了したのが直近のため、結果はこれからさらにでてくると想定
今後実施したいこと攻め=データの可用性を上げ、データが創出しうる価値を最大化する“攻め”の課題(一例)● Map Visualizationの拡充● IoTデバイスのログ取得拡充と整備● 会社全体のデータリテラシーの向上etcAPIFirebase ExtensionsiOS/Androidアプリ
まとめさまざまなツールを検証・導入し、最適なデータフローを考え実装した、データの”守り”(=データの信頼性を上げ、正しく一貫したデータに誰もがアクセスできるようにする)を徹底した年
最後にLuup Developers Blogにてアドベントカレンダー実施中!データカタログにNotionを選択した理由についても掲載中!Luupでのデータ基盤構築、データ活用に少しでもご興味がある方、ご連絡お待ちしております。Luup採用情報