Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データの"守り"を固めた2022
Search
Takuma Kouno
December 14, 2022
Technology
1.8k
0
Share
データの"守り"を固めた2022
2022/12/14のData Engineering Studyの発表資料
Takuma Kouno
December 14, 2022
More Decks by Takuma Kouno
See All by Takuma Kouno
株式会社アイスタイル_Data_Engineering_Summit_全社のデータ活用レベルを上げる__AI-readyな組織を目指す_データ民主化プロジェクト_の裏側.pdf
takumakouno
0
1.1k
Data Reliabilityを 最小工数で実現するための データ基盤
takumakouno
0
140
位置情報データをコスト最適化しつつ 分析に活かすための データ管理と運用方法について
takumakouno
0
71
データ活用促進のためのデータ分析基盤の進化
takumakouno
2
3.2k
Other Decks in Technology
See All in Technology
AgentCore×VPCでの設計パターンn選と勘所
har1101
3
300
MLOps導入のための組織作りの第一歩
akasan
0
360
Expiration of Secure Boot Certificates for vSphere Virtual Machines
mirie_sd
0
110
マルチプロダクトの信頼性を効率良く保っていくために
kworkdev
PRO
0
170
ServiceNow Knowledge 26 の歩き方
manarobot
0
150
CloudTrail を見つめ直してみる
kazzpapa3
1
110
AI駆動1on1〜AIに自分を育ててもらう〜
yoshiakiyasuda
0
150
国内外の生成AIセキュリティの最新動向 & AIガードレール製品「chakoshi」のご紹介 / Latest Trends in Generative AI Security (Domestic & International) & Introduction to AI Guardrail Product "chakoshi"
nttcom
4
1.4k
Revisiting [CLS] and Patch Token Interaction in Vision Transformers
yu4u
0
390
ハーネスエンジニアリングをやりすぎた話 ~そのハーネスは解体された~
gotalab555
5
1.8k
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.4k
扱える不確実性を増やしていく - スタートアップEMが考える「任せ方」
kadoppe
0
320
Featured
See All Featured
Reality Check: Gamification 10 Years Later
codingconduct
0
2.1k
GraphQLとの向き合い方2022年版
quramy
50
15k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.4k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
180
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2k
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.7k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
140
Building the Perfect Custom Keyboard
takai
2
730
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
61
43k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
53k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
Evolving SEO for Evolving Search Engines
ryanjones
0
180
Transcript
データの”守り”を固めた2022 2022.12.14 株式会社Luup 河野匠真 Data Engineering Study #17
発表者 • 河野 匠真(@makako1124) • 株式会社Luup / Data Strategy部 Data
Engineering Team • 主にデータ基盤の構築から運用、整備を行う
Luupとは 電動キックボードや電動アシスト自転車をはじめとする、電動・小型・一人乗りのマイクロモビリティを、iOS/Android アプリから解錠・ 施錠を行って自由に乗車することのできるシェアリングサービス ポート数 車両数 5,000台以上 2,430以上 展開エリア:東京、大阪、京都、横浜など (2022年11月末時点)
1. Luupのデータとデータ基盤 2. 課題 a. Rawデータはそのまま使えない b. データがどこにあるかわからない 3. 結果
4. 今後実施したいこと 5. まとめ 6. 最後に Agenda
Luupのデータとデータ基盤 API Firebase Extensions 1. アプリや車両のデータをFunctionsで処理してBigQueryへ 2. アプリデータはFirestoreに保存され、BigQueryへ ※上図は簡潔に記載しており、詳細を割愛しています iOS/Androidアプリ
課題 Rawデータはそのまま使えない データがどこにあるかわからない ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています
課題 ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています データを綺麗にして誰でもアクセスできる環境を整えないと! データの守りを固める データの信頼性を上げ、 正しく一貫したデータに誰もがアクセスできるようにする
課題 Rawデータはそのまま使えない データがどこにあるかわからない ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています
データがどこにあるかわからない データがどこに存在しているのかわからない • ほしいときにすぐにデータが手に入らない • そもそも欲しいデータがあるのかわからない ※上図は簡潔に記載しており、詳細を割愛しています API Firebase Extensions
iOS/Androidアプリ
データがどこにあるかわからない ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています データカタログを用意 → データがどこにあり、誰が作成し、いつどれくらいの頻度で更新されるのか等の情報が誰で も確認できる → NotionのDatabaseを採用 (APIで毎日自動生成される仕組みに )
課題 Rawデータはそのまま使えない データがどこにあるかわからない ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています
Rawデータはそのまま使えない BigQueryに入ってきたRawデータはjson形式であり、そのまま使うにはさまざまな弊害が生じる • 膨大なクエリ容量 • 複雑なSQLが必要 • 不透明な定義のため抽出ユーザーによりデータが異なる ※上図は簡潔に記載しており、詳細を割愛しています API
Firebase Extensions iOS/Androidアプリ
Rawデータはそのまま使えない BigQueryに入ってきたRawデータはjson形式であり、そのまま使うにはさまざまな弊害が生じる 例) ライド(乗車)中のデータは、一定間隔で位置情報が更新され続けるので、 1レコードずつデータが追加されていく ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています ..., "routePoints":[{"location":{"_latitude": xxxx,"_longitude":xxxx},"timeStamp": {"_seconds":xxxx,"_nanoseconds":x
xxx}},...], ... ..., "routePoints":[{"location":{"_latitude": xxxx,"_longitude":xxxx},"timeStamp": {"_seconds":xxxx,"_nanoseconds":x xxx}},...], ...
Rawデータはそのまま使えない ※課題は他にもたくさんありますが、重要な二つに絞って紹介しています 1. ワークフローツール(Cloud Composer)の導入 → 安定したデータ処理環境を構築 2. 定義毎にデータ処理層を用意 →
クエリ容量の削減、データの整合性担保 3. 各種Datamartテーブルを用意 → 容易なSQLでデータ取得が可能
結果 • ダッシュボード毎にデータが異なるといったデータ不整合を防げるようになった。 • 一日に使用するクエリ容量が約半分までに減少した。 • 容易なSQLでデータが抽出できるようになった。 • どういうデータが存在するのか誰でも気軽に確認できるようになった。 構築完了したのが直近のため、結果はこれからさらにでてくると想定
今後実施したいこと 攻め=データの可用性を上げ、データが創出しうる価値を最大化する “攻め”の課題(一例) • Map Visualizationの拡充 • IoTデバイスのログ取得拡充と整備 • 会社全体のデータリテラシーの向上
etc API Firebase Extensions iOS/Androidアプリ
まとめ さまざまなツールを検証・導入し、最適なデータフローを考え実装した、 データの”守り”(=データの信頼性を上げ、正しく一貫したデータに誰もが アクセスできるようにする)を徹底した年
最後に Luup Developers Blogにてアドベントカレンダー実施中! データカタログにNotionを選択した理由についても掲載中! Luupでのデータ基盤構築、データ活用に少しでもご興味がある 方、ご連絡お待ちしております。 Luup採用情報