Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ナビタイムジャパンに集まる移動ビッグデータの分析基盤
Search
NAVITIME JAPAN
PRO
April 25, 2019
Technology
1
250
ナビタイムジャパンに集まる移動ビッグデータの分析基盤
2019/04/25に開催された『データ分析基盤Developers Night〜3社3様分析基盤の変遷〜』の講演資料です。
NAVITIME JAPAN
PRO
April 25, 2019
Tweet
Share
More Decks by NAVITIME JAPAN
See All by NAVITIME JAPAN
つよつよリーダーが 抜けたらどうする? 〜ナビタイムのAgile⽀援組織の変遷〜
navitimejapan
PRO
23
15k
実践ジオフェンス 効率的に開発するために
navitimejapan
PRO
3
810
安全で使いやすいCarPlayアプリの 魅せ方:HIGと実例から学ぶ
navitimejapan
PRO
1
240
見えないユーザの声はログに埋もれている! ~ログから具体的なユーザの体験を数値化した事例紹介~
navitimejapan
PRO
6
3.1k
ユーザーのためなら 『デザイン』 以外にも手を伸ばせる
navitimejapan
PRO
2
1.6k
フツーのIT女子が、 Engineering Managerになるまで
navitimejapan
PRO
3
370
不確実性に打ち勝つOKR戦略/How to manage uncertainty with OKR strategy
navitimejapan
PRO
4
3.6k
アジャイルを小さいままで 組織に広める 二周目 / Agile Transformation in NAVITIME JAPAN iteration 2
navitimejapan
PRO
4
1.3k
変更障害率0%よりも「継続的な学習と実験」を価値とする 〜障害を「起こってはならないもの」としていた組織がDirtの実施に至るまで〜 / DevOps Transformation in NAVITIME JAPAN
navitimejapan
PRO
7
5.7k
Other Decks in Technology
See All in Technology
GraphRAG グラフDBを使ったLLM生成(自作漫画DBを用いた具体例を用いて)
seaturt1e
1
160
IBC 2025 動画技術関連レポート / IBC 2025 Report
cyberagentdevelopers
PRO
2
220
AI時代の発信活動 ~技術者として認知してもらうための発信法~ / 20251028 Masaki Okuda
shift_evolve
PRO
1
120
データとAIで明らかになる、私たちの課題 ~Snowflake MCP,Salesforce MCPに触れて~ / Data and AI Insights
kaonavi
0
170
JAWS UG AI/ML #32 Amazon BedrockモデルのライフサイクルとEOL対応/How Amazon Bedrock Model Lifecycle Works
quiver
1
130
Retrospectiveを振り返ろう
nakasho
0
140
GPUをつかってベクトル検索を扱う手法のお話し~NVIDIA cuVSとCAGRA~
fshuhe
0
280
Azure Well-Architected Framework入門
tomokusaba
1
150
20251024_TROCCO/COMETAアップデート紹介といくつかデモもやります!_#p_UG 東京:データ活用が進む組織の作り方
soysoysoyb
0
130
AIでデータ活用を加速させる取り組み / Leveraging AI to accelerate data utilization
okiyuki99
6
1.4k
어떤 개발자가 되고 싶은가?
arawn
0
140
webpack依存からの脱却!快適フロントエンド開発をViteで実現する #vuefes
bengo4com
4
3.8k
Featured
See All Featured
Facilitating Awesome Meetings
lara
57
6.6k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
253
22k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
2
160
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
The Pragmatic Product Professional
lauravandoore
36
7k
A better future with KSS
kneath
239
18k
A Tale of Four Properties
chriscoyier
161
23k
Thoughts on Productivity
jonyablonski
71
4.9k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Git: the NoSQL Database
bkeepers
PRO
431
66k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
RailsConf 2023
tenderlove
30
1.3k
Transcript
©NAVITIME JAPAN ナビタイムジャパンに集まる 移動ビッグデータの分析基盤 2019/4/25 株式会社ナビタイムジャパン 新立 和広
©NAVITIME JAPAN 自己紹介 新立 和広(しんたて かずひろ) 株式会社ナビタイムジャパン • 2009年入社 •
2014年~2017年までログデータ分析業務に従事 • 現在はデータ分析基盤の設計・構築に従事
©NAVITIME JAPAN 発表内容 • 会社紹介 • ログデータの活用事例 • データ分析環境の変遷
©NAVITIME JAPAN 会社紹介
©NAVITIME JAPAN 会社概要 事業内容 ナビゲーションサイト・アプリの運営・開発 経路探索エンジンのライセンス事業 法人向け経路付地図配信ASP事業 ビジネスナビタイム事業 法人向けソリューション事業 メディア事業
テレマティクス事業 交通コンサルティング事業 海外事業 インバウンド事業 トラベル事業 MaaS事業 会社名 株式会社ナビタイムジャパン 設立 2000年3月 社員数 約500名(2019年3月現在) 5 ナビタイムジャパンの南青山オフィス
©NAVITIME JAPAN あらゆる移動手段、移動のシーンへの対応を目指しています ナビタイムジャパンのコンシューマサービス一覧 有料課金ユーザー数 約480万人 月間ユニークユーザー数 約5,100万人 ※2018年12月末時点 ※2018年12月末時点
6
©NAVITIME JAPAN サービスから集まるログデータ コンシューマサービス NAVITIME 乗換NAVITIME バスNAVITIME カーナビタイム トラックカーナビ 自転車NAVITIME
ツーリングサポーター ➢ 施策の検討 ➢ サービスへの活用 ➢ データ活用ビジネス 移動実績 検索履歴 口コミ情報 匿名化 抽出 分析
©NAVITIME JAPAN ログデータの活用事例
©NAVITIME JAPAN サービスへの活用 NT-FILTER 渋滞予測 ユーザーが走行した道路を地図に反映 道路・時間帯別の混雑度を予測
©NAVITIME JAPAN サービスへの活用 電車混雑予測 1列車・1停車駅ごとの混雑度を予測 電車混雑予測 Travel レコメンド 類似のユーザの検索履歴を参考に お勧めの観光地を提案
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 信号制御分析システム用 民間プローブデータ提供 混雑予報をテレビ提供 2015年度『データなび』他 2016年度『ニュースチェック11』他 平成26年度 訪日外国人動向調査事業
ゴールデンルートにおける移動の分析 および各都市間での移動を分析
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 ウェブ上で簡単に道路交通に関する各種分析ができるWeb分析システム リンク旅行速度 断面交通流 プロファイリング 道路分析システム『道路プロファイラー』 区間所要時間
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 訪日外国人動態分析システム『インバウンドプロファイラー』 季節別の分析 訪問回数別の分析 時間帯別の分析 国籍別の分析 訪日外国人旅行客の動向を比較・分析できるWeb分析システム
©NAVITIME JAPAN データ分析環境の変遷
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN データ分析環境 Hadoop導入:2014年 データセンター オフィス HDFS ログデータ MapReduce Hive
サーバー • ログデータをファイルサーバー(NFS)に蓄積 • Hadoopを利用して大規模データ処理 • オフィスからデータを取得して分析
©NAVITIME JAPAN Hadoop導入:2014年 • 当初は処理性能に満足していた • 従来は1週間~1ヵ月かかっていた処理が、数時間~数日で完了 • 時が経つと様々な課題が発生 •
Hadoopクラスタの運用ノウハウが少なく、安定稼働しない • 想定を超えるログ量の増加による、ストレージ容量不足 • 用途増加による、性能・処理時間への不満 ⇒安定性と性能の確保が急務
©NAVITIME JAPAN オンプレ増強かクラウド移行か? データ分析はクラウドとの相性が非常に良い • 必要なリソースの変動が激しい • 一部の重い処理に負荷が集中 • 繁忙期に利用が集中
• 夜間・土日はほぼ不要 • ストレージサイズの事前予測が困難 • ログ量は年々増加傾向が続いている • アプリケーションに注力したい • Hadoopの運用管理は専門家に任せたい データ分析環境をAWSへ移行する事に決定
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN AWS移行:2015年 データセンター サーバー データ分析環境 ログデータ 分析用データ EMR EMR
• ログデータをS3に集約してデータレイク化 • EMRを利用して大規模データ処理 • MapReduceによるデータ変換 • Hive/Prestoによる抽出・集計 MapReduce Hive Presto オフィス
©NAVITIME JAPAN AWS移行:2015年 • 当初の狙いは達成 • 数日かかっていた処理が数時間で完了 • 簡易な集計であればPrestoを使えば1分もかからない •
ストレージ容量は実質無制限 • しかし、EMRは手軽さに欠ける • Hadoop自体が使いこなすのは難しい • 適切なリソース調整は経験が必要 • ジョブフローを作成するのに手間がかかる ⇒データを幅広く活用する為には他の選択肢が必要 SQLベースで分析できるSaaSを摸索する事に
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN Treasure Data導入:2016年 • Treasure Dataの特徴 • フルマネージドのデータ分析基盤 •
安定性が高いHiveと高速なPrestoを選択可能 • 入出力の連携先が豊富 • GUIでワークフローを作成可能 • WEBサイトのデータ分析基盤として活用 • Webページからのイベントログの収集 • 他社データとの連携 • データ分析 • 大量の定期集計業務 など
©NAVITIME JAPAN BigQuery導入:2016年 • BigQueryの特徴 • GCPのビッグデータ分析用データウェアハウス • 超高速で殆どのSQLは数秒~数分で完了 •
スキャン量ベースの課金であり、性能を踏まえると安価 • 長期間のアクセスログ集計・分析に活用 • 従来は数時間~1日かかっていた集計が数分以内に完了
©NAVITIME JAPAN BigQueryの課題 • S3からGCPに転送するコストがかかる • 既にDCからS3にログデータを集める運用が確立済 • サービスのクラウド移行も大半はAWS •
位置情報などの機微なデータを扱う為には セキュリティを高めたい • ログデータへのアクセスはオフィスからに限定 • ユーザ毎にデータへのアクセス権を管理 ※これらの機能は2019年4月現在ではBigQueryもサポート済み BigQueryからAmazon Athenaに移行する事に
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN Athena移行:2017年 • Amazon Athenaの特徴 • AWS版BigQuery • S3上のデータを標準SQLを用いて直接解析できるので、
データインポートが不要 • IAMによる柔軟な権限設定 • 権限管理 • データセット毎にIAMロールを定義 • 利用者はIAMロールを切り替えてAthenaを利用する • ロールの切り替えをオフィスのIPからのみに制限 • メインの分析基盤として活用 • アドホックなデータ分析 • KPI/KGIなどの数値集計 • 道路プロファイラー
©NAVITIME JAPAN Web分析ツール導入:2017~2018年 • 導入の背景 • 分析結果を広く共有 • 巨大なエクセル・スプレッドシートからの脱却 •
発散しているデータ・情報の集約 • Re:dash • ダッシュボードツール • KPIダッシュボードなど共有用途 • Re:dashでは限界の場合にTableauを利用 • Tableau(Server) • BIツール • 高度な分析用途
©NAVITIME JAPAN データ分析環境:現在 データセンター データ分析環境 ログデータ 分析用データ EMR EMR オフィス
GCP AWS Athena Web サイト Glue Glue Data Catalog
©NAVITIME JAPAN データ分析環境:現在の課題 • クラウドは歯止めが利かない • 高速化やチューニングを怠ってマシンリソースで解決しがち • 油断するとどんどん増えていくS3サイズ •
終わりなきAthenaの悪質クエリ指導 • パーティションを指定せずに全スキャン • 長期集計の乱発 • 大規模な位置情報を分析・可視化する仕組みがない • 未だにQGIS&PostGIS頼りだが描画速度が大きな課題 • 他のツールは表現力が不足している事が多い
©NAVITIME JAPAN 今後の取り組み • 機械学習系サービスの活用 • Sage Maker • Amazon
Personalize • Amazon Forecast • AWS以外のクラウドベンダーの活用 • 現在はAWS一辺倒になっている • GCP/Azureなど他の選択肢も増やしていきたい
©NAVITIME JAPAN ご清聴ありがとうございました