Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ナビタイムジャパンに集まる移動ビッグデータの分析基盤
Search
NAVITIME JAPAN
PRO
April 25, 2019
Technology
1
240
ナビタイムジャパンに集まる移動ビッグデータの分析基盤
2019/04/25に開催された『データ分析基盤Developers Night〜3社3様分析基盤の変遷〜』の講演資料です。
NAVITIME JAPAN
PRO
April 25, 2019
Tweet
Share
More Decks by NAVITIME JAPAN
See All by NAVITIME JAPAN
つよつよリーダーが 抜けたらどうする? 〜ナビタイムのAgile⽀援組織の変遷〜
navitimejapan
PRO
23
15k
実践ジオフェンス 効率的に開発するために
navitimejapan
PRO
3
660
安全で使いやすいCarPlayアプリの 魅せ方:HIGと実例から学ぶ
navitimejapan
PRO
1
220
見えないユーザの声はログに埋もれている! ~ログから具体的なユーザの体験を数値化した事例紹介~
navitimejapan
PRO
6
2.8k
ユーザーのためなら 『デザイン』 以外にも手を伸ばせる
navitimejapan
PRO
2
1.5k
フツーのIT女子が、 Engineering Managerになるまで
navitimejapan
PRO
3
340
不確実性に打ち勝つOKR戦略/How to manage uncertainty with OKR strategy
navitimejapan
PRO
4
3.5k
アジャイルを小さいままで 組織に広める 二周目 / Agile Transformation in NAVITIME JAPAN iteration 2
navitimejapan
PRO
4
1.3k
変更障害率0%よりも「継続的な学習と実験」を価値とする 〜障害を「起こってはならないもの」としていた組織がDirtの実施に至るまで〜 / DevOps Transformation in NAVITIME JAPAN
navitimejapan
PRO
7
5.6k
Other Decks in Technology
See All in Technology
SEQUENCE object comparison - db tech showcase 2025 LT2
nori_shinoda
0
190
成長し続けるアプリのためのテストと設計の関係、そして意思決定の記録。
sansantech
PRO
0
130
american airlines®️ USA Contact Numbers: Complete 2025 Support Guide
supportflight
1
110
ビジネス職が分析も担う事業部制組織でのデータ活用の仕組みづくり / Enabling Data Analytics in Business-Led Divisional Organizations
zaimy
1
220
Glacierだからってコストあきらめてない? / JAWS Meet Glacier Cost
taishin
1
170
QuickSight SPICE の効果的な運用戦略~S3 + Athena 構成での実践ノウハウ~/quicksight-spice-s3-athena-best-practices
emiki
0
130
「クラウドコスト絶対削減」を支える技術—FinOpsを超えた徹底的なクラウドコスト削減の実践論
delta_tech
4
180
Rethinking Incident Response: Context-Aware AI in Practice
rrreeeyyy
1
130
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏 / Towards the Next Decade: Enhancing Global Service Reliability
kohbis
2
370
cdk initで生成されるあのファイル達は何なのか/cdk-init-generated-files
tomoki10
0
110
CDKTFについてざっくり理解する!!~CloudFormationからCDKTFへ変換するツールも作ってみた~
masakiokuda
1
180
[ JAWS-UG千葉支部 x 彩の国埼玉支部 ]ムダ遣い卒業!FinOpsで始めるAWSコスト最適化の第一歩
sh_fk2
2
140
Featured
See All Featured
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.4k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Statistics for Hackers
jakevdp
799
220k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.4k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Automating Front-end Workflow
addyosmani
1370
200k
The Invisible Side of Design
smashingmag
301
51k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
980
Docker and Python
trallard
44
3.5k
Transcript
©NAVITIME JAPAN ナビタイムジャパンに集まる 移動ビッグデータの分析基盤 2019/4/25 株式会社ナビタイムジャパン 新立 和広
©NAVITIME JAPAN 自己紹介 新立 和広(しんたて かずひろ) 株式会社ナビタイムジャパン • 2009年入社 •
2014年~2017年までログデータ分析業務に従事 • 現在はデータ分析基盤の設計・構築に従事
©NAVITIME JAPAN 発表内容 • 会社紹介 • ログデータの活用事例 • データ分析環境の変遷
©NAVITIME JAPAN 会社紹介
©NAVITIME JAPAN 会社概要 事業内容 ナビゲーションサイト・アプリの運営・開発 経路探索エンジンのライセンス事業 法人向け経路付地図配信ASP事業 ビジネスナビタイム事業 法人向けソリューション事業 メディア事業
テレマティクス事業 交通コンサルティング事業 海外事業 インバウンド事業 トラベル事業 MaaS事業 会社名 株式会社ナビタイムジャパン 設立 2000年3月 社員数 約500名(2019年3月現在) 5 ナビタイムジャパンの南青山オフィス
©NAVITIME JAPAN あらゆる移動手段、移動のシーンへの対応を目指しています ナビタイムジャパンのコンシューマサービス一覧 有料課金ユーザー数 約480万人 月間ユニークユーザー数 約5,100万人 ※2018年12月末時点 ※2018年12月末時点
6
©NAVITIME JAPAN サービスから集まるログデータ コンシューマサービス NAVITIME 乗換NAVITIME バスNAVITIME カーナビタイム トラックカーナビ 自転車NAVITIME
ツーリングサポーター ➢ 施策の検討 ➢ サービスへの活用 ➢ データ活用ビジネス 移動実績 検索履歴 口コミ情報 匿名化 抽出 分析
©NAVITIME JAPAN ログデータの活用事例
©NAVITIME JAPAN サービスへの活用 NT-FILTER 渋滞予測 ユーザーが走行した道路を地図に反映 道路・時間帯別の混雑度を予測
©NAVITIME JAPAN サービスへの活用 電車混雑予測 1列車・1停車駅ごとの混雑度を予測 電車混雑予測 Travel レコメンド 類似のユーザの検索履歴を参考に お勧めの観光地を提案
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 信号制御分析システム用 民間プローブデータ提供 混雑予報をテレビ提供 2015年度『データなび』他 2016年度『ニュースチェック11』他 平成26年度 訪日外国人動向調査事業
ゴールデンルートにおける移動の分析 および各都市間での移動を分析
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 ウェブ上で簡単に道路交通に関する各種分析ができるWeb分析システム リンク旅行速度 断面交通流 プロファイリング 道路分析システム『道路プロファイラー』 区間所要時間
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 訪日外国人動態分析システム『インバウンドプロファイラー』 季節別の分析 訪問回数別の分析 時間帯別の分析 国籍別の分析 訪日外国人旅行客の動向を比較・分析できるWeb分析システム
©NAVITIME JAPAN データ分析環境の変遷
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN データ分析環境 Hadoop導入:2014年 データセンター オフィス HDFS ログデータ MapReduce Hive
サーバー • ログデータをファイルサーバー(NFS)に蓄積 • Hadoopを利用して大規模データ処理 • オフィスからデータを取得して分析
©NAVITIME JAPAN Hadoop導入:2014年 • 当初は処理性能に満足していた • 従来は1週間~1ヵ月かかっていた処理が、数時間~数日で完了 • 時が経つと様々な課題が発生 •
Hadoopクラスタの運用ノウハウが少なく、安定稼働しない • 想定を超えるログ量の増加による、ストレージ容量不足 • 用途増加による、性能・処理時間への不満 ⇒安定性と性能の確保が急務
©NAVITIME JAPAN オンプレ増強かクラウド移行か? データ分析はクラウドとの相性が非常に良い • 必要なリソースの変動が激しい • 一部の重い処理に負荷が集中 • 繁忙期に利用が集中
• 夜間・土日はほぼ不要 • ストレージサイズの事前予測が困難 • ログ量は年々増加傾向が続いている • アプリケーションに注力したい • Hadoopの運用管理は専門家に任せたい データ分析環境をAWSへ移行する事に決定
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN AWS移行:2015年 データセンター サーバー データ分析環境 ログデータ 分析用データ EMR EMR
• ログデータをS3に集約してデータレイク化 • EMRを利用して大規模データ処理 • MapReduceによるデータ変換 • Hive/Prestoによる抽出・集計 MapReduce Hive Presto オフィス
©NAVITIME JAPAN AWS移行:2015年 • 当初の狙いは達成 • 数日かかっていた処理が数時間で完了 • 簡易な集計であればPrestoを使えば1分もかからない •
ストレージ容量は実質無制限 • しかし、EMRは手軽さに欠ける • Hadoop自体が使いこなすのは難しい • 適切なリソース調整は経験が必要 • ジョブフローを作成するのに手間がかかる ⇒データを幅広く活用する為には他の選択肢が必要 SQLベースで分析できるSaaSを摸索する事に
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN Treasure Data導入:2016年 • Treasure Dataの特徴 • フルマネージドのデータ分析基盤 •
安定性が高いHiveと高速なPrestoを選択可能 • 入出力の連携先が豊富 • GUIでワークフローを作成可能 • WEBサイトのデータ分析基盤として活用 • Webページからのイベントログの収集 • 他社データとの連携 • データ分析 • 大量の定期集計業務 など
©NAVITIME JAPAN BigQuery導入:2016年 • BigQueryの特徴 • GCPのビッグデータ分析用データウェアハウス • 超高速で殆どのSQLは数秒~数分で完了 •
スキャン量ベースの課金であり、性能を踏まえると安価 • 長期間のアクセスログ集計・分析に活用 • 従来は数時間~1日かかっていた集計が数分以内に完了
©NAVITIME JAPAN BigQueryの課題 • S3からGCPに転送するコストがかかる • 既にDCからS3にログデータを集める運用が確立済 • サービスのクラウド移行も大半はAWS •
位置情報などの機微なデータを扱う為には セキュリティを高めたい • ログデータへのアクセスはオフィスからに限定 • ユーザ毎にデータへのアクセス権を管理 ※これらの機能は2019年4月現在ではBigQueryもサポート済み BigQueryからAmazon Athenaに移行する事に
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN Athena移行:2017年 • Amazon Athenaの特徴 • AWS版BigQuery • S3上のデータを標準SQLを用いて直接解析できるので、
データインポートが不要 • IAMによる柔軟な権限設定 • 権限管理 • データセット毎にIAMロールを定義 • 利用者はIAMロールを切り替えてAthenaを利用する • ロールの切り替えをオフィスのIPからのみに制限 • メインの分析基盤として活用 • アドホックなデータ分析 • KPI/KGIなどの数値集計 • 道路プロファイラー
©NAVITIME JAPAN Web分析ツール導入:2017~2018年 • 導入の背景 • 分析結果を広く共有 • 巨大なエクセル・スプレッドシートからの脱却 •
発散しているデータ・情報の集約 • Re:dash • ダッシュボードツール • KPIダッシュボードなど共有用途 • Re:dashでは限界の場合にTableauを利用 • Tableau(Server) • BIツール • 高度な分析用途
©NAVITIME JAPAN データ分析環境:現在 データセンター データ分析環境 ログデータ 分析用データ EMR EMR オフィス
GCP AWS Athena Web サイト Glue Glue Data Catalog
©NAVITIME JAPAN データ分析環境:現在の課題 • クラウドは歯止めが利かない • 高速化やチューニングを怠ってマシンリソースで解決しがち • 油断するとどんどん増えていくS3サイズ •
終わりなきAthenaの悪質クエリ指導 • パーティションを指定せずに全スキャン • 長期集計の乱発 • 大規模な位置情報を分析・可視化する仕組みがない • 未だにQGIS&PostGIS頼りだが描画速度が大きな課題 • 他のツールは表現力が不足している事が多い
©NAVITIME JAPAN 今後の取り組み • 機械学習系サービスの活用 • Sage Maker • Amazon
Personalize • Amazon Forecast • AWS以外のクラウドベンダーの活用 • 現在はAWS一辺倒になっている • GCP/Azureなど他の選択肢も増やしていきたい
©NAVITIME JAPAN ご清聴ありがとうございました