Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ナビタイムジャパンに集まる移動ビッグデータの分析基盤
Search
NAVITIME JAPAN
PRO
April 25, 2019
Technology
1
170
ナビタイムジャパンに集まる移動ビッグデータの分析基盤
2019/04/25に開催された『データ分析基盤Developers Night〜3社3様分析基盤の変遷〜』の講演資料です。
NAVITIME JAPAN
PRO
April 25, 2019
Tweet
Share
More Decks by NAVITIME JAPAN
See All by NAVITIME JAPAN
つよつよリーダーが 抜けたらどうする? 〜ナビタイムのAgile⽀援組織の変遷〜
navitimejapan
PRO
22
14k
実践ジオフェンス 効率的に開発するために
navitimejapan
PRO
3
260
安全で使いやすいCarPlayアプリの 魅せ方:HIGと実例から学ぶ
navitimejapan
PRO
1
88
見えないユーザの声はログに埋もれている! ~ログから具体的なユーザの体験を数値化した事例紹介~
navitimejapan
PRO
6
2.3k
ユーザーのためなら 『デザイン』 以外にも手を伸ばせる
navitimejapan
PRO
2
1.3k
フツーのIT女子が、 Engineering Managerになるまで
navitimejapan
PRO
3
220
不確実性に打ち勝つOKR戦略/How to manage uncertainty with OKR strategy
navitimejapan
PRO
4
3.2k
アジャイルを小さいままで 組織に広める 二周目 / Agile Transformation in NAVITIME JAPAN iteration 2
navitimejapan
PRO
4
1.2k
変更障害率0%よりも「継続的な学習と実験」を価値とする 〜障害を「起こってはならないもの」としていた組織がDirtの実施に至るまで〜 / DevOps Transformation in NAVITIME JAPAN
navitimejapan
PRO
7
5.2k
Other Decks in Technology
See All in Technology
iOS/Androidで同じUI体験をネ イティブで作成する際に気をつ けたい落とし穴
fumiyasac0921
1
110
テストコード品質を高めるためにMutation Testingライブラリ・Strykerを実戦導入してみた話
ysknsid25
7
2.6k
CysharpのOSS群から見るModern C#の現在地
neuecc
2
3.4k
【令和最新版】AWS Direct Connectと愉快なGWたちのおさらい
minorun365
PRO
5
750
DynamoDB でスロットリングが発生したとき_大盛りver/when_throttling_occurs_in_dynamodb_long
emiki
1
400
B2B SaaSから見た最近のC#/.NETの進化
sansantech
PRO
0
850
AWS Lambda のトラブルシュートをしていて思うこと
kazzpapa3
2
180
Incident Response Practices: Waroom's Features and Future Challenges
rrreeeyyy
0
160
iOSチームとAndroidチームでブランチ運用が違ったので整理してます
sansantech
PRO
0
140
初心者向けAWS Securityの勉強会mini Security-JAWSを9ヶ月ぐらい実施してきての近況
cmusudakeisuke
0
130
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間
oracle4engineer
PRO
28
13k
SRE×AIOpsを始めよう!GuardDutyによるお手軽脅威検出
amixedcolor
0
130
Featured
See All Featured
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Code Review Best Practice
trishagee
64
17k
Statistics for Hackers
jakevdp
796
220k
Site-Speed That Sticks
csswizardry
0
26
Music & Morning Musume
bryan
46
6.2k
Art, The Web, and Tiny UX
lynnandtonic
297
20k
10 Git Anti Patterns You Should be Aware of
lemiorhan
654
59k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
What's in a price? How to price your products and services
michaelherold
243
12k
How STYLIGHT went responsive
nonsquared
95
5.2k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Transcript
©NAVITIME JAPAN ナビタイムジャパンに集まる 移動ビッグデータの分析基盤 2019/4/25 株式会社ナビタイムジャパン 新立 和広
©NAVITIME JAPAN 自己紹介 新立 和広(しんたて かずひろ) 株式会社ナビタイムジャパン • 2009年入社 •
2014年~2017年までログデータ分析業務に従事 • 現在はデータ分析基盤の設計・構築に従事
©NAVITIME JAPAN 発表内容 • 会社紹介 • ログデータの活用事例 • データ分析環境の変遷
©NAVITIME JAPAN 会社紹介
©NAVITIME JAPAN 会社概要 事業内容 ナビゲーションサイト・アプリの運営・開発 経路探索エンジンのライセンス事業 法人向け経路付地図配信ASP事業 ビジネスナビタイム事業 法人向けソリューション事業 メディア事業
テレマティクス事業 交通コンサルティング事業 海外事業 インバウンド事業 トラベル事業 MaaS事業 会社名 株式会社ナビタイムジャパン 設立 2000年3月 社員数 約500名(2019年3月現在) 5 ナビタイムジャパンの南青山オフィス
©NAVITIME JAPAN あらゆる移動手段、移動のシーンへの対応を目指しています ナビタイムジャパンのコンシューマサービス一覧 有料課金ユーザー数 約480万人 月間ユニークユーザー数 約5,100万人 ※2018年12月末時点 ※2018年12月末時点
6
©NAVITIME JAPAN サービスから集まるログデータ コンシューマサービス NAVITIME 乗換NAVITIME バスNAVITIME カーナビタイム トラックカーナビ 自転車NAVITIME
ツーリングサポーター ➢ 施策の検討 ➢ サービスへの活用 ➢ データ活用ビジネス 移動実績 検索履歴 口コミ情報 匿名化 抽出 分析
©NAVITIME JAPAN ログデータの活用事例
©NAVITIME JAPAN サービスへの活用 NT-FILTER 渋滞予測 ユーザーが走行した道路を地図に反映 道路・時間帯別の混雑度を予測
©NAVITIME JAPAN サービスへの活用 電車混雑予測 1列車・1停車駅ごとの混雑度を予測 電車混雑予測 Travel レコメンド 類似のユーザの検索履歴を参考に お勧めの観光地を提案
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 信号制御分析システム用 民間プローブデータ提供 混雑予報をテレビ提供 2015年度『データなび』他 2016年度『ニュースチェック11』他 平成26年度 訪日外国人動向調査事業
ゴールデンルートにおける移動の分析 および各都市間での移動を分析
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 ウェブ上で簡単に道路交通に関する各種分析ができるWeb分析システム リンク旅行速度 断面交通流 プロファイリング 道路分析システム『道路プロファイラー』 区間所要時間
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 訪日外国人動態分析システム『インバウンドプロファイラー』 季節別の分析 訪問回数別の分析 時間帯別の分析 国籍別の分析 訪日外国人旅行客の動向を比較・分析できるWeb分析システム
©NAVITIME JAPAN データ分析環境の変遷
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN データ分析環境 Hadoop導入:2014年 データセンター オフィス HDFS ログデータ MapReduce Hive
サーバー • ログデータをファイルサーバー(NFS)に蓄積 • Hadoopを利用して大規模データ処理 • オフィスからデータを取得して分析
©NAVITIME JAPAN Hadoop導入:2014年 • 当初は処理性能に満足していた • 従来は1週間~1ヵ月かかっていた処理が、数時間~数日で完了 • 時が経つと様々な課題が発生 •
Hadoopクラスタの運用ノウハウが少なく、安定稼働しない • 想定を超えるログ量の増加による、ストレージ容量不足 • 用途増加による、性能・処理時間への不満 ⇒安定性と性能の確保が急務
©NAVITIME JAPAN オンプレ増強かクラウド移行か? データ分析はクラウドとの相性が非常に良い • 必要なリソースの変動が激しい • 一部の重い処理に負荷が集中 • 繁忙期に利用が集中
• 夜間・土日はほぼ不要 • ストレージサイズの事前予測が困難 • ログ量は年々増加傾向が続いている • アプリケーションに注力したい • Hadoopの運用管理は専門家に任せたい データ分析環境をAWSへ移行する事に決定
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN AWS移行:2015年 データセンター サーバー データ分析環境 ログデータ 分析用データ EMR EMR
• ログデータをS3に集約してデータレイク化 • EMRを利用して大規模データ処理 • MapReduceによるデータ変換 • Hive/Prestoによる抽出・集計 MapReduce Hive Presto オフィス
©NAVITIME JAPAN AWS移行:2015年 • 当初の狙いは達成 • 数日かかっていた処理が数時間で完了 • 簡易な集計であればPrestoを使えば1分もかからない •
ストレージ容量は実質無制限 • しかし、EMRは手軽さに欠ける • Hadoop自体が使いこなすのは難しい • 適切なリソース調整は経験が必要 • ジョブフローを作成するのに手間がかかる ⇒データを幅広く活用する為には他の選択肢が必要 SQLベースで分析できるSaaSを摸索する事に
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN Treasure Data導入:2016年 • Treasure Dataの特徴 • フルマネージドのデータ分析基盤 •
安定性が高いHiveと高速なPrestoを選択可能 • 入出力の連携先が豊富 • GUIでワークフローを作成可能 • WEBサイトのデータ分析基盤として活用 • Webページからのイベントログの収集 • 他社データとの連携 • データ分析 • 大量の定期集計業務 など
©NAVITIME JAPAN BigQuery導入:2016年 • BigQueryの特徴 • GCPのビッグデータ分析用データウェアハウス • 超高速で殆どのSQLは数秒~数分で完了 •
スキャン量ベースの課金であり、性能を踏まえると安価 • 長期間のアクセスログ集計・分析に活用 • 従来は数時間~1日かかっていた集計が数分以内に完了
©NAVITIME JAPAN BigQueryの課題 • S3からGCPに転送するコストがかかる • 既にDCからS3にログデータを集める運用が確立済 • サービスのクラウド移行も大半はAWS •
位置情報などの機微なデータを扱う為には セキュリティを高めたい • ログデータへのアクセスはオフィスからに限定 • ユーザ毎にデータへのアクセス権を管理 ※これらの機能は2019年4月現在ではBigQueryもサポート済み BigQueryからAmazon Athenaに移行する事に
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN Athena移行:2017年 • Amazon Athenaの特徴 • AWS版BigQuery • S3上のデータを標準SQLを用いて直接解析できるので、
データインポートが不要 • IAMによる柔軟な権限設定 • 権限管理 • データセット毎にIAMロールを定義 • 利用者はIAMロールを切り替えてAthenaを利用する • ロールの切り替えをオフィスのIPからのみに制限 • メインの分析基盤として活用 • アドホックなデータ分析 • KPI/KGIなどの数値集計 • 道路プロファイラー
©NAVITIME JAPAN Web分析ツール導入:2017~2018年 • 導入の背景 • 分析結果を広く共有 • 巨大なエクセル・スプレッドシートからの脱却 •
発散しているデータ・情報の集約 • Re:dash • ダッシュボードツール • KPIダッシュボードなど共有用途 • Re:dashでは限界の場合にTableauを利用 • Tableau(Server) • BIツール • 高度な分析用途
©NAVITIME JAPAN データ分析環境:現在 データセンター データ分析環境 ログデータ 分析用データ EMR EMR オフィス
GCP AWS Athena Web サイト Glue Glue Data Catalog
©NAVITIME JAPAN データ分析環境:現在の課題 • クラウドは歯止めが利かない • 高速化やチューニングを怠ってマシンリソースで解決しがち • 油断するとどんどん増えていくS3サイズ •
終わりなきAthenaの悪質クエリ指導 • パーティションを指定せずに全スキャン • 長期集計の乱発 • 大規模な位置情報を分析・可視化する仕組みがない • 未だにQGIS&PostGIS頼りだが描画速度が大きな課題 • 他のツールは表現力が不足している事が多い
©NAVITIME JAPAN 今後の取り組み • 機械学習系サービスの活用 • Sage Maker • Amazon
Personalize • Amazon Forecast • AWS以外のクラウドベンダーの活用 • 現在はAWS一辺倒になっている • GCP/Azureなど他の選択肢も増やしていきたい
©NAVITIME JAPAN ご清聴ありがとうございました