Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ナビタイムジャパンに集まる移動ビッグデータの分析基盤
Search
NAVITIME JAPAN
PRO
April 25, 2019
Technology
1
250
ナビタイムジャパンに集まる移動ビッグデータの分析基盤
2019/04/25に開催された『データ分析基盤Developers Night〜3社3様分析基盤の変遷〜』の講演資料です。
NAVITIME JAPAN
PRO
April 25, 2019
Tweet
Share
More Decks by NAVITIME JAPAN
See All by NAVITIME JAPAN
つよつよリーダーが 抜けたらどうする? 〜ナビタイムのAgile⽀援組織の変遷〜
navitimejapan
PRO
23
15k
実践ジオフェンス 効率的に開発するために
navitimejapan
PRO
3
710
安全で使いやすいCarPlayアプリの 魅せ方:HIGと実例から学ぶ
navitimejapan
PRO
1
240
見えないユーザの声はログに埋もれている! ~ログから具体的なユーザの体験を数値化した事例紹介~
navitimejapan
PRO
6
3k
ユーザーのためなら 『デザイン』 以外にも手を伸ばせる
navitimejapan
PRO
2
1.6k
フツーのIT女子が、 Engineering Managerになるまで
navitimejapan
PRO
3
360
不確実性に打ち勝つOKR戦略/How to manage uncertainty with OKR strategy
navitimejapan
PRO
4
3.6k
アジャイルを小さいままで 組織に広める 二周目 / Agile Transformation in NAVITIME JAPAN iteration 2
navitimejapan
PRO
4
1.3k
変更障害率0%よりも「継続的な学習と実験」を価値とする 〜障害を「起こってはならないもの」としていた組織がDirtの実施に至るまで〜 / DevOps Transformation in NAVITIME JAPAN
navitimejapan
PRO
7
5.6k
Other Decks in Technology
See All in Technology
Codeful Serverless / 一人運用でもやり抜く力
_kensh
6
340
生成AI時代のデータ基盤設計〜ペースレイヤリングで実現する高速開発と持続性〜 / Levtech Meetup_Session_2
sansan_randd
1
140
自作JSエンジンに推しプロポーザルを実装したい!
sajikix
1
160
20250903_1つのAWSアカウントに複数システムがある環境におけるアクセス制御をABACで実現.pdf
yhana
3
480
COVESA VSSによる車両データモデルの標準化とAWS IoT FleetWiseの活用
osawa
1
210
データアナリストからアナリティクスエンジニアになった話
hiyokko_data
2
430
Skrub: machine-learning with dataframes
gaelvaroquaux
0
120
開発者を支える Internal Developer Portal のイマとコレカラ / To-day and To-morrow of Internal Developer Portals: Supporting Developers
aoto
PRO
1
400
フィンテック養成勉強会#56
finengine
0
130
Webブラウザ向け動画配信プレイヤーの 大規模リプレイスから得た知見と学び
yud0uhu
0
210
dbt開発 with Claude Codeのためのガードレール設計
10xinc
1
730
なぜスクラムはこうなったのか?歴史が教えてくれたこと/Shall we explore the roots of Scrum
sanogemaru
5
1.4k
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.1k
Automating Front-end Workflow
addyosmani
1370
200k
A Tale of Four Properties
chriscoyier
160
23k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
GraphQLとの向き合い方2022年版
quramy
49
14k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
A designer walks into a library…
pauljervisheath
207
24k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
The Cost Of JavaScript in 2023
addyosmani
53
8.9k
Transcript
©NAVITIME JAPAN ナビタイムジャパンに集まる 移動ビッグデータの分析基盤 2019/4/25 株式会社ナビタイムジャパン 新立 和広
©NAVITIME JAPAN 自己紹介 新立 和広(しんたて かずひろ) 株式会社ナビタイムジャパン • 2009年入社 •
2014年~2017年までログデータ分析業務に従事 • 現在はデータ分析基盤の設計・構築に従事
©NAVITIME JAPAN 発表内容 • 会社紹介 • ログデータの活用事例 • データ分析環境の変遷
©NAVITIME JAPAN 会社紹介
©NAVITIME JAPAN 会社概要 事業内容 ナビゲーションサイト・アプリの運営・開発 経路探索エンジンのライセンス事業 法人向け経路付地図配信ASP事業 ビジネスナビタイム事業 法人向けソリューション事業 メディア事業
テレマティクス事業 交通コンサルティング事業 海外事業 インバウンド事業 トラベル事業 MaaS事業 会社名 株式会社ナビタイムジャパン 設立 2000年3月 社員数 約500名(2019年3月現在) 5 ナビタイムジャパンの南青山オフィス
©NAVITIME JAPAN あらゆる移動手段、移動のシーンへの対応を目指しています ナビタイムジャパンのコンシューマサービス一覧 有料課金ユーザー数 約480万人 月間ユニークユーザー数 約5,100万人 ※2018年12月末時点 ※2018年12月末時点
6
©NAVITIME JAPAN サービスから集まるログデータ コンシューマサービス NAVITIME 乗換NAVITIME バスNAVITIME カーナビタイム トラックカーナビ 自転車NAVITIME
ツーリングサポーター ➢ 施策の検討 ➢ サービスへの活用 ➢ データ活用ビジネス 移動実績 検索履歴 口コミ情報 匿名化 抽出 分析
©NAVITIME JAPAN ログデータの活用事例
©NAVITIME JAPAN サービスへの活用 NT-FILTER 渋滞予測 ユーザーが走行した道路を地図に反映 道路・時間帯別の混雑度を予測
©NAVITIME JAPAN サービスへの活用 電車混雑予測 1列車・1停車駅ごとの混雑度を予測 電車混雑予測 Travel レコメンド 類似のユーザの検索履歴を参考に お勧めの観光地を提案
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 信号制御分析システム用 民間プローブデータ提供 混雑予報をテレビ提供 2015年度『データなび』他 2016年度『ニュースチェック11』他 平成26年度 訪日外国人動向調査事業
ゴールデンルートにおける移動の分析 および各都市間での移動を分析
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 ウェブ上で簡単に道路交通に関する各種分析ができるWeb分析システム リンク旅行速度 断面交通流 プロファイリング 道路分析システム『道路プロファイラー』 区間所要時間
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 訪日外国人動態分析システム『インバウンドプロファイラー』 季節別の分析 訪問回数別の分析 時間帯別の分析 国籍別の分析 訪日外国人旅行客の動向を比較・分析できるWeb分析システム
©NAVITIME JAPAN データ分析環境の変遷
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN データ分析環境 Hadoop導入:2014年 データセンター オフィス HDFS ログデータ MapReduce Hive
サーバー • ログデータをファイルサーバー(NFS)に蓄積 • Hadoopを利用して大規模データ処理 • オフィスからデータを取得して分析
©NAVITIME JAPAN Hadoop導入:2014年 • 当初は処理性能に満足していた • 従来は1週間~1ヵ月かかっていた処理が、数時間~数日で完了 • 時が経つと様々な課題が発生 •
Hadoopクラスタの運用ノウハウが少なく、安定稼働しない • 想定を超えるログ量の増加による、ストレージ容量不足 • 用途増加による、性能・処理時間への不満 ⇒安定性と性能の確保が急務
©NAVITIME JAPAN オンプレ増強かクラウド移行か? データ分析はクラウドとの相性が非常に良い • 必要なリソースの変動が激しい • 一部の重い処理に負荷が集中 • 繁忙期に利用が集中
• 夜間・土日はほぼ不要 • ストレージサイズの事前予測が困難 • ログ量は年々増加傾向が続いている • アプリケーションに注力したい • Hadoopの運用管理は専門家に任せたい データ分析環境をAWSへ移行する事に決定
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN AWS移行:2015年 データセンター サーバー データ分析環境 ログデータ 分析用データ EMR EMR
• ログデータをS3に集約してデータレイク化 • EMRを利用して大規模データ処理 • MapReduceによるデータ変換 • Hive/Prestoによる抽出・集計 MapReduce Hive Presto オフィス
©NAVITIME JAPAN AWS移行:2015年 • 当初の狙いは達成 • 数日かかっていた処理が数時間で完了 • 簡易な集計であればPrestoを使えば1分もかからない •
ストレージ容量は実質無制限 • しかし、EMRは手軽さに欠ける • Hadoop自体が使いこなすのは難しい • 適切なリソース調整は経験が必要 • ジョブフローを作成するのに手間がかかる ⇒データを幅広く活用する為には他の選択肢が必要 SQLベースで分析できるSaaSを摸索する事に
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN Treasure Data導入:2016年 • Treasure Dataの特徴 • フルマネージドのデータ分析基盤 •
安定性が高いHiveと高速なPrestoを選択可能 • 入出力の連携先が豊富 • GUIでワークフローを作成可能 • WEBサイトのデータ分析基盤として活用 • Webページからのイベントログの収集 • 他社データとの連携 • データ分析 • 大量の定期集計業務 など
©NAVITIME JAPAN BigQuery導入:2016年 • BigQueryの特徴 • GCPのビッグデータ分析用データウェアハウス • 超高速で殆どのSQLは数秒~数分で完了 •
スキャン量ベースの課金であり、性能を踏まえると安価 • 長期間のアクセスログ集計・分析に活用 • 従来は数時間~1日かかっていた集計が数分以内に完了
©NAVITIME JAPAN BigQueryの課題 • S3からGCPに転送するコストがかかる • 既にDCからS3にログデータを集める運用が確立済 • サービスのクラウド移行も大半はAWS •
位置情報などの機微なデータを扱う為には セキュリティを高めたい • ログデータへのアクセスはオフィスからに限定 • ユーザ毎にデータへのアクセス権を管理 ※これらの機能は2019年4月現在ではBigQueryもサポート済み BigQueryからAmazon Athenaに移行する事に
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN Athena移行:2017年 • Amazon Athenaの特徴 • AWS版BigQuery • S3上のデータを標準SQLを用いて直接解析できるので、
データインポートが不要 • IAMによる柔軟な権限設定 • 権限管理 • データセット毎にIAMロールを定義 • 利用者はIAMロールを切り替えてAthenaを利用する • ロールの切り替えをオフィスのIPからのみに制限 • メインの分析基盤として活用 • アドホックなデータ分析 • KPI/KGIなどの数値集計 • 道路プロファイラー
©NAVITIME JAPAN Web分析ツール導入:2017~2018年 • 導入の背景 • 分析結果を広く共有 • 巨大なエクセル・スプレッドシートからの脱却 •
発散しているデータ・情報の集約 • Re:dash • ダッシュボードツール • KPIダッシュボードなど共有用途 • Re:dashでは限界の場合にTableauを利用 • Tableau(Server) • BIツール • 高度な分析用途
©NAVITIME JAPAN データ分析環境:現在 データセンター データ分析環境 ログデータ 分析用データ EMR EMR オフィス
GCP AWS Athena Web サイト Glue Glue Data Catalog
©NAVITIME JAPAN データ分析環境:現在の課題 • クラウドは歯止めが利かない • 高速化やチューニングを怠ってマシンリソースで解決しがち • 油断するとどんどん増えていくS3サイズ •
終わりなきAthenaの悪質クエリ指導 • パーティションを指定せずに全スキャン • 長期集計の乱発 • 大規模な位置情報を分析・可視化する仕組みがない • 未だにQGIS&PostGIS頼りだが描画速度が大きな課題 • 他のツールは表現力が不足している事が多い
©NAVITIME JAPAN 今後の取り組み • 機械学習系サービスの活用 • Sage Maker • Amazon
Personalize • Amazon Forecast • AWS以外のクラウドベンダーの活用 • 現在はAWS一辺倒になっている • GCP/Azureなど他の選択肢も増やしていきたい
©NAVITIME JAPAN ご清聴ありがとうございました