Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ナビタイムジャパンに集まる移動ビッグデータの分析基盤
Search
NAVITIME JAPAN
PRO
April 25, 2019
Technology
1
200
ナビタイムジャパンに集まる移動ビッグデータの分析基盤
2019/04/25に開催された『データ分析基盤Developers Night〜3社3様分析基盤の変遷〜』の講演資料です。
NAVITIME JAPAN
PRO
April 25, 2019
Tweet
Share
More Decks by NAVITIME JAPAN
See All by NAVITIME JAPAN
つよつよリーダーが 抜けたらどうする? 〜ナビタイムのAgile⽀援組織の変遷〜
navitimejapan
PRO
22
15k
実践ジオフェンス 効率的に開発するために
navitimejapan
PRO
3
450
安全で使いやすいCarPlayアプリの 魅せ方:HIGと実例から学ぶ
navitimejapan
PRO
1
170
見えないユーザの声はログに埋もれている! ~ログから具体的なユーザの体験を数値化した事例紹介~
navitimejapan
PRO
6
2.6k
ユーザーのためなら 『デザイン』 以外にも手を伸ばせる
navitimejapan
PRO
2
1.4k
フツーのIT女子が、 Engineering Managerになるまで
navitimejapan
PRO
3
270
不確実性に打ち勝つOKR戦略/How to manage uncertainty with OKR strategy
navitimejapan
PRO
4
3.4k
アジャイルを小さいままで 組織に広める 二周目 / Agile Transformation in NAVITIME JAPAN iteration 2
navitimejapan
PRO
4
1.3k
変更障害率0%よりも「継続的な学習と実験」を価値とする 〜障害を「起こってはならないもの」としていた組織がDirtの実施に至るまで〜 / DevOps Transformation in NAVITIME JAPAN
navitimejapan
PRO
7
5.4k
Other Decks in Technology
See All in Technology
目標と時間軸 〜ベイビーステップでケイパビリティを高めよう〜
kakehashi
PRO
8
1k
QAエンジニアが スクラムマスターをすると いいなぁと思った話
____rina____
0
130
【Snowflake九州ユーザー会#2】BigQueryとSnowflakeを比較してそれぞれの良し悪しを掴む / BigQuery vs Snowflake: Pros & Cons
civitaspo
2
850
事業モメンタムを生み出すプロダクト開発
macchiitaka
0
110
RayでPHPのデバッグをちょっと快適にする
muno92
PRO
0
200
開発者体験を定量的に把握する手法と活用事例
ham0215
0
140
株式会社Awarefy(アウェアファイ)会社説明資料 / Awarefy-Company-Deck
awarefy
3
12k
OCI Success Journey OCIの何が評価されてる?疑問に答える事例セミナー(2025年2月実施)
oracle4engineer
PRO
2
220
プルリクエストレビューを終わらせるためのチーム体制 / The Team for Completing Pull Request Reviews
nekonenene
3
1.4k
Two Blades, One Journey: Engineering While Managing
ohbarye
4
2.7k
MLflowはどのようにLLMOpsの課題を解決するのか
taka_aki
0
140
Qiita Organizationを導入したら、アウトプッターが爆増して会社がちょっと有名になった件
minorun365
PRO
1
330
Featured
See All Featured
Side Projects
sachag
452
42k
How STYLIGHT went responsive
nonsquared
99
5.4k
Git: the NoSQL Database
bkeepers
PRO
428
65k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
100
18k
How to Ace a Technical Interview
jacobian
276
23k
BBQ
matthewcrist
87
9.5k
Scaling GitHub
holman
459
140k
Bash Introduction
62gerente
611
210k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.5k
Product Roadmaps are Hard
iamctodd
PRO
51
11k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Agile that works and the tools we love
rasmusluckow
328
21k
Transcript
©NAVITIME JAPAN ナビタイムジャパンに集まる 移動ビッグデータの分析基盤 2019/4/25 株式会社ナビタイムジャパン 新立 和広
©NAVITIME JAPAN 自己紹介 新立 和広(しんたて かずひろ) 株式会社ナビタイムジャパン • 2009年入社 •
2014年~2017年までログデータ分析業務に従事 • 現在はデータ分析基盤の設計・構築に従事
©NAVITIME JAPAN 発表内容 • 会社紹介 • ログデータの活用事例 • データ分析環境の変遷
©NAVITIME JAPAN 会社紹介
©NAVITIME JAPAN 会社概要 事業内容 ナビゲーションサイト・アプリの運営・開発 経路探索エンジンのライセンス事業 法人向け経路付地図配信ASP事業 ビジネスナビタイム事業 法人向けソリューション事業 メディア事業
テレマティクス事業 交通コンサルティング事業 海外事業 インバウンド事業 トラベル事業 MaaS事業 会社名 株式会社ナビタイムジャパン 設立 2000年3月 社員数 約500名(2019年3月現在) 5 ナビタイムジャパンの南青山オフィス
©NAVITIME JAPAN あらゆる移動手段、移動のシーンへの対応を目指しています ナビタイムジャパンのコンシューマサービス一覧 有料課金ユーザー数 約480万人 月間ユニークユーザー数 約5,100万人 ※2018年12月末時点 ※2018年12月末時点
6
©NAVITIME JAPAN サービスから集まるログデータ コンシューマサービス NAVITIME 乗換NAVITIME バスNAVITIME カーナビタイム トラックカーナビ 自転車NAVITIME
ツーリングサポーター ➢ 施策の検討 ➢ サービスへの活用 ➢ データ活用ビジネス 移動実績 検索履歴 口コミ情報 匿名化 抽出 分析
©NAVITIME JAPAN ログデータの活用事例
©NAVITIME JAPAN サービスへの活用 NT-FILTER 渋滞予測 ユーザーが走行した道路を地図に反映 道路・時間帯別の混雑度を予測
©NAVITIME JAPAN サービスへの活用 電車混雑予測 1列車・1停車駅ごとの混雑度を予測 電車混雑予測 Travel レコメンド 類似のユーザの検索履歴を参考に お勧めの観光地を提案
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 信号制御分析システム用 民間プローブデータ提供 混雑予報をテレビ提供 2015年度『データなび』他 2016年度『ニュースチェック11』他 平成26年度 訪日外国人動向調査事業
ゴールデンルートにおける移動の分析 および各都市間での移動を分析
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 ウェブ上で簡単に道路交通に関する各種分析ができるWeb分析システム リンク旅行速度 断面交通流 プロファイリング 道路分析システム『道路プロファイラー』 区間所要時間
©NAVITIME JAPAN データ活用ビジネス:交通コンサルティング事業 訪日外国人動態分析システム『インバウンドプロファイラー』 季節別の分析 訪問回数別の分析 時間帯別の分析 国籍別の分析 訪日外国人旅行客の動向を比較・分析できるWeb分析システム
©NAVITIME JAPAN データ分析環境の変遷
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN データ分析環境 Hadoop導入:2014年 データセンター オフィス HDFS ログデータ MapReduce Hive
サーバー • ログデータをファイルサーバー(NFS)に蓄積 • Hadoopを利用して大規模データ処理 • オフィスからデータを取得して分析
©NAVITIME JAPAN Hadoop導入:2014年 • 当初は処理性能に満足していた • 従来は1週間~1ヵ月かかっていた処理が、数時間~数日で完了 • 時が経つと様々な課題が発生 •
Hadoopクラスタの運用ノウハウが少なく、安定稼働しない • 想定を超えるログ量の増加による、ストレージ容量不足 • 用途増加による、性能・処理時間への不満 ⇒安定性と性能の確保が急務
©NAVITIME JAPAN オンプレ増強かクラウド移行か? データ分析はクラウドとの相性が非常に良い • 必要なリソースの変動が激しい • 一部の重い処理に負荷が集中 • 繁忙期に利用が集中
• 夜間・土日はほぼ不要 • ストレージサイズの事前予測が困難 • ログ量は年々増加傾向が続いている • アプリケーションに注力したい • Hadoopの運用管理は専門家に任せたい データ分析環境をAWSへ移行する事に決定
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN AWS移行:2015年 データセンター サーバー データ分析環境 ログデータ 分析用データ EMR EMR
• ログデータをS3に集約してデータレイク化 • EMRを利用して大規模データ処理 • MapReduceによるデータ変換 • Hive/Prestoによる抽出・集計 MapReduce Hive Presto オフィス
©NAVITIME JAPAN AWS移行:2015年 • 当初の狙いは達成 • 数日かかっていた処理が数時間で完了 • 簡易な集計であればPrestoを使えば1分もかからない •
ストレージ容量は実質無制限 • しかし、EMRは手軽さに欠ける • Hadoop自体が使いこなすのは難しい • 適切なリソース調整は経験が必要 • ジョブフローを作成するのに手間がかかる ⇒データを幅広く活用する為には他の選択肢が必要 SQLベースで分析できるSaaSを摸索する事に
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN Treasure Data導入:2016年 • Treasure Dataの特徴 • フルマネージドのデータ分析基盤 •
安定性が高いHiveと高速なPrestoを選択可能 • 入出力の連携先が豊富 • GUIでワークフローを作成可能 • WEBサイトのデータ分析基盤として活用 • Webページからのイベントログの収集 • 他社データとの連携 • データ分析 • 大量の定期集計業務 など
©NAVITIME JAPAN BigQuery導入:2016年 • BigQueryの特徴 • GCPのビッグデータ分析用データウェアハウス • 超高速で殆どのSQLは数秒~数分で完了 •
スキャン量ベースの課金であり、性能を踏まえると安価 • 長期間のアクセスログ集計・分析に活用 • 従来は数時間~1日かかっていた集計が数分以内に完了
©NAVITIME JAPAN BigQueryの課題 • S3からGCPに転送するコストがかかる • 既にDCからS3にログデータを集める運用が確立済 • サービスのクラウド移行も大半はAWS •
位置情報などの機微なデータを扱う為には セキュリティを高めたい • ログデータへのアクセスはオフィスからに限定 • ユーザ毎にデータへのアクセス権を管理 ※これらの機能は2019年4月現在ではBigQueryもサポート済み BigQueryからAmazon Athenaに移行する事に
©NAVITIME JAPAN データ分析環境の変遷 2014年 • Hadoop導入 2015年 • AWS移行 2016年
• TreasureData導入 • BigQuery導入 2017/2018 年 • Athena移行 • Web分析ツール
©NAVITIME JAPAN Athena移行:2017年 • Amazon Athenaの特徴 • AWS版BigQuery • S3上のデータを標準SQLを用いて直接解析できるので、
データインポートが不要 • IAMによる柔軟な権限設定 • 権限管理 • データセット毎にIAMロールを定義 • 利用者はIAMロールを切り替えてAthenaを利用する • ロールの切り替えをオフィスのIPからのみに制限 • メインの分析基盤として活用 • アドホックなデータ分析 • KPI/KGIなどの数値集計 • 道路プロファイラー
©NAVITIME JAPAN Web分析ツール導入:2017~2018年 • 導入の背景 • 分析結果を広く共有 • 巨大なエクセル・スプレッドシートからの脱却 •
発散しているデータ・情報の集約 • Re:dash • ダッシュボードツール • KPIダッシュボードなど共有用途 • Re:dashでは限界の場合にTableauを利用 • Tableau(Server) • BIツール • 高度な分析用途
©NAVITIME JAPAN データ分析環境:現在 データセンター データ分析環境 ログデータ 分析用データ EMR EMR オフィス
GCP AWS Athena Web サイト Glue Glue Data Catalog
©NAVITIME JAPAN データ分析環境:現在の課題 • クラウドは歯止めが利かない • 高速化やチューニングを怠ってマシンリソースで解決しがち • 油断するとどんどん増えていくS3サイズ •
終わりなきAthenaの悪質クエリ指導 • パーティションを指定せずに全スキャン • 長期集計の乱発 • 大規模な位置情報を分析・可視化する仕組みがない • 未だにQGIS&PostGIS頼りだが描画速度が大きな課題 • 他のツールは表現力が不足している事が多い
©NAVITIME JAPAN 今後の取り組み • 機械学習系サービスの活用 • Sage Maker • Amazon
Personalize • Amazon Forecast • AWS以外のクラウドベンダーの活用 • 現在はAWS一辺倒になっている • GCP/Azureなど他の選択肢も増やしていきたい
©NAVITIME JAPAN ご清聴ありがとうございました