Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
位置情報ビッグデータをインタラクティブに分析できるようになるまで
Search
NAVITIME JAPAN
PRO
October 04, 2017
Research
0
10
位置情報ビッグデータをインタラクティブに分析できるようになるまで
Minami Aoyama Night#4での発表資料です。
NAVITIME JAPAN
PRO
October 04, 2017
Tweet
Share
More Decks by NAVITIME JAPAN
See All by NAVITIME JAPAN
ユーザーのためなら 『デザイン』 以外にも手を伸ばせる
navitimejapan
PRO
2
750
フツーのIT女子が、 Engineering Managerになるまで
navitimejapan
PRO
3
76
不確実性に打ち勝つOKR戦略/How to manage uncertainty with OKR strategy
navitimejapan
PRO
4
2.8k
アジャイルを小さいままで 組織に広める 二周目 / Agile Transformation in NAVITIME JAPAN iteration 2
navitimejapan
PRO
4
1.1k
変更障害率0%よりも「継続的な学習と実験」を価値とする 〜障害を「起こってはならないもの」としていた組織がDirtの実施に至るまで〜 / DevOps Transformation in NAVITIME JAPAN
navitimejapan
PRO
6
4.6k
こうしてふりかえりは終わってしまった / A Demise of a retrospective
navitimejapan
PRO
42
26k
もーひとつの時間がない症候群 / Yet Another SOT Syndrome
navitimejapan
PRO
1
2k
シーズン2〜スクラムチームのバトンを渡す〜 / Season 2 -pass the button of a scrum team-
navitimejapan
PRO
2
2.8k
チームのパフォーマンスを引き出す、ワクワクするプロダクトゴール、OKR / Waku-waku Product Goal and OKR
navitimejapan
PRO
17
17k
Other Decks in Research
See All in Research
Prompt Tuning から Fine Tuning への移行時期推定
icoxfog417
17
7k
Julia Tokyo #11 トーク: 「Juliaで歩く自動微分」
abap34
2
1.3k
My Journey as a UX Researcher
aranciap
0
1.1k
Breaking Tradeoffs: Extremely Scalable Multi-Agent Pathfinding Algorithms
kei18
0
140
一般化ランダムフォレストの理論と統計的因果推論への応用
tomoshige_n
10
1.8k
ゼロからわかるリザバーコンピューティング
kurotaky
1
290
Combating Misinformation in the age of LLMs
teacherpeterpan
0
130
デフスポーツにおける支援技術 〜競技特性・ルールと技術との関係〜
slab
0
210
音声処理ツールキットESPnetの現在と未来
kanbayashi1125
2
540
「歴史的農業環境閲覧システム」と「迅速測図」について
wata909
1
600
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
9
2.9k
動物倫理学ことはじめ:人間以外の動物との倫理的な付き合い方を考える
takeshit_m
0
290
Featured
See All Featured
Optimising Largest Contentful Paint
csswizardry
8
2.4k
How GitHub Uses GitHub to Build GitHub
holman
468
290k
Being A Developer After 40
akosma
57
580k
Bootstrapping a Software Product
garrettdimon
PRO
302
110k
Design by the Numbers
sachag
274
18k
How to train your dragon (web standard)
notwaldorf
73
5.2k
Rebuilding a faster, lazier Slack
samanthasiow
73
8.2k
How to name files
jennybc
65
93k
Thoughts on Productivity
jonyablonski
58
3.8k
Designing Experiences People Love
moore
136
23k
Docker and Python
trallard
34
2.7k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
322
20k
Transcript
位置情報ビッグデータをインタラクティブに分析できるようになるまで 株式会社ナビタイムジャパン 交通コンサルティング事業部 塚本 周平 1
自己紹介 2
自己紹介 塚本 周平 株式会社ナビタイムジャパン • 交通コンサルティング事業部 • 2016年入社 • プログラマー
◦ データ分析, データ分析アプリケーション開発 etc... 3
交通コンサルティング 事業紹介 4
交通コンサルティング事業紹介 5
交通コンサルティング事業紹介 業務事例 • 主なクライアント ◦ 官公庁 ◦ 自治体 ◦ 道路事業者
◦ 公共交通事業者 ◦ 大学 ◦ コンサルタント ◦ etc... 6
分析事例 • 経路検索条件データ ◦ 検索ログをアソシエーション分析 ◦ アウトレット間の競合関係を可視化 交通コンサルティング事業紹介 [ 発表先
] 第54回土木計画学研究発表会 論文: http://consulting.navitime.biz/pdf/monograph_20 161105_1.pdf 発表資料: http://consulting.navitime.biz/pdf/presentation_2 0161105_1.pdf 7
分析の進め方 8
• 仮説検証サイクルを繰り返す事で分析を行う ◦ サイクルを繰り返すほど分析が深度化 分析の進め方 データ作成 仮説立案 可視化 検証 交通コンサルタントに
よる仮説設定 ビッグデータから 分析対象を抽出 データのグラフ化 / 地図上へ描画 仮説の妥当性を検証 できる限り高速にサイクルを回し たい 9
• 工程ごとに要求されるスキルセットが異なる 仮説立案 データ作成 可視化 検証 Data Engineers Data Visualization
Engeneers Data Scientists 分析の進め方 10
• 受注業務の場合、クライアントと分析要件の調整が必要 分析の進め方 Clients 11
• 分析業務をクライアントが行う場合も、営業工数が発生 仮説立案 データ作成 可視化 検証 Data Engineers Data Visualization
Engeneers Clients 分析の進め方 Sales 12
分析の進め方 ボトルネック • エンジニアリングコスト • 営業コスト • チーム内のコミュニケーションコスト • クライアントとの調整コスト
13
クライアントが、データホルダーのように自由に分析できるシステムを作りたい 仮説立案 データ作成 可視化 検証 Data Analyzing System Clients /
Data Scientists 分析の進め方 14
システム化検討 15
システム化検討 「仮説立案」・「検証」以外のコストを無くす • 「データ作成」・「可視化」を、ワンストップアプリケーション化 ◦ プログラミングレスで分析可能 • アプリケーションをクライアントが直接利用可能 ◦ データホルダーのように自由に分析可能
16
システム化検討 機能要件 • インタラクティブ性 ◦ クライアントがGUIから任意に選択した条件でデータ分析を実施 • 大容量データ描画 ◦ 日本全国の道路ネットワークデータを地図上に描画
• 高速集計 ◦ ユーザーが待てる時間内に描画データを集計 17
システム化検討 技術課題 • 地図描画 ◦ インタラクティブ性 ◦ 大容量データ描画 • 高速集計
◦ 処理リードタイム ◦ 安定性 ◦ 運用費 18
System Architecture システム化検討 Client Map Server Data Server 19
技術検討 - 地図描画編 - 20
技術検討 - 地図描画編 - 技術課題 • インタラクティブ性 ◦ クライアントがGUIから任意に選択した条件でデータ分析を実施 •
大容量データ描画 ◦ 日本全国の道路ネットワークデータを地図上に描画 21
技術検討 - 地図描画編 - QGIS • 幅広い位置情報データ形式に対応 ◦ Shape File,
csv, Spatial database etc... • WMS形式での地図配信が可能 ◦ QGIS Web • 社内利用実績有り ◦ 大容量データもある程度表示可能 × インタラクティブな 地図描画形式には未対応 22
技術検討 - 地図描画編 - Raster Tiles • タイル形式 • 画像データ
◦ png, jpeg etc... • ブラウザに表示される • データのみ配信 × 地図上の道路データに対し イベント登録ができない 23
技術検討 - 地図描画編 - GeoJSON • 空間データをJSON形式で記述 • イベント登録可能 ◦
地物(道路や建物データ)をsvgやcanvasの要素として ◦ を扱う事ができる × 大容量データを描画できない { "type": "Feature", "geometry": { "type": "Point", "coordinates": [125.6, 10.1] }, "properties": { "name": "Dinagat Islands" } } 24
技術検討 - 地図描画編 - こんなデータ形式があれば・・・ • Raster Tilesのように、画面上に表示するデータのみ配信 • GeoJSON(+JavaScript)のようにHTMLの要素として地図データを扱える
25
技術検討 - 地図描画編 - あった! 26
技術検討 - 地図描画編 - Vector Tiles GvunAngCCgtsaW5rL W1hc3RlciiAIBoIY2FyX 29ubHkiAiAAGglkZXN0 X25vZGUiAiBCGglkdW
FsX2xpbmsiAiBtGg1sY W5lX251bV9jb2RlIgIgA hoGbGVuZ3RoIgIgSho EbGluayIDIKAdGglsaW 5rX3R5cGUaCmxpbmtf dH 27
技術検討 - 地図描画編 - Vector Tiles • ブラウザに表示されるデータのみ配信 • Javascriptの地図ライブラリ等を用いて地図上に可視化
◦ Leaflet, OpenLayers etc... • イベント登録可能 ◦ SVBやCanvasの要素として地物を扱う事ができる ◎ インタラクティブ性 ◎ 大容量データ描画 28
地図配信形式にVector Tilesを採用 技術検討 - 地図描画編 - インタラクティブ性 大容量データ描画 QGIS ×
△ Raster Tiles × ◦ GeoJSON ◦ × Vector Tiles ◦ ◦ 29
技術検討 - 地図描画編 - Amazon RDS for PostgreSQL • 描画用データの格納
• PostgreSQL上で空間演算できるPostGISを利用 • 将来的にAWS Aurora for PostgreSQLに移行したい ◦ ダウンタイム無しで拡張可能 ◦ 処理性能向上 ◦ 東京リージョンでは未公開 30
System Architecture システム化検討 Client Map Server Vector Tiles Map DB
Server Data Server 31
技術検討 - 高速集計編 - 32
技術検討 - 高速集計編 - 前提 • Javaで書かれた処理とSQLで書かれた処理が存在する ◦ それぞれが動く分散処理環境が必要 •
リクエストを常に待ち受ける必要有り 要求 • リードタイム低 • 運用費安 33
技術検討 - 高速集計編 - Java分散処理フレームワーク 34
技術検討 - 高速集計編 - Hadoop • 言わずと知れた分散処理FW • 社内実績多数 ×
ジョブ毎にI/Oオーバーヘッド が発生 リードタイムが要求に満たない 35
技術検討 - 高速集計編 - Spark • Hadoopに次ぐ分散処理FWの雄 • インメモリ処理のためI/Oオーバーヘッド低減 ◎リードタイム低
△常時インスタンスを起動する 必 要有り 36
• Java分散処理にSparkを採用 技術検討 - 高速集計編 - リードタイム 運用費 Java Hadoop
△ △ Spark ◦ △ 37
技術検討 - 高速集計編 - SQL分散処理フレームワーク 38
技術検討 - 高速集計編 - Hive • hadoopクラスタ上で動作 • HiveQLと呼ばれるSQLライクな言語を使用 •
社内実績多数 × hadoop同様、 リードタイムが要求に満たない 39
技術検討 - 高速集計編 - Presto • Facebook社が開発した高速分散DB • ANSI SQL
標準をサポート • HDFSやAmazon s3上のデータを処理可能 ◦ Hiveと同一データソースを利用できる ◎ リードタイム低 △ インスタンスを常時起動する 必要が有るため、運用費高 40
技術検討 - 高速集計編 - Amazon Athena • Amazon AWS上で利用できる高速分散DB ◦
実行エンジンにPrestoが採用されている • Amazon s3上のデータを処理可能 • クエリ課金 ◦ インスタンスを常時起動する必要が無い ◎ リードタイム低 ◎ 運用費低 41
• SQL分散処理にAmazon Athenaを採用 技術検討 - 高速集計編 - リードタイム 運用費 Java
Hadoop △ △ Spark ◦ △ SQL Hive △ △ Presto ◦ △ Amazon Athena ◦ ◦ 42
システム化検討 System Architecture Client Map Server Vector Tiles Data Server
Map DB Server Data Store 43
道路プロファイラー 44
道路プロファイラー 45
道路プロファイラー 利用データ 46
論文発表 道路プロファイラー [ 発表先 ]第55回土木計画学研究発表会 論文: http://consulting.navitime.biz/pdf/monograph_ 20170610_1.pdf 発表資料: http://consulting.navitime.biz/pdf/presentation
_20170610_1.pdf 47
道路プロファイラー ケーススタディ 48
ご清聴ありがとうございました。 49