Upgrade to Pro — share decks privately, control downloads, hide ads and more …

位置情報ビッグデータ分析の舞台裏

 位置情報ビッグデータ分析の舞台裏

Minami Aoyama Night#4での発表資料です。

NAVITIME JAPAN
PRO

October 04, 2017
Tweet

More Decks by NAVITIME JAPAN

Other Decks in Research

Transcript

  1. 位置情報ビッグデータ分析の
    舞台裏
    望月 優
    2017/09/15 Minami Aoyama Night #4

    View Slide

  2. Speaker
    望月 優 (もちづき ゆう)
    ● 株式会社ナビタイムジャパン
    ○ 2014 年入社
    ○ 交通コンサルティング事業 開発リーダー
    ○ データ分析業務, データ分析基盤構築業務など

    View Slide

  3. Our Work

    View Slide

  4. Our Company

    View Slide

  5. Our Business

    View Slide

  6. Our Business
    交通・地域の最適化によって, 安心して移動できる社会を目指す.

    View Slide

  7. Our Data Resources

    View Slide

  8. Our Data Analysis
    分析事例: 交差点通過にかかる所要時間
    第 34 回交通工学研究発表会
    論文:
    http://consulting.navitime.biz/pdf/m
    onograph_20140807.pdf
    発表資料:
    http://consulting.navitime.biz/pdf/p
    resentation_20140807.pdf

    View Slide

  9. Our Data Analysis
    分析事例: 目的地アソシエーション分析
    第 12 回観光情報学会全国大会
    論文:
    http://consulting.navitime.biz/pdf/mon
    ograph_20161105_1.pdf
    発表資料:
    http://consulting.navitime.biz/pdf/pres
    entation_20161105_1.pdf

    View Slide

  10. Our Data Analysis
    分析事例: 訪日外国人の滞在先分析
    第 12 回観光情報学会全国大会
    論文:
    http://consulting.navitime.biz/pdf/mon
    ograph_20150619_01.pdf
    発表資料:
    http://consulting.navitime.biz/pdf/pres
    entation_20150619_01.pdf

    View Slide

  11. Infrastructure for Analysis

    View Slide

  12. Analysis Flow
    ● SQL-Based Analysis
    Log Collection Preprocessing Analysis Environment
    Software
    Infrastructure

    View Slide

  13. Spatial Operations
    ● GIS (Geographic Informaton Systems)
    ○ 地理情報システム. 地理情報をうまいこと取り扱う枠組みを指す .
    ■ 作成する, 保存する, 描画する, 演算する, etc.
    ○ しばしば利用されるベクタ表現方法
    ■ 位置は緯度・経度を座標として表現される .
    ■ 地域の形状はポリゴンとして提供される .
    ● たとえば: http://nlftp.mlit.go.jp/ksj/gml/datalist/KsjTmplt-N03-v2_3.html
    ○ 参考) http://www.gsi.go.jp/GIS/whatisgis.html

    View Slide

  14. Spatial Operations
    ● PostGIS, or other GEOS Bindings
    ○ Shapely, for Python

    View Slide

  15. Visualization
    ● QGIS, for Reporting

    View Slide

  16. Visualization
    ● QGIS Web Client, for Interactive Reporting

    View Slide

  17. Visualization
    ● Original Web Systems, in the NEAR FUTURE

    View Slide

  18. Development

    View Slide

  19. 位置データの意味付け
    ● 位置の意味付け
    ○ 住所 / 地域メッシュ
    ○ どの施設 / どの道路
    ● 移動の意味付け
    ○ 移動しようとした / 移動しようとしたが結局しなかった / 実際に移動した
    ○ 通過した / しばらく滞在した / 住み着いた
    ○ 順調に通過した / 通過に苦労した
    ○ どこから来た / どこへ行った

    View Slide

  20. 技術的困難
    ● 空間演算は高コスト
    ○ ポリゴンの辺が増えるほど , なにかと遅くなる.
    ○ 特にビッグデータなので結構シビア .
    ● 時系列を追う処理の実装が高コスト
    ○ ある 1 点だけでなく, 前後の点列も含めて考える必要がある .
    ○ SQL だけで実現するのは到底無理 .
    ○ SQL だけで書けないと営業メンバが困る .

    View Slide

  21. 空間演算の高速化
    ● Simplifying Polygons
    ○ ポリゴンを簡略化して頂点を減らす .
    ○ GEOS でアルゴリズム提供 . PostGIS では
    ST_Simplify 系関数で実現可.
    ○ 実装を変更せずに簡単に実現できる .
    地図出典: 国土数値情報 http://nlftp.mlit.go.jp/ksj/

    View Slide

  22. 空間演算の高速化
    ● Spatial Indexing
    ○ 簡単な計算で, 確実にマッチしないポリゴンを省く .
    ○ Bounding Box を利用した R-tree が有名.
    ■ ネイティブライブラリがあります .
    ■ Python Binding もあります.
    引用: https://ja.wikipedia.org/wiki/R%E6%9C%A8

    View Slide

  23. 空間演算の高速化
    ● Geohashing
    ○ 緯度経度から簡単に計算できるハッシュ値
    に変換する.
    ■ GeoHash, 地域メッシュコードなど .
    ○ Polygon 簡略化の一種であり , Spatial
    Indexing ともいえる.
    ○ ポリゴン計算が一切省かれるので , 高速か
    つ実装が容易.
    地図出典: 国土数値情報 http://nlftp.mlit.go.jp/ksj/

    View Slide

  24. 時系列データ処理のスケールアウト
    ● MapReduce でストリーム処理させる.
    ○ Reduction において, キーでまとめて時間でソートする .
    ■ ソートは勝手に行われないので忘れずに .
    ■ ただし対象はビッグデータなので , メモリを使いすぎないよう気をつける .
    ○ 特定のキーでまとめるところは共通化できるので , フレームワーク化しておく .

    View Slide

  25. システム化
    ● 難しいことは SQL ではなく事前計算で
    Log Collection Preprocessing Analysis Environment
    Software
    Infrastructure
    可能な限り事前計算で吸収する

    View Slide

  26. データ商材の育成ポイント
    SQL でできることを増やせば, プロトタイピングの速度が上がる
    Log Collection Preprocessing Analysis Environment
    Software
    Infrastructure
    つまりここが大事!

    View Slide

  27. Thank You!

    View Slide