Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ビッグデータ生成処理の失敗と挑戦

Fumina Chihama
March 14, 2024
450

 ビッグデータ生成処理の失敗と挑戦

Fumina Chihama

March 14, 2024
Tweet

More Decks by Fumina Chihama

Transcript

  1. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 1

    株式会社GEOTRA CTO 森山 拓洋 ビッグデータ生成処理の失敗と挑戦 2024.3.13 (水)
  2. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 自己紹介

    森山 拓洋(もりやま たくひろ) 株式会社GEOTRA/執行役員CTO 兼 プロダクト開発部長 九州大学大学院理学府化学専攻卒。大学では量子化学を学ぶ。人と 人をつなげるITに興味を持ち、KDDIに2014年に新卒入社。 入社後はIoT・5Gネットワーク・4K映像・画像認識など様々な技術 要素の案件を経験。 現在は技術責任者としてGEOTRAのプロダクト開発をリードし、自 らも実装に従事する傍ら、データサイエンティストとしてGEOTRA Activity Dataを活用したデータ分析を推進。日夜お客様の新しいイ ンサイトを模索している。 2
  3. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 本日のテーマ

    ビックデータ処理でデータ量に苦しめられた話 3
  4. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD GEOTRAのメインサービス

    GEOTRA Activity Data 生活者ひとりひとりの導線が わかる高粒度人流データ 4
  5. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 5

    GEOTRA Activity Dataのデータフォーマット データフォーマットのイメージ GEOTRA Activity Dataは、ひとりひとりの移動がわかる「非集計トリップデータ」です。 ID 性別 年代 出発時間 到着時刻 移動目的 移動手段 始点(経度) 始点(緯度) ・・・ 034 男性 30代 7:12 8:00 通勤 車 139.11 36.44 ・・・ 111 女性 40代 7:14 8:58 通勤 鉄道 139.11 36.44 ・・・ 006 女性 60代 7:31 7:54 買い物 徒歩 139.11 36.44 ・・・ 239 男性 20代 7:33 8:33 通学 鉄道 139.11 36.44 ・・・ 099 男性 50代 8:00 8:45 出勤 鉄道 139.11 36.44 ・・・ 542 女性 20代 8:10 8:30 食事 徒歩 139.11 36.44 ・・・ 090 男性 30代 8:16 8:40 通院 車 139.11 36.44 ・・・ 034 男性 30代 8:00 8:25 食事 徒歩 139.29 34.32 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・
  6. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 位置情報データのイメージ(デモ)

    6 GEOTRAは非集計データから都市を移動する人の特徴を抽出します。
  7. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD GEOTRA

    Activity Dataの特徴:移動目的 Hospital 移動目的:通院 GEOTRAは到着地点からトリップの移動目的を推定します。 7 agent
  8. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 移動目的はPoint

    of Interestデータを利用 Point of Interestデータ 到着地点の情報はPoint of Interstデータを活用。日本中の様々な建物情報を利用。 Eat Work Retail Hospital 8
  9. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 処理時間は雪だるま式

    Point of Interestデータの数 移動目的を紐づける際は、トリップデータとPoint of Interestデータの掛け算でデータ処理時間に影響する Eat Work Hospital トリップデータの数 × どこが近い? 9
  10. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 課題:処理時間は雪だるま式

    街が大きくなるとトリップデータの数もPoint of Interestデータも増える。 1つの市区町村の トリップデータと Point of Interestデータ 1つの都道府県の トリップデータと Point of Interestデータ 4つの都道府県の トリップデータと Point of Interestデータ 1時間ぐらい 24時間ぐらい 2週間たっても終わらない… 処理時間 10
  11. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 試行錯誤1

    インスタンスを大きくしてみた→変わらない→データサイズが怪しい 11 通常インスタンス 処理時間 通常の4倍のサイズのインスタンス
  12. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 試行錯誤2

    トリップデータを分割して、分散処理してみた→変わらない→トリップデータだけが原因じゃない 12 通常のトリップデータ 処理時間 トリップデータを64分割
  13. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 試行錯誤3

    トリップデータとPoint of Interstデータを分割した→処理時間が現実的に! 13 トリップデータを64分割 Point of Interstデータを64分割 処理時間 トリップデータを64分割 24時間ぐらい
  14. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 真因

    Point of Interestの前処理部分がデータ容量が大きく(複数都道府県)なることを想定したつくりになって いなかった。 14 Retail Hospital Eat Work Retail エリア1 エリア2 エリア1に到着するので、 1/2の確率で病院 エリア2に到着するので、 1/3の確率で仕事 前処理:エリアごとにどの移動目的になるかの確率分布を作成 全エリアのPoint of Interestデータを一通りなめて、確率分布を作成していた 一通りなめずに、分割する処理で解決
  15. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 本日お伝えしたいこと

    • ビックデータ処理でデータ量に苦しめられた話 • データの量を増やした場合に線形に処理時間が延びるわけではない。雪だるま式に増え ることがある。 • インスタンスサイズで何とかなる話だけじゃない。処理内容を理解し、分割・並列でき るような仕組みが大事 • 位置情報データはエリア拡大時に、人とエリアが同時に増えるので特に注意 15
  16. 19 GEOTRA Activity Dataについて 使用した位置情報データ - KDDIが保有する携帯電話から得られる、au GPSビッグデータを取得 し、GEOTRA が保有するデータ加工技術により加工した、ビッグデー

    タ(GEOTRA Activity Data)を利用した。 <au GPS ビッグデータ> - 数分に一度のサンプリングによる高精度・高粒度な人流データで、性 別、年代、居住地等の属性情報が付与されており、多角的かつ網羅的 な分析が可能である。 - さらに、利用許諾を元にデータを収集した上で個人を特定出来ない様 に秘匿化処理及び統計処理を実施しており、個人情報を保護し分析を 行うがことが可能である。 図 au GPSビッグデータ(GEOTRAへ提供されるまでの流れ) 図 GPSデータと基地局データとの違い
  17. 20 使用した位置情報データ(GEOTRA Activity Dataのデータフォーマット) 項目 値・属性等 性別 男性/女性 年代 20代/30代/40代/50代/60代以上(※10代以下はデータ無し)

    居住地 居住地の緯度経度 勤務地 勤務地の緯度経度 移動目的 帰宅/通勤/食事/買い物/アウトドア/食品・日用品購入/通院/エンターテインメント/その他 移動手段 車/鉄道/徒歩/自転車・その他 移動時間 単位:分(移動に要した時間を算出) 移動距離 単位:km(移動に要した距離を算出) 滞在時間 単位:分(滞在先での滞在時間を算出) 出発時刻 0:00-24:00 到着時刻 0:00-24:00 出発地点 出発地点の緯度経度 到着地点 到着地点の緯度経度 移動経路 OD間の経路情報(利用した道路、路線等)に関する情報 移動目的が分かる 回遊・滞留が分かる OD・経路がわかる
  18. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD GEOTRA

    Activity Data(GAD)とパーソントリップ調査比較 千代田区のトリップ数の比較について 以下では、一例として千代田区を出発地または到着地になるトリップ数(移動する人口) の比較を行います。 • 右上図 • PT調査、GAD共に6~8、16~20時に、ピークを迎えています。通勤・通学で の移動が想定されます。 • その時間、PT調査データはGADよりも特に多い値を示しています。 要因と しては、 GADには、プライバシー保護の観点により、20歳未満のデータが 含まれていないことが考えられます。 • 右下図 • 千代田区から区や市へのトリップ数の分布を表しています。スピアマンの順 位相関係数が0.94を示しており、高い一致度が見られます。 • 外れ値が存在しますが、千代田区内のトリップ数を示しており、アンケート 調査ベースのPT調査は特に近距離の移動の場合は移動回数がGADと比べて過 少になる傾向を表しています。 千代田区 港区 トリップ数 21