Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ビッグデータ生成処理の失敗と挑戦
Search
Fumina Chihama
March 14, 2024
750
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
ビッグデータ生成処理の失敗と挑戦
Fumina Chihama
March 14, 2024
More Decks by Fumina Chihama
See All by Fumina Chihama
_配布資料商談力アップ_100社の経験に基づく初回商談の極意_Crevo.pdf
fumina
0
180
20241203_セミナー資料.pdf
fumina
0
150
"誰でも売れる"を体系的に整理!営業のプロが伝授する成功法則.pdf
fumina
0
81
Monoxer講演資料_書籍出版記念対談.pdf
fumina
0
130
DBの選び方LT
fumina
2
340
Azure OpenAI を活用して金融機関にお届けする LLM + RAG サービス
fumina
1
800
RAGを活用した動画学習コンテンツの推薦 ~実装の工夫と課題~
fumina
0
1.1k
RAGの基本と最新技術動向
fumina
0
1.4k
二刀流で切り開くRAG活用術
fumina
0
730
Featured
See All Featured
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
950
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
160
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
250
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.6k
The agentic SEO stack - context over prompts
schlessera
0
820
Embracing the Ebb and Flow
colly
88
5.1k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.3k
New Earth Scene 8
popppiees
3
2.3k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
340
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
Transcript
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 1
株式会社GEOTRA CTO 森山 拓洋 ビッグデータ生成処理の失敗と挑戦 2024.3.13 (水)
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 自己紹介
森山 拓洋(もりやま たくひろ) 株式会社GEOTRA/執行役員CTO 兼 プロダクト開発部長 九州大学大学院理学府化学専攻卒。大学では量子化学を学ぶ。人と 人をつなげるITに興味を持ち、KDDIに2014年に新卒入社。 入社後はIoT・5Gネットワーク・4K映像・画像認識など様々な技術 要素の案件を経験。 現在は技術責任者としてGEOTRAのプロダクト開発をリードし、自 らも実装に従事する傍ら、データサイエンティストとしてGEOTRA Activity Dataを活用したデータ分析を推進。日夜お客様の新しいイ ンサイトを模索している。 2
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 本日のテーマ
ビックデータ処理でデータ量に苦しめられた話 3
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD GEOTRAのメインサービス
GEOTRA Activity Data 生活者ひとりひとりの導線が わかる高粒度人流データ 4
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 5
GEOTRA Activity Dataのデータフォーマット データフォーマットのイメージ GEOTRA Activity Dataは、ひとりひとりの移動がわかる「非集計トリップデータ」です。 ID 性別 年代 出発時間 到着時刻 移動目的 移動手段 始点(経度) 始点(緯度) ・・・ 034 男性 30代 7:12 8:00 通勤 車 139.11 36.44 ・・・ 111 女性 40代 7:14 8:58 通勤 鉄道 139.11 36.44 ・・・ 006 女性 60代 7:31 7:54 買い物 徒歩 139.11 36.44 ・・・ 239 男性 20代 7:33 8:33 通学 鉄道 139.11 36.44 ・・・ 099 男性 50代 8:00 8:45 出勤 鉄道 139.11 36.44 ・・・ 542 女性 20代 8:10 8:30 食事 徒歩 139.11 36.44 ・・・ 090 男性 30代 8:16 8:40 通院 車 139.11 36.44 ・・・ 034 男性 30代 8:00 8:25 食事 徒歩 139.29 34.32 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 位置情報データのイメージ(デモ)
6 GEOTRAは非集計データから都市を移動する人の特徴を抽出します。
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD GEOTRA
Activity Dataの特徴:移動目的 Hospital 移動目的:通院 GEOTRAは到着地点からトリップの移動目的を推定します。 7 agent
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 移動目的はPoint
of Interestデータを利用 Point of Interestデータ 到着地点の情報はPoint of Interstデータを活用。日本中の様々な建物情報を利用。 Eat Work Retail Hospital 8
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 処理時間は雪だるま式
Point of Interestデータの数 移動目的を紐づける際は、トリップデータとPoint of Interestデータの掛け算でデータ処理時間に影響する Eat Work Hospital トリップデータの数 × どこが近い? 9
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 課題:処理時間は雪だるま式
街が大きくなるとトリップデータの数もPoint of Interestデータも増える。 1つの市区町村の トリップデータと Point of Interestデータ 1つの都道府県の トリップデータと Point of Interestデータ 4つの都道府県の トリップデータと Point of Interestデータ 1時間ぐらい 24時間ぐらい 2週間たっても終わらない… 処理時間 10
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 試行錯誤1
インスタンスを大きくしてみた→変わらない→データサイズが怪しい 11 通常インスタンス 処理時間 通常の4倍のサイズのインスタンス
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 試行錯誤2
トリップデータを分割して、分散処理してみた→変わらない→トリップデータだけが原因じゃない 12 通常のトリップデータ 処理時間 トリップデータを64分割
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 試行錯誤3
トリップデータとPoint of Interstデータを分割した→処理時間が現実的に! 13 トリップデータを64分割 Point of Interstデータを64分割 処理時間 トリップデータを64分割 24時間ぐらい
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 真因
Point of Interestの前処理部分がデータ容量が大きく(複数都道府県)なることを想定したつくりになって いなかった。 14 Retail Hospital Eat Work Retail エリア1 エリア2 エリア1に到着するので、 1/2の確率で病院 エリア2に到着するので、 1/3の確率で仕事 前処理:エリアごとにどの移動目的になるかの確率分布を作成 全エリアのPoint of Interestデータを一通りなめて、確率分布を作成していた 一通りなめずに、分割する処理で解決
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 本日お伝えしたいこと
• ビックデータ処理でデータ量に苦しめられた話 • データの量を増やした場合に線形に処理時間が延びるわけではない。雪だるま式に増え ることがある。 • インスタンスサイズで何とかなる話だけじゃない。処理内容を理解し、分割・並列でき るような仕組みが大事 • 位置情報データはエリア拡大時に、人とエリアが同時に増えるので特に注意 15
GEOTRAでは以下の職種のメンバーを 募集しています。 お問合せ先 株式会社GEOTRA 採用担当
[email protected]
[email protected]
https://www.geotra.jp/ GEOTRA 私と一緒に働いてくださるVPoEやwebフルスタックエンジニア、
データサイエンティスト、ITコンサルタントの求人がオープンしてますので、 ご興味ありましたら是非ご一報を! 16
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD ご清聴ありがとうございました!!!
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD Appendix
19 GEOTRA Activity Dataについて 使用した位置情報データ - KDDIが保有する携帯電話から得られる、au GPSビッグデータを取得 し、GEOTRA が保有するデータ加工技術により加工した、ビッグデー
タ(GEOTRA Activity Data)を利用した。 <au GPS ビッグデータ> - 数分に一度のサンプリングによる高精度・高粒度な人流データで、性 別、年代、居住地等の属性情報が付与されており、多角的かつ網羅的 な分析が可能である。 - さらに、利用許諾を元にデータを収集した上で個人を特定出来ない様 に秘匿化処理及び統計処理を実施しており、個人情報を保護し分析を 行うがことが可能である。 図 au GPSビッグデータ(GEOTRAへ提供されるまでの流れ) 図 GPSデータと基地局データとの違い
20 使用した位置情報データ(GEOTRA Activity Dataのデータフォーマット) 項目 値・属性等 性別 男性/女性 年代 20代/30代/40代/50代/60代以上(※10代以下はデータ無し)
居住地 居住地の緯度経度 勤務地 勤務地の緯度経度 移動目的 帰宅/通勤/食事/買い物/アウトドア/食品・日用品購入/通院/エンターテインメント/その他 移動手段 車/鉄道/徒歩/自転車・その他 移動時間 単位:分(移動に要した時間を算出) 移動距離 単位:km(移動に要した距離を算出) 滞在時間 単位:分(滞在先での滞在時間を算出) 出発時刻 0:00-24:00 到着時刻 0:00-24:00 出発地点 出発地点の緯度経度 到着地点 到着地点の緯度経度 移動経路 OD間の経路情報(利用した道路、路線等)に関する情報 移動目的が分かる 回遊・滞留が分かる OD・経路がわかる
CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD GEOTRA
Activity Data(GAD)とパーソントリップ調査比較 千代田区のトリップ数の比較について 以下では、一例として千代田区を出発地または到着地になるトリップ数(移動する人口) の比較を行います。 • 右上図 • PT調査、GAD共に6~8、16~20時に、ピークを迎えています。通勤・通学で の移動が想定されます。 • その時間、PT調査データはGADよりも特に多い値を示しています。 要因と しては、 GADには、プライバシー保護の観点により、20歳未満のデータが 含まれていないことが考えられます。 • 右下図 • 千代田区から区や市へのトリップ数の分布を表しています。スピアマンの順 位相関係数が0.94を示しており、高い一致度が見られます。 • 外れ値が存在しますが、千代田区内のトリップ数を示しており、アンケート 調査ベースのPT調査は特に近距離の移動の場合は移動回数がGADと比べて過 少になる傾向を表しています。 千代田区 港区 トリップ数 21