都市における人間移動予測の最前線___SIGSPATIAL_Cup_2025_上位解法の紹介_.pdf

都市における人間移動予測の最前線〜 SIGSPATIAL Cup 2025 上位解法の紹介〜白金鉱業 Meetup Vol.22

自己紹介 • 氏名：鈴木明作（スズキメイサク） • 所属：通信事業会社 • 趣味：Kaggleや学会コンペ参加 ◦
Kaggle Competitions Master ◦ 地理空間学会コンペ歴 ▪ Human Mobility Challenge 2023 3位 ▪ Human Mobility Challenge 2024 3位 ▪ Human Mobility Challenge 2025（SIGSPATIAL Cup 2025) 4位 X: Mujirushi

• SIGSPATIAL ◦ 地理空間分野における国際学会 ◦ 地理情報システム（GIS）や位置情報サービス、空間データ解析などを扱う • SIGSPATIAL 2025 ◦
アメリカミネソタ州で会議開催 ◦ 本会議の論文採択率は20%程度（トップカンファレンス） SIGSPATIAL https://www.sigspatial.org/

• SIGSPATIALにて毎年開催されるデータ分析競技会 • 上位チームはSIGSPATIALの本会議にて解法を発表 SIGSPATIAL Cup（別名:GISCUP）お題 SIGSPATIAL Cup 2023
衛星画像によるグリーンランド氷床上の氷河湖の自動識別 SIGSPATIAL Cup 2024 電気自動車充電ステーションネットワークの最適最小配置 SIGSPATIAL Cup 2025 複数都市における人の将来の移動予測

• お題 ◦ 複数都市における人の将来の移動予測 • 開催時期 ◦ 2025年4月 - 2025年9月
• 概要 ◦ 日本の4都市（非公表）における過去60日間の移動軌跡から、将来15日間の移動予測 ◦ 都市A: 150,000人、都市B: 30,000人、都市C: 25,000人、都市D: 20,000人の人の移動データ • 予測結果の提出 ◦ 中間提出、最終提出の2回 SIGSPATIAL Cup 2025 https://sigspatial2025.sigspatial.org/giscup/index.html

• 75日間の移動軌跡（GPSデータ）の合成データ • 各エリア500m × 500mを、200×200のセル（X:0-200, Y:0-200）に分割されたデータ • 人の移動軌跡データは30分間隔（0-47） •
変数（特徴量）は 5つのみ ◦ User id, Day（0-74）, Time（0-47）, X（0-200）, Y（0-200）提供データ

• GEO-BLEUは、機械翻訳の評価指標に利用される BLEUを移動軌跡に適用した指標 • 正解軌跡/予測軌跡におけるn-gramの一致よるスコア算出 • GEO-BLEUでは近い位置を予測できた場合はスコアが加点（BLEUでは完全一致のみ加点） https://arxiv.org/pdf/2112.07144 評価指標：GEO-BLEU

SIGSPATIAL Cup 2025上位チームは、以下手法に独自工夫を追加 1. BERT-Base • 自然言語で利用されるBERTを移動軌跡に適用したLP-BERT 2. LLM-Base •
LLMに過去移動軌跡から将来移動予測の教師あり学習を行うLLM Mob 主な解法

• BERTの事前学習手法であるMasked Language Modeling（MLM）を移動軌跡に適用 • 4つのEmbedding（Day, Time, Location,Timedelta）を作成して加算後に、Transformer Encoder およびFFNで予測
• 15日間の連続Location（X, Y）を、ランダムに抽出してマスクして学習 https://dl.acm.org/doi/pdf/10.1145/3615894.3628498 1. LP-BERT（Location Prediction - BERT） LP-BERT Masked Language Modeling

過去の移動軌跡将来の移動軌跡 • 過去移動軌跡から将来の移動予測するように教師あり学習 ◦ 入力：指示＋質問（過去軌跡＋未来時刻） ◦ 出力：未来の移動軌跡 • LLM
Mobの予測ではLP-BERTと比較して大幅に推論時間を要する（16,000 倍） LLMの教師あり学習 2. LLM Mob https://arxiv.org/abs/2410.23692 Instruction あなたは、都市における人間の移動軌跡を予測する有能なアシスタントです。対象都市は200×200 のグリッドを形成しています。 <day_id>, <timeslot_id>, <x>, <y> の形式に従い、... Question City Aの予測してほしいデータは次のとおりです： day_id, timeslot_id, x, y <0,0,199,199>, <0,1,198,196>, <0,2,195,196>, … <59,47,198,196>, <60,0,999,999>, <60,1,999,999>, <60,2,999,999>, … <74,47,999,999>, Answer City A "prediction": [[60,0,92,94], [60,1,93,95], [60,2,93,94], …[74,47,101,108]]

https://github.com/TANGHULU6/Llama3-8B-Mob 参考. LLM Mob vs LP-BERT（demo）

• データ拡張 ◦ 全都市データ学習…1,2,4,5位、回転（90° etc.）や反転（左右&上下）して6倍にデータ拡張 …2位 • 特徴埋め込み ◦ Day,
Time, Location埋め込みに加えて、曜日, 平日/土日, 滞在頻度などの埋め込み追加 …1,2,3,5位 • 行動パターンごとのモデル学習 ◦ 通常移動に加えて, 長距離移動(4km×4km),ライフスタイル(Area2Vec), エリア滞在頻度のモデルを追加 ...3位 • 2段階学習/損失関数 ◦ 全都市データでの事前学習→都市ごとのファインチューニング ...5位 ◦ 微分可能なSinkhorn Lossにより、惜しい予測を加点することで学習 ...5位 LP-BERT解法（1,2,3,5位解法) データ拡張（回転/反転）行動パターンごとの学習長距離移動エリア滞在頻度通常ライフスタイル Day Emb ( d, t, l, +α) Time Emb Location Emb +α Emb ＋ Emb 特徴埋め込み

将来の移動軌跡 • 実行環境 ◦ GPU H100で数日間の学習＆推論を実施 • データ拡張 ◦ 全ての都市の過去データを結合して学習
• プロンプトエンジニアリング ◦ プロンプトにて都市名を明示しないことで汎化性能を期待（個別都市へのoverfit回避） LLMの教師あり学習 LLM Mob解法（4位解法) 全都市の過去の移動軌跡 Instruction あなたは、都市における人間の移動軌跡を予測する有能なアシスタントです。対象都市は200×200 のグリッドを形成しています。 <day_id>, <timeslot_id>, <x>, <y> の形式に従い、... Question City Xの予測してほしいデータは次のとおりです： day_id, timeslot_id, x, y <0,0,199,199>, <0,1,198,196>, <0,2,195,196>, … <59,47,198,196>, <60,0,999,999>, <60,1,999,999>, <60,2,999,999>, … <74,47,999,999>, Answer City X "prediction": [[60,0,92,94], [60,1,93,95], [60,2,93,94], …[74,47,101,108]]

LP-BERT LLM Mob 参考.ルールベース実行環境 GPU A100 GPU H100 CPU
実行時間（学習＆推論）数時間数日間数分間 GEO-BLEU 0.122 0.149 0.107 参考. LP-BERT vs LLM Mob 精度比較 • シングルモデルは LLM Mobの方がLP-BERTよりも性能が高い。一方で、LLM Mobは実行時間が大幅に長いため、たくさん試行錯誤することは難しい • 参考として、ルールベース（ユーザ×時間ごとの最頻値となる場所を予測値とする）も強力（人の移動は規則的）。ただし、人や場所の特徴量が増えれば機械学習手法が更に精度向上する想定都市Dによる精度比較

GEO-BLEU 正解率（Accuracy） 0.107 0.224 参考. 人の移動予測の社会実装を考えるルールベースでの精度（都市D） • 正解率20-30%における人の移動予測は、特化型ユースケースを考える必要がある印象 •
一方で、データ追加（人やエリア/POIの特徴量追加）による精度向上や、精度が高いケース（特定の日時など）では、より良い社会実装を目指せることを期待

まとめ • SIGSPATIAL Cup2025にて「複数都市における人の将来の移動予測」が開催された • 主な上位解法は、 1. BERT-Base、2. LLM-Baseの2つであった
• 今後、地理空間分野の人の移動予測タスクにおいて更なる LLMの活用が期待される

SIGSPATIAL Cup 2025 Top5 Solution

• （A）移動予測 ◦ 都市埋め込み、空間埋め込み（Absolute: x,yごとのsin/cos位置埋め込み＋Learnable: 通常の位置埋め込み）、時間埋め込み（曜日・時刻・前時刻からの経過時間）を統合して、デコーダで生成 • （B）インクリメンタル学習戦略
◦ 単一位置マスク → 単一位置マスク+連続系列マスク → 連続系列マスクへと難易度を高めるカリキュラム学習を導入 1st place solution（香港理工大学） https://dl.acm.org/doi/10.1145/3748636.3771309

2nd place solution（KDDI） • データ拡張：回転（90° etc.）および反転（左右・上下）によって軌跡データを6倍に増幅 • 特徴量追加：時間帯・次の移動までの時間・ユーザーごとの平均移動距離・週末フラグなど10種類の特徴
量を埋め込みベクトルに変換（合計560次元） • エポック単位アンサンブル (Epoch-wise Ensemble)：学習時の5エポックごとのモデルのcheckpointを用いてアンサンブル https://dl.acm.org/doi/epdf/10.1145/3748636.3771310 Transformer Embedding FFN

3rd place solution（名古屋大学） • MoDeMITは4種類の行動パターンを用いる（独立したBERTベースのモデルを構築し、MLMによる事前学習） 1. 移動パターン (Mobility Patterns):
500mメッシュの位置ID 2. 大規模移動パターン (Large-Scale Mobility Patterns): 4kmメッシュ 3. ライフスタイルパターン (Lifestyle Patterns): Area2Vecで推定された都市機能クラスタ 4. エリア頻度パターン (Zone-Frequency Patterns): 訪問頻度に基づく8ゾーン分類 • 最終的にこれらのモデル出力を統合し、新たな線形層で位置を予測する転移学習を行う。 https://dl.acm.org/doi/10.1145/3748636.3771311

4th place solution（NTTドコモ）スライド13参照 https://dl.acm.org/doi/pdf/10.1145/3748636.3771312

5th place solution（延世大学） • マルチ特徴表現：曜日、週末、時間間隔などの追加特徴埋め込みを構築 • CityCondBERT：都市条件付き FiLM層と残差アダプターを使用して、都市ごとの知識をエンコーダに入力
• GEO-BLEU-Sinkhorn Loss：空間近接性とn-gram連続性を考慮したSinkhorn損失関数を設計 • 学習戦略：全都市データによる事前学習 → 各都市ごとのファインチューニング、による2段階学習論文: https://dl.acm.org/doi/epdf/10.1145/3748636.3771313 Github: https://github.com/OHSEHOON99/CityCondBERT

参考. SIGSPATIAL Cup 2025 Result https://sigspatial2025.sigspatial.org/giscup/finalResults.html

都市における人間移動予測の最前線___SIGSPATIAL_Cup_2025_上位解法の紹介_...

都市における人間移動予測の最前線___SIGSPATIAL_Cup_2025_上位解法の紹介_.pdf

mujirushi

More Decks by mujirushi

Featured

Transcript

都市における人間移動予測の最前線〜 SIGSPATIAL Cup 2025 上位解法の紹介〜白金鉱業 Meetup Vol.22

自己紹介 • 氏名：鈴木明作（スズキメイサク） • 所属：通信事業会社 • 趣味：Kaggleや学会コンペ参加 ◦

• SIGSPATIAL ◦ 地理空間分野における国際学会 ◦ 地理情報システム（GIS）や位置情報サービス、空間データ解析などを扱う • SIGSPATIAL 2025 ◦

• SIGSPATIALにて毎年開催されるデータ分析競技会 • 上位チームはSIGSPATIALの本会議にて解法を発表 SIGSPATIAL Cup（別名:GISCUP）お題 SIGSPATIAL Cup 2023

• お題 ◦ 複数都市における人の将来の移動予測 • 開催時期 ◦ 2025年4月 - 2025年9月

• 75日間の移動軌跡（GPSデータ）の合成データ • 各エリア500m × 500mを、200×200のセル（X:0-200, Y:0-200）に分割されたデータ • 人の移動軌跡データは30分間隔（0-47） •

SIGSPATIAL Cup 2025上位チームは、以下手法に独自工夫を追加 1. BERT-Base • 自然言語で利用されるBERTを移動軌跡に適用したLP-BERT 2. LLM-Base •

• BERTの事前学習手法であるMasked Language Modeling（MLM）を移動軌跡に適用 • 4つのEmbedding（Day, Time, Location,Timedelta）を作成して加算後に、Transformer Encoder およびFFNで予測

過去の移動軌跡将来の移動軌跡 • 過去移動軌跡から将来の移動予測するように教師あり学習 ◦ 入力：指示＋質問（過去軌跡＋未来時刻） ◦ 出力：未来の移動軌跡 • LLM

https://github.com/TANGHULU6/Llama3-8B-Mob 参考. LLM Mob vs LP-BERT（demo）

• データ拡張 ◦ 全都市データ学習…1,2,4,5位、回転（90° etc.）や反転（左右&上下）して6倍にデータ拡張 …2位 • 特徴埋め込み ◦ Day,

将来の移動軌跡 • 実行環境 ◦ GPU H100で数日間の学習＆推論を実施 • データ拡張 ◦ 全ての都市の過去データを結合して学習

LP-BERT LLM Mob 参考.ルールベース実行環境 GPU A100 GPU H100 CPU

GEO-BLEU 正解率（Accuracy） 0.107 0.224 参考. 人の移動予測の社会実装を考えるルールベースでの精度（都市D） • 正解率20-30%における人の移動予測は、特化型ユースケースを考える必要がある印象 •

まとめ • SIGSPATIAL Cup2025にて「複数都市における人の将来の移動予測」が開催された • 主な上位解法は、 1. BERT-Base、2. LLM-Baseの2つであった

SIGSPATIAL Cup 2025 Top5 Solution

2nd place solution（KDDI） • データ拡張：回転（90° etc.）および反転（左右・上下）によって軌跡データを6倍に増幅 • 特徴量追加：時間帯・次の移動までの時間・ユーザーごとの平均移動距離・週末フラグなど10種類の特徴

3rd place solution（名古屋大学） • MoDeMITは4種類の行動パターンを用いる（独立したBERTベースのモデルを構築し、MLMによる事前学習） 1. 移動パターン (Mobility Patterns):

4th place solution（NTTドコモ）スライド13参照 https://dl.acm.org/doi/pdf/10.1145/3748636.3771312

5th place solution（延世大学） • マルチ特徴表現：曜日、週末、時間間隔などの追加特徴埋め込みを構築 • CityCondBERT：都市条件付き FiLM層と残差アダプターを使用して、都市ごとの知識をエンコーダに入力

参考. SIGSPATIAL Cup 2025 Result https://sigspatial2025.sigspatial.org/giscup/finalResults.html