Slide 1

Slide 1 text

A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis 篠原崇之 1 SatAI.challenge 勉強会 みんなで作るメタサーベイ:衛星データを活用したマルチモーダル AI 編 この資料に出てくる図は引用を明記しない場合は Yan et al. (2024), “A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis”, International Journal of Applied Earth Observation and Geoinformation vol. 129 (2024)より引用

Slide 2

Slide 2 text

目次 
 2 ● 自己紹介スライド
 ● 手法の概要(研究の1ページサマリ紹介) 
 ● 研究の背景(Introduction) 
 ● 手法(Method)
 ● 実験(Experimet)
 ● まとめ(Conclusion) 


Slide 3

Slide 3 text

3 発表者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

自己紹介 
 4 研究テーマ :3次元モデリング、サロゲートモデル 4 X(旧 Twitter) LinkedIn 産総研 レジリエントインフラ実装研究センター 劣化診断技術研究チーム - デジタルツイン構築と利活用 - 土木インフラの劣化予測 - 物理シミュレーションの近似を行うAI 篠原 崇之

Slide 5

Slide 5 text

5 手法の概要 This image was generated by ChatGPT

Slide 6

Slide 6 text

A multimodal data fusion model for accurate and interpretable urban land use mapping 
 with uncertainty analysis 
 6 ● GISデータとリモセン画像をAI
 で統合して扱う手法が少ない
 ● 都市土地利用マッピングの
 精度向上と解釈性の強化を
 行うために、人口密度とタクシーデータとリモ セン画像を統合的に
 扱うMDFNet を提案
 ● 人口密度はLSTM, 衛星画像は
 ResNet, タクシーは
 GCNを用いて特徴抽出し、
 統合して分類する構造
 ● ベンチマーク実験を行い
 テスト精度0.882を達成


Slide 7

Slide 7 text

7 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

8 本題に入る前に(航空写真で土地利用分類してみよう) 
 国土地理院 地図・空中写真閲覧サービス どちらがオフィス街? 


Slide 9

Slide 9 text

9 本題に入る前に(航空写真と 人口密度時系列データ で土地利用分類してみよう) 
 国土地理院 地図・空中写真閲覧サービス どちらがオフィス街? 
 
 夜 朝      昼 夕方 夜 
 人多 夜 朝      昼 夕方 夜 
 人少 人少 人多

Slide 10

Slide 10 text

10 本題に入る前に(航空写真と人口密度時系列データを 組み合わせる 土地利用分類ができるという話をします) 
 国土地理院 地図・空中写真閲覧サービス どちらがオフィス街? 
 
 夜 朝      昼 夕方 夜 
 人多 人多 夜 朝      昼 夕方 夜 
 答え:こっちがオフィス街 
 人少 人少

Slide 11

Slide 11 text

● 地理空間情報にはラスタとベクタ形式がある 
 ○ ラスタ
 ピクセル単位で地理情報を保持するデータ。 
 主にリモートセンシング画像、標高データ(DEM)などに利用。 
 例: 光学・SAR画像、気象衛星、DEM、土地被覆分類マップ。 
 ○ ベクタ
 ポイント、ライン、ポリゴンで表現される地理情報。 
 都市計画や交通ネットワーク、行政区域などの情報を管理する 
 際に適用。
 例: 道路網、建物ポリゴン、河川、軌跡。 
 ● インサイト 
 ○ GISを使って、ラスタとベクタを重ね合わせると、 
 課題解決のインサイトが得られる 
 ○ 現状ではAIでラスタとベクタを統合して扱う手法が少ない 
 背景: 地理空間情報の多様さ 
 11 人間が普段行っているようなラスタとベクタを統合した分析も深層学習でやりたい 
 図は国交省 GISとは から引用

Slide 12

Slide 12 text

● 都市土地利用分類の重要性 
 ○ 都市の持続可能な発展のために、正確な土地利用情報が必要。 
 ○ 政策決定や都市計画、環境保全、災害リスク管理において重要な役割を果たす。 
 ○ 交通、経済活動、環境への影響を評価するために活用される。 
 ● 衛星画像を用いた手法 
 ○ 畳み込みニューラルネットワーク 
 Vision Transformer(ViT)を 
 用いたセグメンテーションや 
 パッチ単位の分類。
 ○ 衛星画像のみでは都市の 
 社会的活動や動態を反映できない。 
 ○ データの時系列変化を考慮 
 しにくい。
 背景: 都市土地利用分類の既往研究 
 12 衛星画像のみを用いた研究では都市の社会的なダイナミクスを捉えるのが困難。 
 Zhou et.al (2020) “SO–CNN based urban functional zone fine division with VHR remote sensing image”, Remote Sensing of Environment,Vol. 236 から引用

Slide 13

Slide 13 text

● 社会センシングデータ(SNSや個人が持つ端末からの情報)による都市利用 
 ○ タクシーの軌跡データを用いて都市構造と経済活動の推測が可能 
 ○ スマホのGNSSデータ、交通データなどの時系列データでも同様に都市利用解析が可能 
 背景: 都市土地利用分類の既往研究 
 13 社会センシングデータを用いた研究では地理的な精度やスケールの限界がある。 
 Hu et.al (2023) “Revealing intra-urban hierarchical spatial structure through representation learning by combining road network abstraction model and taxi trajectory data”, Annals of GIS, 29(4), 499–516. から引用

Slide 14

Slide 14 text

● 社会センシングデータと衛星画像の組み合わせ 
 ○ 対照学習で衛星画像と多様な社会センシングデータを紐づけて、 
 衛星画像を用いた下流タスク(土地利用分類)の性能を向上させる 
 ○ ただし、解釈性に問題 がある場合が多い
 背景: 都市土地利用分類の既往研究 
 14 融合した研究はあるが、モーダルを組み合わせたメリットが薄い研究が多い 
 図 Bai et.al (2023) “Geographic mapping with unsupervised multi-modal representation learning from VHR images and POIs”, ISPRS Journal of Photogrammetry and Remote Sensing,から引用

Slide 15

Slide 15 text

● 既往研究の問題点 
 ○ データ統合の不十分さ 
 多くの研究ではリモートセンシングデータのみを使用し、スマホから得られるSNSや移動履歴、 
 交通状況などの社会センシングデータを考慮していない。 
 => マルチモーダルAIを導入 
 ○ 解釈性の欠如 
 多くの既存手法で用いられる深層学習手法はブラックボックス的であり、 
 結果の根拠が分かりにくい。 
 => 予測の信頼度評価を行う 
 
 研究の目的 
 15 リモートセンシングデータと社会センシングデータを統合することで、 
 土地利用分類の精度と解釈性を向上 


Slide 16

Slide 16 text

16 手法 This image was generated by ChatGPT

Slide 17

Slide 17 text

● 対象地域 
 ○ 中国の深圳(シンセン)市 
 ● データ
 ○ 衛星画像(HSR) : Google Mapの光学衛星 画像
 480 m × 480 m, 2 m解像度 
 ○ 時系列の人口密度(RTUD) : 人口密度時系列データ 
 480 m × 480 m, 約30m解像度, 1時間ごと 
 ○ タクシー(TTD) : 乗降車地点(頂点)、 
 移動経路(辺)のグラフ
 頂点には平均速度・配車回数・降車回数 
 ● 分類タスク設定 
 ○ 住宅, 公共サービス, 商業, 工業, 倉庫, 緑地 
 ○ 入力されたデータが何クラスなのかの分類 
 
 対象地域・使用データ 
 17

Slide 18

Slide 18 text

提案手法の処理ステップ(論文の流れ) 
 Step1. MDFNetの学習 
 Step2. 不確実性調査 
 Step3. 分類結果から都市パターン考察 
 手法: 全体フロー 
 18

Slide 19

Slide 19 text

Step 1の MDFNet は衛星画像・人口密度データ・タクシーグラフデータを分類するマルチモーダルAI 
 (1) 特徴抽出モジュール: 各モーダルの特徴を独立して抽出 
 (2) クロスモーダル特徴融合モジュール: 各モーダルの特徴量を混ぜる 
 (3) 土地利用分類モジュール: 混ぜた特徴量で入力エリアの土地利用分類 
 手法: Step1 MDFNetの学習 
 19

Slide 20

Slide 20 text

Step 1の MDFNet は衛星画像・人口密度データ・タクシーグラフデータを分類するマルチモーダルAI 
 (1) 特徴抽出モジュール 
 ● HSR(衛星画像) : ResNet-50ベースのCNNにより画像特徴を抽出。 
 ○ 入力: 衛星画像 ○ 出力: 衛星画像の特徴ベクトル ● TTD(タクシー) : グラフ畳み込みネットワーク(GCN)を利用し、タクシーの移動パターンを抽出。 
 ○ 入力: タクシー乗降情報や経路情報から構築したグラフ(ノード&エッジ) ○ GCN層: グラフ構造を伝播しながら特徴を学習 ○ 出力: タクシーデータの特徴ベクトル 手法: Step1 MDFNetの学習 
 20

Slide 21

Slide 21 text

Step 1の MDFNet は衛星画像・人口密度データ・タクシーグラフデータを分類するマルチモーダルAI 
 (1) 特徴抽出モジュール 
 ● RTUD(人口密度) : BiLSTM(双方向長短期記憶ネットワーク)で人口密度の時間変化をモデル化。 
 ○ 入力: 時系列の人口密度(1時間の平均値x24 時間がある程度の期間存在 ) ○ Temporal Block(Workdays/Weekend/Holiday) ■ Workdays: 平日のみ抽出し、平日特有の人流パターン(通勤・通学など)を学習。 ■ Weekend: 週末の人口変化(商業施設やレジャー施設への集中)をモデル化。 ■ Holiday: 祝日や特別な行事時の極端な人口変動を反映。 ■ 役割: 時系列を4つの区分(Workdays/Weekend/Holiday)に分割して学習することで、曜日・祝日 特性を捉え、バイアスを軽減。 ○ BiLSTM: 全期間(All Days)の人口密度を連続的に扱う基本ブロック。 過去と未来の情報を同時に考慮し、人口密度の長期・短期変動を統合。 ○ 出力: Temporal BlockとBiLSTMをconcatした時系列ベクトルを全結合で処理した特徴ベクトル 
 手法: Step1 MDFNetの学習 
 21

Slide 22

Slide 22 text

Step 1の MDFNet は衛星画像・人口密度データ・タクシーグラフデータを分類するマルチモーダルAI 
 (2) モーダル特徴融合モジュール 
 ● Concatenate 
 ○ 各ブランチ(HSR, RTUD, TTD)の特徴ベクトルを連結 
 ● Adaptive Weighting(Learnable Weight Module) 
 ○ チャネルのアテンション 
 ○ 各モダリティの信頼度や重要度に応じ、 学習可能な重み付け を行う
 ■ HSR, RTUD, TTDのどれが分類き効くかがわかる 
 ● 最終的な特徴ベクトル 
 ○ 統合されたベクトルを次の土地利用分類モジュールに入力へ 
 (3) 土地利用分類モジュール 
 ● 全結合層: 統合された特徴を分類器に入力。 
 ● ソフトマックス関数: 土地利用カテゴリ(住宅, 公共サービス, 商業, 工業, 倉庫, 緑地)に分類。 
 手法: Step1 MDFNetの学習 
 22

Slide 23

Slide 23 text

「どのモダリティがどれほど重要なのか」を説明 
 ● Multi-Class Explainable Boosting Machine(MC-EBM) 
 ○ 予測関数が特徴ごとの加法的な関数で構成される Generalized Additive Model(GAM) の一種で、各特徴 の部分関数を学習しつつ、解釈可能性を維持。 
 ○ 入力データを特徴量化して、その影響を見る 
 ○ SHAPとかLIMEみたいなやつ 
 ● Adaptive Weighting(Learnable Weight Module)の値 
 ○ 各モーダルの特徴量を組み合わせて土地利用分類を行う際に、 
 各モーダルの特徴量に対するattentionの重みを学習させる 
 ○ ある入力データを入れた際の各特徴量への重みの値を見て、 
 どのモーダルの特徴量が効くかを確認できる 
 手法: 解釈性と不確実性解析 
 23

Slide 24

Slide 24 text

24 実験 This image was generated by ChatGPT

Slide 25

Slide 25 text

● 3つのデータを組み合わせた設定で最高性能を示した 
 ○ HSR(衛星画像)が無いと分類性能が出ない 
 実験: 定量評価 
 25

Slide 26

Slide 26 text

● ほとんどのカテゴリでマルチモーダルにすると性能が向上 
 ○ 公共サービス施設と倉庫のカテゴリは組み合わせる効果が特に大きい 
 ■ 衛星画像だけでは区別が難しいカテゴリで有効 
 実験: 定量評価 
 26

Slide 27

Slide 27 text

● 提案手法だと、明らかな時間的特徴パターンのない領域を識別することは困難 
 ○ 画像だけだとできる
 ○ 組み合わせが重要
 ● 画像では困難な場合 
 ○ 提案手法だと、
 時間変化で分類できる 
 実験: 失敗例分析 
 27 人口密度の
 特徴が無い
 商業施設:
 昼間は人が増える
 タワマンとの区別が可能
 遊園地


Slide 28

Slide 28 text

● 学習可能な重み(channelへのattention)による寄与度の確認(横軸 寄与度) 
 ○ HSR(衛星画像): 緑地、工業用地、倉庫用地(色・空間的な配置) 
 ○ RTUD(人口密度): 公共サービス、商業施設(昼夜・平日休日) 
 ○ TTD(タクシー): 住宅地(乗り降りが多そう) 
 実験: どのモーダルが何の土地利用に効くのか 
 28 HSR RTUD TTD
 =>直観に合う結果


Slide 29

Slide 29 text

実験: 土地利用分類結果の解析 
 29 緑地の面積は都市の非建築地域の51.1% 
 2021年の都市建設統計年鑑のデータと一致 
 =>分類結果の妥当性は高そう 


Slide 30

Slide 30 text

実験: 土地利用分類結果の解析 
 30 福田区(Futian)は深圳市人民政府や中央ビジネス地 区(CBD)がある。
 分類結果でも、商用施設や公共施設が存在し、 
 分類結果の妥当性が高そう 


Slide 31

Slide 31 text

実験: 土地利用分類結果の解析 
 31 工業ゾーンには工業施設と住居が多い 


Slide 32

Slide 32 text

実験: 土地利用分類結果の解析 
 32 海沿いには倉庫が多い 
 =>現実との整合性がある 


Slide 33

Slide 33 text

(1) データの制約 
 ● 時空間的な制約: HSR(衛星画像)は固定的な情報だが、RTUD(人口密度)やTTD(タクシー)は時間依存性が高い ため、最適な時系列の統合方法に課題がある。 
 ● データの偏り: RTUD(人口密度)やTTD(タクシー)は一部の地域でのみ取得可能であり、全都市域に対する適用 には制約がある。
 (2) 計算コストの高さ 
 ● 提案手法はCNN、LSTM、GCNを統合しており、学習コスト・推論コストが高い。 
 ● 計算リソースの制限がある環境(エッジデバイス等)ではリアルタイム適用が難しい可能性。 
 (3) 転移学習の適用範囲 
 ● 研究で使用したモデルは中国の主要都市を対象にしており、他国・他地域に適用する際に、追加学習が必要と なる。
 実験: 限界点 
 33

Slide 34

Slide 34 text

34 結論 This image was generated by ChatGPT

Slide 35

Slide 35 text

● 本研究では、MDFNet(Multimodal Data Fusion Network)を提案し、衛星画像(HSR)、人口密度データ(RTUD)、 タクシー軌跡データ(TTD)を統合することで、都市土地利用分類の精度向上を図った。 
 ● マルチモーダルデータの各モダリティがどの程度分類に寄与しているかを定量的に評価し、解釈性の高い手法 である。
 ● MDFNetによって得られた都市域の土地利用分類結果は、都市計画・交通管理への応用できる 
 可能性がある。
 まとめ 
 35

Slide 36

Slide 36 text

36 補足資料 This image was generated by ChatGPT

Slide 37

Slide 37 text

● MC-EBM
 ○ HSR(衛星画像)が最も重要 
 寄与率0.361
 ○ RTUD(人口密度)が0.308 
 ○ TTD(タクシー)が0.232 
 ※SHAPとかLIMEみたいな指標 
 衛星画像の画素値、 
 人口密度データの統計データ、 
 タクシーデータの統計データ 
 で簡易的な機械学習モデルを作る 
 
 実験: どのモーダルが何の土地利用に効くのか 
 37

Slide 38

Slide 38 text

実験: ablation 
 38