VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs

Slide 1

Slide 1 text

VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs 青木亮祐 / ぴっかりん(@ra0kley) 1 第15回 SatAI.challenge勉強会

Slide 2

Slide 2 text

目次 2 ● 自己紹介スライド ● 研究の1ページサマリ紹介 ● 研究の背景（Introduction） ● 手法について（Method） ● 実験（Experimet） ● 結論（Conclusion） ● 読んだ感想・思ったこと

Slide 3

Slide 3 text

3 発表者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

青木亮祐（ぴっかりん）株式会社パスコ研究開発センター自己紹介 4 X（旧Twitter） GitHub 最近の業務: - 地理空間情報×AIで色々行ったり、その環境整備 - オウンドメディアの編集のお手伝いやイベントの企画など Project PLATEAU ADVOCATE 2025

Slide 5

Slide 5 text

5 1ページサマリ This image was generated by ChatGPT

Slide 6

Slide 6 text

VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs 6 人間のアノテーション手法を模倣し、建物のコーナーポイントを直接回帰で推定可能な初の大規模マルチモーダルLLMを提案 ● リモートセンシング画像からベクトル形式で建物を抽出するタスクにマルチモーダルLLMを導入 ● リモートセンシング画像を入力とし、建物の頂点座標を時計回りでテキストで出力 ● WHU、WHU-Mix、CrowdAIの3データセットで SOTA パフォーマンスを達成し、優れた一般化機能を実証 ● 学習していない飛行機や水辺など多様な物体の輪郭を描ける汎用性も持つ提案手法の概要 Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 7

Slide 7 text

7 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

背景: AIによって建物を抽出する意義と課題 8 ● リモートセンシング画像からの建物抽出は都市計画や人口推計、災害評価、地図の更新など様々なタスクで使われる重要なタスク ● AIによって自動的かつ正確に建物を抽出する手法は色々出てきているが既存手法は複雑な多段階のパイプラインで構成されており、スケーラビリティと実世界への適用に制限がある ● 最近では、リモートセンシングから地物抽出のタスクでも、SAM（Segmentation Anything Model）が用いられ始めているが、ファインチューニングしても様々なタスクへの汎用性がない

Slide 9

Slide 9 text

背景: 既存のAIによる建物抽出の課題 9 主な既存手法1: セグメンテーションにより建物部分を抽出し、後処理でベクトル化【処理のフロー】 1. セグメンテーション → 建物の確率マップを生成 2. 二値化（閾値処理） → 建物のマスク画像を生成 3. ベクトル化 → 建物ポリゴンを生成 4. ポリゴン正規化 → 妥当な形状に変換課題ベクトル化された建物輪郭を得るためのプロセスが多くあり、複雑すぎる

Slide 10

Slide 10 text

背景: 既存のAIによる建物抽出の課題 10 主な既存手法2: 建物ポリゴン形状を回帰により求める【処理のフロー】 1. 建物の頂点を推定 2. 冗長な頂点を削除 3. 位相関係を再構築 → 推定された点をうまく結んでポリゴンにする → 建物ポリゴンを生成課題既存手法1と同じく、ベクトル化された建物輪郭を得るためのプロセスが多くあり、複雑すぎる Shiqing Wei et al. “BuildMapper: A Fully Learnable Framework for Vectorized Building Contour Extraction,” arXiv preprint, 2022. より引用

Slide 11

Slide 11 text

11 手法について This image was generated by ChatGPT

Slide 12

Slide 12 text

手法: ネットワークアーキテクチャ 12 提案手法は、以下の4つのモジュールから構成モジュール役割 Vision Encoder リモートセンシング画像から視覚的な特徴を抽出モデルは、学習済みのRADIOおよびViTを使用 Positional Embeddings LLMが各ピクセルの意味情報と位置情報を理解できるようにする Projector 視覚的な特徴を言語空間にマッピングし、LLMが画像情報を理解できるようにする LLM テキストプロンプトとProjectorによって得られたビジュアルトークンを受け取り、建物のコーナーポイントを直接的に回帰で推定モデルは、Qwen3シリーズを使用 Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 13

Slide 13 text

手法: 学習戦略（事前トレーニング） 13 視覚的な特徴をテキスト空間に紐づけるだけでなく、幾何学的推論能力をLLMに学習させるのが目的事前学習データ例 “Input: [image]¥n[x85][y32][x160][y63][x135][y122] [x176][y139][x154][y191][x103][y169][x111] [y150][x46][y124][x85][y32].” 損失関数 next-token-prediction loss 工夫点建物輪郭を描き始める始点をランダムにシャッフルすることで、過学習を防ぎ、汎用性を高める Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 14

Slide 14 text

手法: 学習戦略（教師ありファインチューニング） 14 ユーザの指示に対応した回答を出力するように学習学習データ例既存の建物抽出データセットをVQA形式に再構成し使用建物の左上隅を始点とし、時計回りに点を並べるように回答を生成するように学習 “Input: [image]¥nPlease extract the regular vector contour of the central building in the image, start from the left top corner and in clockwise. Output: [x85][y32][x160][y63][x135][y122][x176][y139] [x154][y191][x103][y169][x111][y150][x46][y124] [x85][y32].” 損失関数 next-token-prediction loss Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 15

Slide 15 text

手法: 学習戦略（選好最適化） 15 重複した結果が出力されたりといった課題があり、ユーザー好みの回答を出力できるようにするため、 DPO（Direct Preference Optimization）という手法を用いて最適化を行う → ChatGPTでたまに出てくる「どちらの回答がお好みですか？」と同じようなことを行っている損失関数 DPO loss Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 16

Slide 16 text

学習データ例好ましい回答：教師ありファインチューニングモデルの推論結果でIoU0.8以上のもの好ましくない回答: IoUが0.8未満の推論結果わざとランダムに破損させた推論結果 “Input: [image]¥nPlease extract the regular vector contour of the central building in the image, start from the left top corner and in clockwise. Rejected Answer: [x83][y40][x96][y38][x95][y30][x116] [y26][x121][y49][x111][y51][x112][y58][x106][y60][x115] [y107][x128][y104][x134][y137][x121][y139][x126][y165] [x140][y187][x83][y197][x83][y40] Chosen Answer: [x85][y47][x97][y45][x96][y37][x115] [y34][x120][y55][x111][y57][x112][y64][x107][y65][x115] [y107][x126][y105][x131][y135][x120][y137][x125][y160] [x133][y159][x137][y180][x85][y190][x85][y47].” 手法: 学習戦略（選好最適化） 16

Slide 17

Slide 17 text

手法: 学習戦略（バウンディングボックスアクセス） 17 現状のLLMの課題画像内の建物の輪郭を描画するように設計されているが、現在のLLMは、トークンの制限により画像中に100を超える小さな建物があるなどに対応できない解決策 LサイズのSwin TransformerをバックボーンとしたFCOS（物体検出モデル）にて建物を検出し、その結果を入力する背景情報を含めるために、判読されたバウンディングボックスをわずかに拡大させる入力データの作成学習時: 教師データの画像からあらかじめ各建物を切り取って、VectorLLMに入力推論時: 画像中のすべての建物をFCOSで検出し、事前に切り取ってからVectorLLMに入力

Slide 18

Slide 18 text

18 実験 This image was generated by ChatGPT

Slide 19

Slide 19 text

実験: 使用したデータセット 19 WHU建物データセット WHU-Mix建物データセット CrowdAIデータセット・ニュージーランドのクライストチャーチを撮影した航空写真と建物アノテーションのデータセット・空間解像度は7.5cmだが、30cmまでダウンサンプリング・WHU建物データセットに、InriaデータセットとSpaceNetのデータセットを加えたもの・RGB3バンドの衛星画像と建物アノテーションのデータセット・空間解像度は不明データセットのサイト https://gpcv.whu.edu.cn/data/buildi ng_dataset.html データセットのサイト https://gpcv.whu.edu.cn/data/whu- mix(raster)/whu_mix%20(raster).ht ml データセットのサイト https://www.aicrowd.com/challenge s/mapping-challenge

Slide 20

Slide 20 text

実験: 設定 20 実装 LLMとしてQwen3-0.6BとQwen3-1.7Bを、Vision EncoderとしてRADIO-Lを採用学習設定前ページで紹介した3つのデータセットおよびCOCOデータセットの画像より、建物それぞれの範囲から1.1～1.5倍にランダムにスケーリングして切り取り、単一の建物画像を取得手法で述べた順番（事前学習→教師ありファインチューニング→選好最適化）でチューニングを実施判読設定以下の2つの設定を採用 1. GTである建物のバウンディングボックス（oracle bbox）を用いて各建物を切り出し、 VectorLLMを用いて建物輪郭を抽出 2. LサイズのSwin TransformerをバックボーンとしたFCOSにて建物を検出し、検出結果の 1.3倍の範囲をVectorLLMに与え、建物輪郭を抽出

Slide 21

Slide 21 text

実験: 結果（WHUデータセット） 21 評価指標: AP（Average Precision）、AR（Average Recall）既存のSOTA手法より、高い精度を実現 Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 22

Slide 22 text

実験: 結果（WHU-Mixデータセット） 22 評価指標: AP（Average Precision）、AR（Average Recall） Test1はドメイン内、Test2はドメイン外の評価用データセット既存のSOTA手法より、高い精度を実現 Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 23

Slide 23 text

実験: 結果（CrowdAIデータセット） 23 評価指標: AP（Average Precision）先ほどまでのデータセットに比べ、以下の要因があり精度が下がっている 1. 空間解像度が低くぼやけているため、建物の輪郭を正確に識別することが困難 2. アノテーションの品質が低い（アノテーションの基準が統一されていない）そういったデータセットにも関わらず、既存のSOTA手法より高い精度を実現 Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 24

Slide 24 text

実験: 判読結果例（WHUデータセット） 24 既存手法に比べ、複雑な建物に対する安定性と精度が高い Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 25

Slide 25 text

実験: 判読結果例（WHU-Mixデータセット） 25 既存手法に比べ、複雑な建物に対する安定性と精度が高い Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 26

Slide 26 text

実験: 判読結果例（CrowdAIデータセット） 26 既存のSOTA手法であるP2PFormerやPolyWorldと比較 Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 27

Slide 27 text

実験: 判読結果例（失敗した事例） 27 ⚫ 一筆書きで書けない建物ドーナツポリゴンのような複数のポリゴンから成り立つ建物 ⚫ 非常に大きい建物の細部モデルには128px × 128pxで入力されており、これより大きい建物の場合はリサイズしているため Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 28

Slide 28 text

実験: Ablation studies 28 位置埋め込みの有無位置埋め込みがある方が精度が高い Vision Encoder CLIP、DinoV2、RADIOにて精度を比較 DinoV2とRADIOは同等の精度を示したが、VQA機能など将来的な拡張性を考えてRADIOを採用 Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 29

Slide 29 text

実験: Ablation studies 29 チューニング戦略事前トレーニング（pretraining）の段階を削除すると、大幅のパフォーマンスが低下 DPO（選好最適化）を使用することで、コーナーケースが改善することを確認 LLMのモデルサイズより大きいサイズ（パラメータ数が多い）の大規模言語モデルの方が精度が高くなったリモートセンシング画像から地物をベクトル形式で抽出するタスクでもモデルサイズのスケーリング則が適用可能なことが分かった Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 30

Slide 30 text

実験: モデルの一般化能力（ゼロショット性能） 30 同一タスク内のクロスドメイン能力学習データセットに含まれていない道路や水域、植生、運動場なども抽出出来ていることを確認ただし、画像上段のバウンディングボックスは、ユーザによって与えている Tao Zhang et al. “VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs,” arXiv preprint, 2025. より引用

Slide 31

Slide 31 text

31 結論 This image was generated by ChatGPT

Slide 32

Slide 32 text

結論 32 ● リモートセンシング画像から直接ベクトル形式で建物を抽出するタスクに初のマルチモーダルLLMを提案 ● WHU、WHU-Mix、CrowdAIの3データセットで SOTA パフォーマンスを達成 ● 優れた一般化機能を持っており、学習していない飛行機や水辺など多様な地物の輪郭を描けるといったゼロショット性能を示した

Slide 33

Slide 33 text

33 読んだ感想・思ったこと This image was generated by ChatGPT

Slide 34

Slide 34 text

読んだ感想・思ったこと 34 ● 大きい建物はスライディングウィンドウで判読していき、判読結果のポリゴンを融合すれば解決できるのでは？ ● VectorLLMから派生したモデルにより、将来的に色々な地物がE2Eでベクトル形式で抽出できそうだが、最終的には物体検出モデルの性能によりそう ● 判読にどのくらい時間がかかるか不明なので、実務に適用できるかは今後に期待 ● コードとモデルの重みは、オープンソースで公開しますと記載されているがまだ公開されていない？（あるある） → preprintだからかもしれないが