Transformer, Diffusion Modelを用いた衛星画像Hack！（AWS GPUインスタンスで地理情報系画像生成AIサービスは有効か？）/ Satellite Image Hack using Transformer and Diffusion Model

by Yuji Kobayashi

Slide 1

Slide 1 text

Transformer, Diffusion Modelを用いた衛星画像Hack! （AWS GPUインスタンスで地理情報系画像生成AIサービスは有効か?） 2024年11月

Slide 2

Slide 2 text

会社紹介商号 :株式会社オービタルネット設立 :2018年4月資金:5,300万円所在地 :名古屋市中区大須四丁目13-16 代表 :代表取締役 CEO 小林裕治正社員 :5名事業内容:FOSS4Gソリューション事業 AIソリューション事業 (役員除く)

Slide 3

Slide 3 text

QGISプラグインにおいて、CADで使用するような一連の線と図形の描画、トリムやハッチングなどの加工、カテゴリー分類・色・太さの属性編集、およびDXF 形式の図形を大きさ・位置・角度を指定して描画することを実現しました。事業内容:FOSS4Gソリューション事業  図化ソフトウェア  固定資産情報管理システム GISの機能追加というよりも特定の業務にフォーカスした支援システムの開発がメイン GISが使いこなせなくても使用できるような作りこみ

Slide 4

Slide 4 text

事業内容:AIソリューション事業清水建設様鉄骨高力ボルト締め付け自動検査のDX事例 AWS GPUインスタンスを使用した当社初めてのAI WebサービスシンプルなWebインターフェイスで現場でもスマートフォンで簡単操作これまでの目視・筆算による検査時間を1/10以下に!

Slide 5

Slide 5 text

それでは本題に・・・前半: 衛星画像（空中写真）＋画像生成AIを使用した地物のオート・マッピングの概要後半: 上記推論工程をAWSで構築しWebサービスが成り立つかどうかの試行錯誤の実状注: ※Transformer や Diffusionモデルを使用したAIの実装については、面倒臭いので画像生成AIとひとくくりで表現します ※時間の関係上、AIについてはアウトプットのみとし、技術的な内容については言及いたしません。別の機会に詳しくご紹介します ※衛星画像の超解像画像は公開できないため、超解像化したものを元の解像度に縮小したものを添付しています。

Slide 6

Slide 6 text

画像生成AIによる処理＝短期間で広範囲衛星画像による撮影＝短期間で広範囲 × ＝つまり、超短期間で最新のマッピングができるということ! 衛星画像×画像生成AIの特徴

Slide 7

Slide 7 text

（衛星画像・空中写真画像） • GeoTIFF • WorldFile付き画像 • xyzタイル画像※ 弊社における画像生成AIと地理空間情報の関係セグメンテーション・マスク画像 Pixel座標→地理座標画像位置情報地理空間情報（GeoJSON、シェープファイル等）画像生成AI GDAL OpenCV ※任意のレベル・タイル範囲で動的に接合

Slide 8

Slide 8 text

画像生成AIを使用した各種マッピング（建物） GEOSPACE CDS LEVEL18 Image (C) NTTインフラネット, Maxar Technologies 2020年（令和2年）行政活動情報・航空写真半田市、CC-BY4.0国際（https://creativecommons.org/licenses/by/4.0/deed.ja/）

Slide 9

Slide 9 text

GEOSPACE CDS LEVEL18 Image (C) NTTインフラネット, Maxar Technologies 2020年（令和2年）行政活動情報・航空写真半田市、CC-BY4.0国際（https://creativecommons.org/licenses/by/4.0/deed.ja/）画像生成AIを使用した各種マッピング（道路）

Slide 10

Slide 10 text

画像生成AIを使用した各種マッピング（白図）

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

衛星画像の鮮明化・超解像処理画像が不鮮明であったり建物のエッジがぼやけている場合があるので、25cm解像度の空中写真に匹敵する、建物のエッジが鮮明なセグメンテーションに適した画像を生成インスタンス・セグメンテーション Transformerベースの画像生成AIを用いて、建物のセグメンテーションを行い、建物と背景画像のみの画像を生成ポリゴン化 GDALまたはOpenCVを用いて、建物セグメンテーション画像から、建物ポリゴンデータを生成し、GeoJSONまたはシェープファイル形式で保存する 50㎝解像度の衛星画像（WorldView2）から建物ポリゴンデータの生成を例に・・・ ① ② ③ 衛星画像の鮮明化・超解像処理画像が不鮮明であったり建物のエッジがぼやけている場合があるので、25cm解像度の空中写真に匹敵する、建物のエッジが鮮明なセグメンテーションに適した画像を生成

Slide 15

Slide 15 text

衛星画像（非圧縮）の鮮明化・超解像処理について

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

とりわけ拡散モデルはGPUメモリを爆食いするため、１枚あたり500px*500px 以内に分割して推論を行い出力後に合成する。画像の継ぎ目の部分は目立たないよう接合調整している

Slide 25

Slide 25 text

Slide 26

Slide 26 text

広大な衛星画像のセグメンテーションも、継ぎ目なく１枚のマスク画像として出力

Slide 27

Slide 27 text

セグメンテーション・マスク画像→ポリゴン化（GDAL）

Slide 28

Slide 28 text

セグメンテーション・マスク画像→ポリゴン化（OpenCV）

Slide 29

Slide 29 text

ポリゴン化した地物はGeoJSONまたはシェープファイル形式で出力

Slide 30

Slide 30 text

このような推論用の実行環境と受託生産をクラウド環境でWebサービス化したい・・・まずは、第1工程の衛星画像の超解像・鮮明化処理で評価・検証入力:衛星画像(50cm解像度) 出力:ベクターマップ（仮称）Auto-Mappingサービス

Slide 31

Slide 31 text

画像生成 AIライブラリ前処理・後処理プログラム地理空間系ライブラリ学習済ネットワークモデル Docker イメージデプロイクラウド環境（AWS）への移行イメージ将来的にはSageMakerで推論用アプリを実装することを想定

Slide 32

Slide 32 text

AWSを使用した衛星画像超解像サービスのイメージ

Slide 33

Slide 33 text

g4dn.12xlarge（NVIDIA T4 GPU×4VM）を使用した実装

Slide 34

Slide 34 text

通常のWebサービスと違い、GPUインスタンスが必須となるため、推論サービスを不特定多数に提供する場合、処理時間や分散処理など運用面での課題が多いさらに広域な衛星画像はより多くの推論時間が必要になる GPUインスタンスを使用したAuto-Mappingサービスの課題

Slide 35

Slide 35 text

スケールアップ及びスケールアウトによる対応と課題  スケールアップ • p4d.24xlarge （A100×8）オンデマンド 32.77 USD/h (5,000円/h) 360万円/月 • P5.48xlarge （H100×8）オンデマンド 98.32USD/h (15,000円/h) 1,080万円/月 • 高速処理が可能で処理時間短縮に伴い、キューの待ち時間も短縮される • そもそも本来LLMや画像生成AIの学習用途に利用されるもの • 非常に多くのサービスの利用者が見込まれるか、高額な利用料が前提となる  スケールアウト • g4dn.12xlarge オンデマンド 3.912 USD/h 43万円/月 × 複数インスタンス • 複数のGPUインスタンスを立ち上げておき、ロードバランサー等でリクエストを振り分ける • 複数アクセスには対応できるが処理時間は短縮できない • いずれにしても利用者（リクエスト）の状況がわからないため必要数の判断が難しい • 動的にスケールアウトも可能。キャパシティ予約（有料）が必要（SageMakerでは未対応→EC2）一般的なWebサービスと比較して、何れも時間単価が桁違いに高額なため、それに見合う高額なサービス利用料が成り立つかが判断基準となる

Slide 36

Slide 36 text

 スケールアウト (動的) • 10k㎡の処理に3時間程度かかるため、5分～10分のインスタンス起動時間は気にならないのではないか? それなら安価なEFSでよいかも・・・ • 後工程のセグメンテーションとベクタライズ処理は超解像ほど処理時間はかからないのでこの線でいけるかも。 • いずれにしてもユーザーが衛星画像をアップして、処理が終了したらメールなどで通知という流れになる。  初回実行の完了時間（462×424ピクセルの画像）通常: 約29分 EFS利用: 約9分 fast snapshot restore利用: 約6分現在、進捗はここまでです。 1. webUIからリクエスト受信後、アラームを生成してスケールアウト処理を開始（1～2分、CloudWatch） 2. AMI（Amazonマシンイメージ）でインスタンスを起動 3. リクエスト処理開始（画像分割、モデルのロード、超解像処理、画像の統合）初回実行時はファイルを同期しながらモデルをロードする必要があり、処理効率が非常に低下するため、 EFS（Amazon Elastic File System）または fast snapshot restore を使用して処理を高速化する必要がある。

Slide 37

Slide 37 text

AWSを使用した衛星画像超解像サービスのイメージ（Auto-Scale）

Slide 38

Slide 38 text

まとめ  衛星画像×画像生成AIを使うことで超短期間でマッピングが可能  衛星画像を用いたセグメンテーションは前工程に超解像処理が必要  衛星画像など広範囲の推論は時間がかかり、クラウドサービスではGPUインスタンスが必須  GPUインスタンスは処理能力に比例して高価になる。一般的なWebサービスと比較してサービス料も高価になる。マッピングサービスはその価値があるのか需要を見極める必要がある  とりあえず動的なスケールアウトで対応してみることにした

Slide 39

Slide 39 text

ご清聴ありがとうございました!