Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Transformer, Diffusion Modelを用いた衛星画像Hack! (AWS ...

Yuji Kobayashi
November 12, 2024
670

Transformer, Diffusion Modelを用いた衛星画像Hack! (AWS GPUインスタンスで地理情報系画像生成AIサービスは有効か?)/ Satellite Image Hack using Transformer and Diffusion Model

オービタルネットでは、高精細な衛星画像からTransformerやDiffision Model等、いわゆる画像生成AIを活用した超解像、Segmentation、Mappingなどを行い業務に適用しています。そしてこれまで内製していた処理をAmazon SageMaker等を用いてWebサービス化に取り掛かっています。しかし一般のAIサービスを異なり地理情報系の処理は広域のデータを扱うことが多く、AWS GPUインスタンスのスケールに伴い莫大なコストがかかり、ビジネスとして成り立つか微妙な判断に直面しています。このような苦悩を抱えた現状を紹介し、同様のサービスを検討されている方の参考になればと思います。

Orbitalnet, Inc. is applying super-resolution, segmentation, mapping, etc., from high-definition satellite images to its business operations by utilizing so-called image generation AI such as Transformer and Diffusion Model. We are also working on the development of web services using Amazon Sage Maker, etc., for processing that had previously been done in-house. However, unlike general AI services, geographic information processing often handles data over a wide area, and the cost of scaling AWS GPU instances is enormous, so we are facing a delicate business decision. We would like to introduce the current situation with these struggles and hope it will be helpful to those who are considering similar services.

Yuji Kobayashi

November 12, 2024
Tweet

Transcript

  1. 会社紹介 商 号 :株式会社オービタルネット 設 立 :2018年4月 資 金:5,300万円 所

    在 地 :名古屋市中区大須四丁目13-16 代 表 :代表取締役 CEO 小林 裕治 正 社 員 :5名 事業内容:FOSS4Gソリューション事業 AIソリューション事業 (役員除く)
  2. それでは本題に・・・ 前半: 衛星画像(空中写真)+画像生成AIを使用した地物のオート・マッピングの概要 後半: 上記推論工程をAWSで構築しWebサービスが成り立つかどうかの試行錯誤の実状 注: ※Transformer や Diffusionモデル を使用したAIの実装については、面倒臭いので画像生成AIとひとくくりで表現します

    ※時間の関係上、AIについてはアウトプットのみとし、技術的な内容については言及いたしません。別の機会に詳しくご紹介します ※衛星画像の超解像画像は公開できないため、超解像化したものを元の解像度に縮小したものを添付しています。
  3. (衛星画像・空中写真画像) • GeoTIFF • WorldFile付き画像 • xyzタイル画像※ 弊社における画像生成AIと地理空間情報の関係 セグメンテーション・マスク画像 Pixel座標→地理座標

    画像 位置情報 地理空間情報 (GeoJSON、シェープファイル等) 画像生成AI GDAL OpenCV ※任意のレベル・タイル範囲で動的に接合
  4. 衛星画像の鮮明化・超解像処理 画像が不鮮明であったり建物のエッジがぼやけている場合が あるので、25cm解像度の空中写真に匹敵する、建物の エッジが鮮明なセグメンテーションに適した画像を生成 インスタンス・セグメンテーション Transformerベースの画像生成AIを用いて、建物のセグ メンテーションを行い、建物と背景画像のみの画像を生成 ポリゴン化 GDALまたはOpenCVを用いて、建物セグメンテーション 画像から、建物ポリゴンデータを生成し、GeoJSONまた

    はシェープファイル形式で保存する 50㎝解像度の衛星画像(WorldView2)から 建物ポリゴンデータの生成を例に・・・ ① ② ③ 衛星画像の鮮明化・超解像処理 画像が不鮮明であったり建物のエッジがぼやけている場合が あるので、25cm解像度の空中写真に匹敵する、建物の エッジが鮮明なセグメンテーションに適した画像を生成
  5. 画像生成 AIライブラ リ 前処理・後処理プログラム 地理空間系ライブラリ 学習済 ネットワーク モデル Docker イメージ

    デプロイ クラウド環境(AWS)への移行イメージ 将来的にはSageMakerで推論用アプリを実装することを想定
  6. スケールアップ及びスケールアウトによる対応と課題  スケールアップ • p4d.24xlarge (A100×8) オンデマンド 32.77 USD/h (5,000円/h)

    360万円/月 • P5.48xlarge (H100×8) オンデマンド 98.32USD/h (15,000円/h) 1,080万円/月 • 高速処理が可能で処理時間短縮に伴い、キューの待ち時間も短縮される • そもそも本来LLMや画像生成AIの学習用途に利用されるもの • 非常に多くのサービスの利用者が見込まれるか、高額な利用料が前提となる  スケールアウト • g4dn.12xlarge オンデマンド 3.912 USD/h 43万円/月 × 複数インスタンス • 複数のGPUインスタンスを立ち上げておき、ロードバランサー等でリクエストを振り分ける • 複数アクセスには対応できるが処理時間は短縮できない • いずれにしても利用者(リクエスト)の状況がわからないため必要数の判断が難しい • 動的にスケールアウトも可能。キャパシティ予約(有料)が必要(SageMakerでは未対応→EC2) 一般的なWebサービスと比較して、何れも時間単価が桁違いに高額なため、 それに見合う高額なサービス利用料が成り立つかが判断基準となる
  7.  スケールアウト (動的) • 10k㎡の処理に3時間程度かかるため、5分~10分のインスタンス起動時間は気にならないのではないか? それなら安価なEFSでよいかも・・・ • 後工程のセグメンテーションとベクタライズ処理は超解像ほど処理時間はかからないのでこの線でいけるかも。 • いずれにしてもユーザーが衛星画像をアップして、処理が終了したらメールなどで通知という流れになる。

     初回実行の完了時間(462×424ピクセルの画像) 通常: 約29分 EFS利用: 約9分 fast snapshot restore利用: 約6分 現在、進捗はここまでです。 1. webUIからリクエスト受信後、アラームを生成してスケールアウト処理を開始(1~2分、CloudWatch) 2. AMI(Amazonマシンイメージ)でインスタンスを起動 3. リクエスト処理開始(画像分割、モデルのロード、超解像処理、画像の統合) 初回実行時はファイルを同期しながらモデルをロードする必要があり、処理効率が非常に低下するため、 EFS(Amazon Elastic File System)または fast snapshot restore を使用して処理を高速化する必要がある。