Composed image retrieval for remote sensing

Slide 1

Slide 1 text

Composed image retrieval for remote sensing  株式会社天地人  中村凌  1 IGARSS 2024 ORAL paper 第１回 SatAI.challenge勉強会 

Slide 2

Slide 2 text

目次   2 ● 自己紹介スライド  ● 研究の1ページサマリ紹介   ● 研究の背景（Introduction）   ● 手法について（Method）   ● 実験（Experimet）  ● 結論（Conclusion） 

Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

中村凌過去研究テーマ：Formula-driven Superised Learning, Weakly supervised object localization，Output Augmentation 自己紹介 Twitter LinkedIn 4 株式会社天地人 / SatAI・cvpaper.challenge HQ (福岡大学出身) 天地人での仕事 - 宇宙水道局（AIを活用したリスク診断） - 降水量予測と電波減衰量予測過去の業績 - 研究効率化Tips (ViEW2021招待講演) - CCCS,W2021/2022 GC PC(登録者800名超え) - IROS / ICCV 2023, ICASSP / ECCV / ICPR2024採択 - SSII2023オーディエンス賞受賞

Slide 5

Slide 5 text

Composed image retrieval for remote sensing   5 ● 膨大にある衛星画像を検索する上で画像検索の技術が重要になるが、画像検索分野では、画像-画像の検索、text-画像の検索などの単一モダリティの限界があった   ● そこで、CLIP (Contrastive Language-Image Pre-Training)のモデルを活用することでトレーニングせずにテキストと画像を使った手法を提案   ● また、PatternComと呼ばれる評価用データセットを提案している   ● このデータセットにはクラスのcolor, context, density, existence, quantity, shape, size or textureの属性をユーザーがラベルづけしていて、属性に基づいて画像検索を可能にしている     画像とテキストを用いて衛星画像を検索する組み合わせ画像検索タスク・手法を導入   Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用

Slide 6

Slide 6 text

Introduction - 研究領域について   6 ● リモートセンシングによる地球観測では、データ量が増加しており関連情報の管理と抽出が課題となっている   ● 膨大なアーカイブを効率的に整理し、特定の画像を迅速に取得することが大事   ○ そのような技術としてRemote sensing image retreval(RSIR)がある   ○ このタスクはリモートセンシング画像アーカイブから画像を検索・取得することが目的     This image was generated by ChatGPT

Slide 7

Slide 7 text

Introduction - 研究領域について   7 ● RSIRの手法はクエリ画像と取得画像が同じソース（情報源）から取得されたものかどうかで変わる   ● 大きく２種類「ユニソース」と「クロスソース」に分類される   ● ユニソース画像検索   ○ ユニソース検索とは、クエリとして使用された画像と検索によって取得された画像が、同じ情報源（ソース）から取得された場合を指す。   ○ 同じセンサーなどの同一条件下で取得された画像のこと   ○ ユニソースの中にシングルラベル検索（画像が１つのラベルに基づいて関連づけられている検索）する方法とマルチラベル検索（複数のラベルに関連づけられている検索）   ● クロスソース  ○ クロスソース検索とは、クエリ画像と取得された画像が異なる情報源（ソース）から取得された場合を指す       Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用＝  ユニソース：同じセンサーから取得  クロスソース：同じセンサーから取得されてない  ≠ 

Slide 8

Slide 8 text

Introduction - 限界とモチベーション   8 ● ただ、これらの手法は単一モダリティのクエリという限界がある   ● この限界を払拭するのがComposed image retrieval（CIR、組み合わせ画像検索）という技術   ○ CIRは検索クエリに画像とテキストを統合し、クエリ画像と視覚的に類似しているだけでなく、添えられたクエリテキストに関連する画像を検索するように設計される   ● 本論文では、リモセンにおけるCIRを導入すべく、手法とデータセットの提案を行う   ● CLIPの事前学習モデルを活用することでトレーニング不要のアプローチとなっている     Nam Vo et al. (2018), “Composing Text and Image for Image Retrieval - An Empirical Odyssey”, arXiv. より引用

Slide 9

Slide 9 text

手法について - 本論文の問題設定   9 ● 組み合わせ画像検索（Composed image retrieval）：画像とテキストの複合検索クエリから、クエリテキストに基づいて画像を検索することが目的   ○ つまりクラス情報を持つクエリ画像 y とテキストクエリ t を用いて、Image Dataset X 内のテキストクエリに該当する画像 x を取り出すこと   ？  Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用

Slide 10

Slide 10 text

手法について - WeiCom   10 ● WeiComはそれぞれのEncoderから出力されたベクトルと画像の類似度を計算、   ● その後、Distribution Normalizationを行う。  ○ 得られたベクトルを経験分布とみなして、それを標準正規分布に変換する(平均0、分散１に標準化する)   ○ 標準正規分布に変換されたデータを累積分布関数（CDF）適用することで正規化された類似度スコアを0~1 の範囲に収める  ● それぞれの出力を重み付き平均を計算して、argmaxで最も高い値から検索画像xを求める   Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用

Slide 11

Slide 11 text

手法について - 比較に使用するベースライン説明   11 ● Unimodal  ○ Text :Query text側のみの出力と画像xとの内積（類似度）→l2正規化   ○ Image :Query image側のみの出力と画像xとの内積（類似度）→l2正規化   ● Multimodal  ○ Text & image：Unimodalで求めた２つの内積（類似度）の平均   Text  Image  Text & image  Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用

Slide 12

Slide 12 text

● Datasets（ PatternCom ）  ○ PatternComはPATTERNETと呼ばれる大規模高解像度リモートセンシング画像検索データセットを改良したデータセット  ○ PatternNet以下の図のようにクラスを38クラス持ち、各クラス256×256ピクセルの画像が800枚で構成されている。  ○ PatternComでは、PatternNetのクエリ画像にいくつか選んでそのクラスに関連する属性を定義するテキストクエリを追加  ■ 例えば、スイミングプールのクエリ画像には形状として、長方形、円、腎臓系というテキストクエリを追加  ○ 各属性は、各クラスにつき2~5つの値にを持つ   ○ Positiveの数は2~1345で合計21000以上ある。   ○   Experimental settings   12 PatternNetの例  6つの属性のうち２つの属性の例を提示  Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用

Slide 13

Slide 13 text

Experimental settings   13 ● Network：CLIP or Remote CLIPのViT-L/14のimage encoder   ● Evaluation metric：mAPを使用。mAPは全てのクエリに対するAPの平均で、APは、各データを類似度に基づいてランキングで並び替えて、そのリストの中で探したいアイテムが発見された際の各トップk結果の適合率を計算し、その平均を取ったもの   Alec Radford et al. (2021), “Learning Transferable Visual Models From Natural Language Supervision”, arXiv. より引用 Fan Liu et al. (2024), “RemoteCLIP: A Vision Language Foundation Model for Remote Sensing”, arXiv. より引用 CLIP  RemoteCLIP 

Slide 14

Slide 14 text

Qualitative results   14 ● WEICOMとRemoteCLIPを使用してPatternComで構図画像検索を実行した際の定性的な結果が以下   ● (a)-(h)の図は、主要な属性である色、コンテクスト、密度、量、形状サイズ、サイズ、質感を表している   ● 各例は、クエリテキストで各属性値の変更を指定した選択された属性の1つに対応しています。   ● ただし(b)(d)は複数のクラスと属性に拡張している   Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用

Slide 15

Slide 15 text

Qualitative results   ● 6つの属性についてCLIP & RemoteCLIPを使用して構図画像検索の定量的評価を実施   ● 結果の特徴  ○ WeiComはベースラインと比較して高い精度を記録   ○ CLIPとRemoteCLIPの比較ではColor以外の値でRemoteCLIPの方が精度良い   ○ 双方、Colorに対する検索性能が比較的に高い   15 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用

Slide 16

Slide 16 text

Ablation study   ● λの値を0.1ずつ変更することでmAPがどのように変更するのか？を確認   ● λが高い方がテキスト側の正規化された類似度を使用している   ● 結果の特徴  ○ 全ての属性はλを適用した方が高い精度を記録している   ○ テキスト側と画像側の類似度が重み付き平均されると比較的に精度向上が大きい？   16 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用

Slide 17

Slide 17 text

Conclusion   ● 本論文ではComposed image retrieval（組み合わせ画像検索）という新しいタスクを導入し、そのためのデータセットPatternComというデータセットも導入しました   ● また、本論文では、組み合わせ画像検索を行うためのtraining-freeでコントロール可能なパラメータλを用いた WeiComという手法の導入も行った   ● 組み合わせ画像検索タスクにおいて本論文が最先端   17 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用