Save 37% off PRO during our Black Friday Sale! »

QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection

1bffbb262f4620fad80d3fca5c538d10?s=47 @Keiku
June 03, 2021

QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection

1bffbb262f4620fad80d3fca5c538d10?s=128

@Keiku

June 03, 2021
Tweet

Transcript

  1. confidential Mobility Technologies Co., Ltd. QueryDet: Cascaded Sparse Query for

    Accelerating High-Resolution Small Object Detection Keiichi Kuroyanagi AI Technology Development Dept. Mobility Technologies Co.,Ltd.
  2. confidential Mobility Technologies Co., Ltd. アジェンダ 2 n Abstract n

    1. Introduction n 2. Related Works n 3. Methods • 3.1. Revisiting RetinaNet • 3.2. Accelerating Inference by Sparse Query • 3.3. Training • 3.4. Relationships with Related Work n 4. Experiments • 4.1. Implementation Details • 4.2. Effectiveness of Our Approach • 4.3. Ablation Studies • 4.4. Discussions • 4.5. Comparison with State-of-the-art Methods • 4.6. Visualization and Failure Cases n 5. Conclusion
  3. confidential Mobility Technologies Co., Ltd. Abstract 3 n 概要 •

    近年の深層学習をもちいた⼀般的な物体検出は⼤きな成果を上げているが、⼩さな物体を検出する 際の性能については満⾜できるものではない • ⼩さい物体を検出ためには、⾼解像度の画像もしくは特徴マップを使⽤する • しかし、画像や特徴量のサイズが⼤きくなると、計算コストが正⽐例に増加する • 特徴ピラミッドベースのオブジェクト検出器の推論速度を加速するために新しいクエリメカニズム を使⽤するQueryDetを提案する n 提案⼿法 • 以下の2つのパイプラインで構成される • 低解像度の特徴上で⼩さなオブジェクトの粗い位置を予測する • 次に、それらの粗い位置によって特定された疎な⾼解像度の特徴を⽤いて正確な検出結果を計算する • ⾼解像度の特徴量マップの利点を享受できるだけでなく、背景領域に対する無駄な計算を回避する ことができる n 性能 • ⼈気の⾼いCOCOデータセットにおいて,提案⼿法は検出mAPを1.0、mAP-smallを2.0改善し、⾼ 解像度推論速度は平均で3.0倍に向上した • より多くの⼩さな物体が含まれるVisDroneデータセットでは、平均で2.3倍の⾼解像度推論速度を 獲得しつつ、新たな最先端技術を⽣み出した n ソースコード • https://github.com/ChenhongyiYang/QueryDet-PyTorch
  4. confidential Mobility Technologies Co., Ltd. 1. Introduction 4 n ⼩さな物体の検出

    • RetinaNetでは、中型および⼤型のオブジェクトで44.1および51.2mAPを達成するが、COCO test- devでは⼩さなオブジェクトで24.1mAPしかでない n ⼩さな物体の検出における性能劣化の要因 • 畳み込みニューラルネットワーク(CNN)のバックボーンでのダウンサンプリング操作により、⼩ さなオブジェクトの特徴が損なわれ、バックグラウンドのノイズによって汚染される • 低解像度の特徴の受容野は⼩さなオブジェクトのサイズと⼀致しない場合がある[27] • バウンディングボックスの⼩さな摂動がIoUに重⼤な弊害を引き起こす可能性があるため、⼩さな オブジェクトのローカライズは⼤きなオブジェクトよりも困難である n ⼩さな物体の検出に対する⼀般的なアプローチ • ⼀般に、⼩さな物体の検出は、⼊⼒画像のサイズを拡⼤したり、CNNのダウンサンプリングレート を下げて⾼解像度の特徴を維持することで、結果として得られる特徴マップの有効な解像度を向上 させることができるが、単に解像度を上げるだけでは計算コストがかかってしまう • この問題を解決するために、 CNNの異なる層からマルチスケールの特徴マップを再利⽤して、特 徴ピラミッドを構築することを提案した作品がいくつかある[31, 2, 28] • とはいえ、低レベルの特徴に基づく検出ヘッドの計算の複雑さは、特に重いヘッドを持つ検出器 (例えば、Retinaの4-convヘッドなど)では、膨⼤な計算量になる。例えば、RetinaNetにピラ ミッドレベルP2を追加すると、検出ヘッドの計算量(FLOPs)とメモリコストが約300%増加し、 NVIDIA 2080Ti GPUでは推論速度が13.6 FPSから4.85 FPSに⼤幅に低下する
  5. confidential Mobility Technologies Co., Ltd. 1. Introduction 5 n 提案⼿法

    • ⼩物体の性能を促進しつつ、検出ヘッドの計算量を節約するために、シンプルで効果的な⼿法であ るQueryDetを提案する n 動機 • 低レベルの特徴に関する計算は⾮常に冗⻑である。ほとんどの場合、⼩物体の空間的な分布は⾮常 に疎であり、⾼解像度の特徴マップのわずかな部分しか占めていないため、⼤量の計算が無駄に なっている • 特徴量ピラミッドは⾼度に構造化されているため、低解像度の特徴マップでは⼩物体を正確に検出 できなくても、⼩物体の存在と⼤まかな位置を⾼い信頼度で推測することができる n クエリメカニズム(Cascade Sparse Query (CSQ)) • 低解像度の特徴マップ上の⼩さなオブジェクト(クエリ)の⼤まかな位置を再帰的に予測し、それ を⾼解像度の特徴マップでの計算のガイドとして使⽤する • スパースコンボリューション[14, 61]を⽤いることで、⼩物体の検出精度を維持しつつ、低レベル の特徴量に対する検出ヘッドの計算コストを⼤幅に削減する • 空間的に計算を節約するように設計されているため、light-weighted backbones[49]、model pruning[17]、model quantization[56]、knowledge distillation[6]などの他の⾼速化⼿法との互換 性がある n 性能 • COCOと、⼤量の⼩さなオブジェクトを含むVisDroneで評価する。主な貢献は以下の2つ • Cascade Sparse Query (CSQ)により特徴ピラミッドベースの物体検出器の計算コストを削減すること ができる。本⼿法により⾼速な推論速度を維持しつつ、⼩さな物体の検出性能を向上させた • COCOでは、RetinaNetのベースラインに⽐べてmAPを1.1、mAP-smallを2.0向上させ、CSQを採⽤ した場合は、⾼解像度の速度を平均で3.0倍向上、 VisDroneでは、検出mAPでSOTAの結果を得て、⾼ 解像度の速度を平均で2.3倍向上させた
  6. confidential Mobility Technologies Co., Ltd. Cascade Sparse Query (CSQ) 6

    n Cascade Sparse Query (CSQ)の概略図 • ⼩物体が存在する可能性のある場所(クエリキー)をまず低解像度の特徴量で予測し、その場所の ⾼解像度の特徴量を⽤いてスパースな特徴量マップ(クエリバリュー)を構築する • 最後に、スパースな検出ヘッドを⽤いて、検出されたボックスを出⼒する。このパラダイムをカス ケード⽅式で適⽤することで、⾼速かつ正確な⼩物体を⾼速かつ正確に検出することができる
  7. confidential Mobility Technologies Co., Ltd. 2. Related Works 7 n

    物体検出 • ディープラーニングに基づく物体検出は主に2つ種類がある • R-CNNベースの2段階検出法[13, 12, 43, 28, 3]と,YOLOやSSDが開発した1段階検出法[18, 39, 40, 41, 31, 68] • ⼀般的に、2段階⽅式は1段階⽅式よりも精度が⾼い傾向にある。しかし、最近ではこれら2つの⼿ 法の性能差が縮まってきている • RetinaNet[29]は、2段⽅式の検出器と同等の性能を持つ、初の1段⽅式のアンカーベースの検出器 • マルチスケール検出のためにFPN[28]を採⽤し、密な検出器の学習過程で発⽣する前景と背景の不均衡 問題を処理するためにFocalLossを提案 • 本論⽂ではRetinaNetとFCOS[50]に基づいてQueryDetを実装しその⼿法の有効性と⼀般化を⽰す n ⼩さな物体認識 • この問題に対するアプローチとしては以下の4種類がある 1. ⼊⼒特徴の解像度を上げる [31, 2, 23, 11, 28, 46, 26, 53] 2. オーバーサンプリングと強⼒なデータ増強 [31, 21, 75] 3. ⽂脈情報の取り込み [7, 64, 5] 4. スケールを考慮した学習 [28, 47, 48, 27] n 空間的冗⻑性(Spatial Redundancy) • 計算コストを節約するために、いくつかの⽅法でCNNの空間的冗⻑性を利⽤したスパース計算が⾏ われている • PerforatedCNN[10]、Dynamic Convolution[52]、Spatially Adaptive Computation time(SACT)[9]、 SBNet[42]など • 類似した作品として、AutoFocus[35]がある。AutoFocusは、最初に粗いスケールで関⼼領域を予 測して切り取り、次に最終的な予測のためにより⼤きな解像度にスケールアップする
  8. confidential Mobility Technologies Co., Ltd. 3. Methods 8 n QueryDetの構築⽅法

    • ⼀般的なアンカーベースの1段階検出器であるRetinaNet[29]に基づいて、QueryDetを実装する • RetinaNetに限らず、任意の1段階検出器や、特徴ピラミッドを⽤いた2段階検出器における領域提 案ネットワーク(RPN)にも適⽤できることに注意する • まず、RetinaNetを再検討し、異なるコンポーネントの計算コスト分布を分析する • 次に、推論段階でRetinaNetの計算コストを削減する⽅法を紹介する • 最後に、学習の詳細について説明する
  9. confidential Mobility Technologies Co., Ltd. 3.1. Revisiting RetinaNet 9 n

    RetinaNet • RetinaNetはマルチスケールの特徴マップを出⼒する特徴ピラミッドネットワーク(FPN)を備え たバックボーンと、分類と回帰のための2つの検出ヘッドの2つの部分で構成される • RetinaNetのP7からP3までの検出ヘッドのFLOPsは,特徴解像度のスケーリングによって2次関数 的に増加する • RetinaNetではP3ヘッドがほぼ半分のFLOPsを占めているのに対し、低解像度の特徴であるP4〜 P7のコストはP4からP7までの低解像度の特徴のコストは15%に過ぎない • もしFPNをP2に拡張して⼩さなオブジェクトの性能を向上させたい場合でもP2とP3が全体のコス トの75%を占めているため、コスト的に⼿が出せない • QueryDetであれば、⾼解像度のP2を追加しても、RetinaNetの推論速度を向上させることができ る
  10. confidential Mobility Technologies Co., Ltd. 3.2. Accelerating Inference by Sparse

    Query 10 n クエリ処理 • 最近のFPNベースの検出器の設計では、⼩物体は⾼解像度の低レベル特徴マップから検出される傾 向にある。しかし、⼩さな物体は通常、空間に疎らに存在しているため、⾼解像度の特徴マップ上 での密な計算パラダイムは⾮常に⾮効率的である • まず、粗いフィーチャーマップで⼩物体の⼤まかな位置を予測し、次に細かいフィーチャーマップ で対応する位置を集中的に計算する • この処理は、クエリ処理(⼤まかな位置はクエリキーであり、⼩物体の検出に使⽤される⾼解像度 の特徴量はクエリバリュー)と⾒なすことができる • このことからこのアプローチをQueryDetと呼ぶ。以下はこの⼿法の完全なパイプラインである
  11. confidential Mobility Technologies Co., Ltd. 3.2. Accelerating Inference by Sparse

    Query 11 n クエリヘッド • ⼩さな物体の粗い位置を予測するために、分類ヘッドと回帰ヘッドに並⾏して、クエリヘッドを追 加する • クエリヘッドは、ストライド 2! の特徴量マップ 𝑃! を⼊⼒とし、グリッド (𝑖, 𝑗) に⼩物体が含まれ ている確率を 𝑉 ! ",$ としたヒートマップ 𝑉! ∈ 𝑅%!×'! を出⼒する • 形式的には、中⼼位置 (𝑥( , 𝑦( ) を持つ任意のオブジェクト 𝑂 について、そのサイズがあらかじめ定 義されたしきい値 𝑠! よりも⼩さい場合、 𝑉! 上の対応する位置 𝑞! ( = (𝑥! (, 𝑦! () のラベルは 1 に設定さ れ、そうでない場合は 0 に設定する • 推論の際は、予測されたスコアが閾値 𝜎 よりも⼤きい点をクエリとして選択する • 簡略化のため、 𝑃! 上の最⼩のアンカースケールとして 𝑠! をセットする • そして、 𝑞! ( は 𝑃!)* 上の4つの最近傍にキーポジション {𝑘!)* ( } としてマッピングされる • 𝑃!)* 上のすべての {𝑘!)* ( } を集めてキーポジションセット {𝑘!)* } を形成し、そして 𝑃!)* 上の3つの ヘッドは、検出と次のレベルのクエリのためにそれらの位置のみを計算する • 具体的には、 𝑃!)* から {𝑘!)* } を指標として特徴量を抽出し、バリュー特徴量(value features)と 呼ぶ疎なテンソル 𝑃!)* + を構築する • 次に、スパースコンボリューション[14] (spconv) カーネルは、層 𝑙 − 1 の結果を計算するために、 4-convの密なheadの重みを⽤いて構築される • 推論速度を最⼤化するために、カスケード⽅式でクエリを適⽤する。特に、 𝑃!), に対するクエリ は {𝑘!)* } からのみ⽣成される。このパラダイムをCascade Sparse Query (CSQ)と名付ける。こ のCSQの利点として、単⼀の 𝑃! からクエリ {𝑞! } を⽣成することを避けることができる
  12. confidential Mobility Technologies Co., Ltd. 3.3. Training 12 n 学習

    • 分類と回帰の学習については,オリジナルのRetinaNetと同様 • クエリーヘッドに関しては、各 𝑃! に対してバイナリターゲットマップを⽣成し、学習にはfocal loss[29]を採⽤する • 𝑃! 上の⼩物体 𝑜 のGTバウンディングボックスを 𝐵! " = (𝑥! ", 𝑦! ", 𝑤! ", ℎ! ") とする • 𝑃! 上の各位置 (𝑥, 𝑦) と、すべての⼩さなGTの中⼼ {(𝑥! ", 𝑦! " )} との間の最⼩距離マップ 𝐷! を計算する • GTクエリマップ 𝑉! ∗ は次のように定義される n 損失関数 • 各 𝑃! に対して、損失関数は以下のように定義する • ここで、𝑈!, 𝑅!, 𝑉! は分類出⼒、回帰出⼒、クエリスコア出⼒で、𝑈! ∗, 𝑅! ∗, 𝑉! ∗ はそれぞれ対応するGT マップを表す。𝐿./ はfocal loss、𝐿* はsmooth l1 lossを表す。全体的な損失は次のように定義する
  13. confidential Mobility Technologies Co., Ltd. 3.4. Relationships with Related Work

    13 n RPNとの関連性 • QueryDetは、領域提案ネットワーク(RPN)を⽤いた2段階の物体検出器といくつかの類似点があ る 1. QueryDetによる粗い予測では、Boxの回帰を伴わない分類のみであるのに対し、RPNはその両⽅ を備えている 2. RPNは全特徴マップがすべてのレベルで計算されるが、QueryDetの計算はスパースで選択的であ る 3. 2段階の⼿法では、第1段階の提案に特徴に沿ったRoIAlign[15]やRoIPooling[12]などの操作に依存 する。しかし、 QueryDetによる粗い予測ではBoxの出⼒がないため、これらは使⽤されない • 注⽬すべきは、提案⼿法はプロポーザル⽣成を⾼速化するために2段検出器のRPNに組み込むこと ができるため、特徴ピラミッドを⽤いたRPNと互換性がある n PointRendとの関連性 • ⾮常に少数の適応的に選択されたポイントを使⽤して⾼解像度のセグメンテーションマップを計算 するPointRendが存在する。これとの違いは以下の通り 1. キーとなる位置情報のクエリを⽣成する⽅法 2. ⾼解像度の特徴に対する⾼速な推論を実現する⽅法 • PointRendは、各ポイントの予測スコアに基づいて最も不確実な領域を選択しますが、QueryDet は教師として補助的な損失を直接追加している。実験によると、この単純な⽅法は⾼い再現率の予 測を⽣成するだけでなく、最終的な性能を向上させる • 2番⽬の⽅法として、PointRendは、ピクセルごとの分類に多層パーセプトロンを使⽤している。 これは、⾼解像度の特徴マップの1つの場所からの特徴のみを必要とするため、簡単にバッチ処理 を⾏うことができ⾼い効率性を実現するが、正確な位置特定のためにより多くのコンテキスト情報 が必要とする。⼀⽅で、QueryDetは3×3カーネルを⽤いたスパースコンボリューション[14]を採 ⽤することで効率化している
  14. confidential Mobility Technologies Co., Ltd. 4. Experiments 14 n 実験内容

    • COCO[30]とVisDrone[74]の2つの物体検出データセットを⽤いて定量的な実験を⾏った • COCOは⼀般的な物体検出のために最も広く使⽤されているデータセットです • VisDroneはドローンショット画像の検出に特化したデータセットであり、このデータセットでは⼩ さな物体がスケール分布の⼤半を占めており、COCOとは⼤きく異なる • QueryDetの優位性を⽰し、またそのアプローチをより深く理解するために、まず両データセット でアブレーション研究を含むいくつかの実験を⾏う • そして、このアプローチを他の最先端の⼿法と⽐較する
  15. confidential Mobility Technologies Co., Ltd. 4.1. Implementation Details 15 n

    実装⽅法 • PyTorch[36]とDetectron2ツールキット[58]に基づいて、QueryDetを実装した • すべてのモデルは、8台のNVIDIA 2080Ti GPUで学習される n 学習⽅法 • COCOでは、⼀般的な学習⽅法を採⽤する • Detectron2では、標準的な1×スケジュールとデフォルトのデータ補強を採⽤する • バッチサイズは16とし、初期学習率は0.01とした • 異なる層間の損失を再バランスさせるための重み 𝛽! は、P2からP7にかけて1から3まで線形に成⻑ するように設定されている • VisDroneでは、[32]に従い、1枚の画像を4つの⾮重複パッチに均等に分割し、学習時にはそれらを 独⽴して処理する • 最初の学習率を0.01とし、50kのイテレーションでネットワークを学習し、30kと40kのイテレー ションで学習率を10倍ずつ減少させる • 再バランスの重み 𝛽! は1から2.6まで線形に成⻑するように設定されている • クエリ閾値 𝜎 は、全ての層で0.15に設定し、P4からクエリを開始する。本⼿法はResNet-50をバッ クボーンとするRetinaNet上で構築されている
  16. confidential Mobility Technologies Co., Ltd. 4.2. Effectiveness of Our Approach

    16 n COCOの実験結果(Table 1.) • COCOでQueryDetとRetinaNetに関して、mAPとFPSを⽐較する • RetinaNetベースラインは13.6FPSで動作し、全体のAPは37.46、⼩さい物体のAP-smallは22.64で、 元の論⽂[29]の結果よりもわずかに⾼くなっている • ⾼解像度の特徴を利⽤することで、我々のアプローチは38.53APと24.64AP-smallを達成し、APと AP-smallは1.1と2.0改善した • この結果から、⼩さな物体を検出する際に⾼解像度の特徴を使⽤することの重要性が明らかになっ たものの、⾼解像度の特徴を取り⼊れることで、推論速度は4.85 FPSと⼤幅に低下した • しかし、Cascade Sparse Query(CSQ)を採⽤すると、推論速度は14.88 FPSに向上し、⾼解像 度のP2を使⽤しないベースラインのRetinaNetよりも⾼速になったが、性能低下はごくわずかと なっている • 3×トレーニングスケジュールの結果によれば、ベースラインが強化されても、本⼿法の改善効果 は弱まらず、より⼤きくFPSは向上した。これはQueryヘッドのトレーニングを改善したことによ るもの
  17. confidential Mobility Technologies Co., Ltd. 4.2. Effectiveness of Our Approach

    17 n VisDroneの実験結果(Table 2.) • 表2に⽰すように、発⾒は似ているが、結果はさらに⼤きなものとなった • この⼩さなオブジェクトが多く含まれるデータセットにおいて、全体のAPを2.1、AP50を3.2向上 させた • 推論速度は、2.75FPSから1.16FPSへと、2.3倍に向上している
  18. confidential Mobility Technologies Co., Ltd. 4.3. Ablation Studies 18 n

    各コンポーネントごとの精度⽐較(Table 3.) • COCO mini-val setでアブレーションの研究を⾏い、各コンポーネントが検出精度と速度にどのよ うに影響するかを分析した結果を表3に⽰す • 再学習したRetinaNetは、37.46のAPを達成した。⾼解像度のP2を追加する(HR)と、APは1.34 と劇的に低下します。3.3節で述べたように、この問題はP2を追加した後に学習サンプルの分布が 変化したことに起因する • そこで、これらのレイヤーの損失を再バランス(RB)させる。結果は38.11に改善され、この問題 はほぼ解決された • 興味深いことに、元のベースラインに採⽤した場合、再バランス戦略はわずかなAP向上(0.2)し か得られません。リバランスは⾼解像度のシナリオではより重要であることを⽰唆している • 次に、クエリヘッドをネットワークに追加した(QH)ところ、APが0.42、AP-smallが1.58増加し、 APとAP-smallの合計は38.53と24.64となり、追加の客観性監視の有効性が確認された • 最後に、CSQを使⽤した(CSQ)場合、検出速度は4.85 FPSから14.88 FPSに⼤きく改善され、検 出APの0.17の損失は無視できるレベルとなっている
  19. confidential Mobility Technologies Co., Ltd. 4.4. Discussions 19 n クエリのしきい値の影響(Figure

    4.) • ⼊⼒画像中のグリッドにスモールオブジェクトが含まれているかどうかを判定する役割を持つクエ リ閾値 𝜎 を変えて、検出精度(AP)と検出速度(FPS)を測定した • 直感的には、この閾値を⼤きくすると、⼩さな物体の想起率は低下するが、考慮される点が少なくなる ため、推論が⾼速化される • 1つの曲線の中で隣り合うデータマーカーに対して、順次 𝜎 を0.05ずつ増加させている。左端のマー カーはCSQを適⽤しない場合の性能を⽰している • ⾮常に低い閾値(0.05)であっても、⼤きな速度向上が得られており、CSQの有効性を証明している • もう1つの観察結果として、異なる⼊⼒解像度におけるAPの上限値と下限値のギャップがある • このギャップは、⼤きな⼊⼒では⼩さく、⼩さな⼊⼒では⼤きくなります。これは、⾼解像度の⼊⼒に 対して我々のCSQが良好なAP下限値を保証できることを⽰している
  20. confidential Mobility Technologies Co., Ltd. 4.4. Discussions 20 n どの層からクエリを開始するか?(Table

    4.) • CSQでは、⼤きな物体の検出結果を得るために、従来の畳み込み処理を⾏うことに加えて、どの層 からクエリを開始するかを決める必要がある • CSQを最低解像度のレイヤーから始めない理由は以下の2つ 1. 通常の畳み込み演算は、低解像度の特徴に対して⾮常に⾼速であるため、CSQによって節約され た時間は、疎な特徴マップを構築するために必要な時間として補うことができない 2. 解像度の低い特徴マップでは、⼩さな物体を識別することが困難です。 • これらを⽰す結果を表4に⽰す。推論速度が最も⾼い層はP4であり、P5やP6のような⾮常に⾼いレ ベルの層からのクエリでは速度が低下することが検証された • これは、ネットワークが⾮常に低い解像度の層で⼩さな物体を⾒つけるのが難しいことを⽰唆して いる
  21. confidential Mobility Technologies Co., Ltd. 4.4. Discussions 21 n クエリの最適な使⽤⽅法とは?(Table

    5.) • CSQの効率の良さを実証するために、⽐較として2種類のクエリ操作を提案する • 1つ⽬のCrop Query(CQ)では、クエリによって⽰された対応する領域が、後続の計算のために⾼ 解像度の特徴から切り取られる。このタイプのクエリは、AutoFocus[35]のアプローチに似ている ことに注意する • CQは、特徴マップから11×11のパッチを切り出すが、このパッチは検出ヘッドの5つの3×3の連続し た畳み込みの受容野に合うように選択される • もう1つは、Complete Convolution Query(CCQ)で、通常の畳み込みを⽤いて各層の完全な特徴 マップを計算するが、後処理のために照会された位置の結果のみを抽出するものである • その結果を表5に⽰す。⼀般に、3つの⼿法はいずれも無視できる程度のAPロスで推論を⾼速化す ることに成功している。その中でもCSQは最も速い推論速度を達成することができる
  22. confidential Mobility Technologies Co., Ltd. 4.4. Discussions 22 n 軽量バックボーンでの結果(Table

    6.) • CSQは、検出ヘッドの計算を⾼速化することを⽬的としているため、軽量バックボーンを使⽤した 場合、バックボーンネットワークの推論時間が少なくなるため、全体的な⾼速化がより明確になる • 表6に異なる軽量なバックボーンの結果をレポートする • 特に、MobileNet V2[45]では⾼解像度の検出で平均4.1倍、ShuffleNet V2[34]では平均3.8倍まで⾼ 速化されており、本⼿法がリアルタイム・アプリケーション⽤のエッジ・デバイスに容易に導⼊で きることが実証されている
  23. confidential Mobility Technologies Co., Ltd. 4.4. Discussions 23 n クエリメカニズムの普遍性(Table

    7.) • 先に述べたように、QueryDetはあらゆるFPNベースの検出器に適⽤することができ、⾼解像度の 検出を⾼速化することができる • そこで、最先端のアンカーフリー検出器であるFCOSにQueryDetを適⽤し、COCOの結果を表7に 報告する • QueryDetは⾼解像度の特徴の助けを借りてAPを改善し、Cascade Sparse Query(CSQ)を採⽤し た場合には、⾼解像度の速度が平均で1.8倍改善され、提案されたアプローチの普遍性が検証され たと結論づけることができる
  24. confidential Mobility Technologies Co., Ltd. 4.5. Comparison with State-of-the-art Methods

    24 n COCO 2017 test-devでの結果(Table 8.) • QueryDetは43.2APという性能を達成している。具体的には、⾼解像度の特徴とクエリの学習によ り、⼩さな物体に対して26.9APを達成し、本⼿法が優れていることを⽰している • ここでは、さらなる精度向上のために、GIoU損失[44]と、FCOSの実験で説明した修正バッチ正規 化を使⽤している
  25. confidential Mobility Technologies Co., Ltd. 4.5. Comparison with State-of-the-art Methods

    25 n VisDroneでの結果(Table 9.) • テストセットのアノテーションにアクセスすることができないため、VisDrone検証セットにおいて、 QueryDetと他の最新のアプローチを⽐較している • 提案したQueryDetは、このデータセットにおいて最先端(33.91 AP)を達成した • この結果は、データセットのスケール分布と、⾼解像度の特徴を効果的に利⽤したことにより、 COCOでの結果よりも顕著です
  26. confidential Mobility Technologies Co., Ltd. 4.6. Visualization and Failure Cases

    26 n それぞれの失敗例(Figure 5.) • 2つの典型的な失敗例を紹介します。 1. ⼩さな物体の位置がクエリヘッドによって正しく抽出されても、検出ヘッドはそれらをローカラ イズできない(VisDroneの2枚⽬の画像) 2. ⼤きな物体の位置が誤ってアクティブになり、検出ヘッドが無駄な位置を処理してしまい、速度 が低下する(COCOの1枚⽬の画像)
  27. confidential Mobility Technologies Co., Ltd. 5. Conclusion 27 n 結論

    • 新しいクエリメカニズムCascade Sparse Query (CSQ)を⽤いて、特徴ピラミッドベースの密なオ ブジェクト検出器の推論を⾼速化するQueryDetを提案する • QueryDetにより、物体検出器は低コストで簡単に⼩さな物体を検出することができるようになり、 ⾃律⾛⾏などのリアルタイムアプリケーションへの展開が現実的になる • 今後の課題としては、QueryDetを、以下のようなより困難な3Dオブジェクト検出タスクに拡張す ることを計画している • LiDAR点群を⼊⼒とする3D物体検出タスクにQueryDetを拡張することを計画している • このタスクでは、⼀般的に2D画像よりも3D空間が粗く、コストのかかる3Dコンボリューション演 算のための計算リソースがより多く必要となる
  28. confidential ⽂章·画像等の内容の無断転載及び複製等の⾏為はご遠慮ください。 Mobility Technologies Co., Ltd.