Learning to Solve Hard Minimal Problems

第11回全日本CV勉強会 CVPR2022読み会 Learning to Solve Hard Minimal Problems 2022/08/07 takmin

自己紹介 2 株式会社ビジョン＆ITラボ代表取締役皆川卓也（みながわたくや）博士（工学）「コンピュータビジョン勉強会＠関東」主催株式会社フューチャースタンダード
技術顧問略歴： 1999-2003年日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリセールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻単位取得退学後、博士号取得（2014年） 2009年-現在フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事（2018年法人化） http://visitlab.jp

紹介する論文 3  Learning to Solve Hard Minimal Problems 
Petr Hruby (ETH Zurich), Timothy Duff (University of Washington), Anton Leykin (Georgia Institude of Technology), Tomas Pajdla (Czech Technical University in Prague)  Best Paper  選んだ理由：

概要 4  ５点アルゴリズムやScrantonアルゴリズムなどでカメラの姿勢推定を行うには、複数の偽の解をもつ連立方程式を解かなければならない。  RANSACの場合、１回のサンプリングごとに問題を解く  本手法では、以下の方法によって偽の解を避けて、高速
に(１つの問題を70μs以下で)解くことが出来る 1. 問題/解のペアを学習 2. 入力となる問題から、近い問題と解のペアを識別問題として解く 3. 上記の問題/解のペアを始点として、問題/解空間を入力問題まで追跡

カメラパラメータ算出の基礎 5  ２台のカメラの相対位置が不明の時、各カメラの焦点と対応点を結ぶ直線が交わるという条件を利用するカメラ１カメラ2

カメラパラメータ算出の基礎 6  ２台のカメラの相対位置が不明の時、各カメラの焦点と対応点を結ぶ直線が交わるという条件を利用する →エピポーラ拘束カメラ１カメラ2 同一平面

5点アルゴリズム 7  5個の対応点から、２台のカメラ間の相対位置とそれぞれの点の三次元座標を算出  カメラの内部パラメータは既知とする５つのエピポーラ拘束を満たすパラメータを算出カメラ１
カメラ2

Scrantonアルゴリズム 8  4個の対応点から、３台のカメラ間の相対位置とそれぞれの点の三次元座標を算出  カメラの内部パラメータは既知とする

カメラポーズ推定（＝各点の奥行推定） 9 𝑣𝑘,𝑖 = 𝑥𝑘,𝑖 𝑦𝑘,𝑖 1 x y z
𝑋𝑘 = 𝜆𝑘,𝑖 𝑣𝑘,𝑖 = 𝜆𝑘,𝑖 𝑥𝑘,𝑖 𝑦𝑘,𝑖 1 𝐶𝑖 𝐶𝑖 ： 𝑖番目のカメラ 𝑣𝑖,𝑘 ： 𝑘番目の点の𝑖番目のカメラ画像上の座標（既知） 𝜆𝑘,𝑖 ：𝑘番目の点の𝑖番目のカメラから見た奥行（未知） 𝑋𝑘 ： 𝑘番目の点の三次元座標

5点アルゴリズム 10  ５点中任意の２点𝑘、𝑚を選択  𝜆𝑘,1 𝑣𝑘,1 − 𝜆𝑚,1 𝑣𝑚,1
2 = 𝜆𝑘,2 𝑣𝑘,2 − 𝜆𝑚,2 𝑣𝑚,2 2  5 2 = 10個の連立方程式を解き奥行𝜆𝑘,𝑖 を求める 𝑘、𝑚間のカメラ１から見た距離 𝑘、𝑚間のカメラ２から見た距離１０個程度の幾何学的にも整合性の取れた似の解が現れる

Scrantonアルゴリズム 11  4点中任意の２点𝑘、𝑚を選択し、距離を比較  𝜆1,1 = 1の制約をパラメータ𝑙で緩和  𝜆𝑘,1
𝑣𝑘,1 − 𝜆𝑚,1 𝑣𝑚,1 2 = 𝜆𝑘,2 𝑣𝑘,2 − 𝜆𝑚,2 𝑣𝑚,2 2  𝑣1,1 + 𝑙[0; 1; 0] − 𝜆𝑚,1 𝑣𝑚,1 2 = 𝜆1,2 𝑣1,2 − 𝜆𝑚,2 𝑣𝑚,2 2 272個程度の幾何学的にも整合性の取れた似の解が現れる

RANSAC 12 対応点をランダムにサンプリングサンプリングされた点からカメラポーズ推定推定されたポーズを元に対応点を他のカメラへ投影誤差が閾値以内の点 (inlier)の数をカウント
最もinlierが多かったポーズを採用 5点アルゴリズムなら5組 Scrantonなら4組本手法の適用範囲 →偽の解を避ける

RANSACループ内の処理 13 従来手法本手法

Solve&Pickアプローチ(従来法) 14 従来手法本手法画像中の対応点をサンプリングカメラポーズ推定ベストなポー
ズを選択最も良い解を更新

Pick&Solveアプローチ(本手法) 15 従来手法本手法画像中の対応点をサンプリング近い問題aを識別 aを始点にカメラ
ポーズsを追跡最も良い解を更新

問題-解多様体𝑀 16 問題𝑝と解sのペアが作る多様体𝑀 問題𝑝が所属するベクトル空間𝑃 𝑀を𝑃へ投影 𝜋: 𝑀
→ 𝑃

問題-解多様体𝑀 17 問題𝑝と解sのペアが作る多様体𝑀 問題𝑝が所属するベクトル空間𝑃 𝑀を𝑃へ投影 𝜋: 𝑀
→ 𝑃 例： 𝑥3 + 𝑎𝑥 + 𝑏 = 0 𝑝 = (𝑎, 𝑏) 𝑠 = 𝑥 問題𝑝によって1-3 個の解sを持つ

5点アルゴリズムの問題𝑝と解𝑠の定義 18 𝑣𝑘,𝑖 = 𝑥𝑘,𝑖 𝑦𝑘,𝑖 1 x y z
𝑋𝑘 = 𝜆𝑘,𝑖 𝑣𝑘,𝑖 = 𝜆𝑘,𝑖 𝑥𝑘,𝑖 𝑦𝑘,𝑖 1 𝐶𝑖 𝐶𝑖 ： 𝑖番目のカメラ 𝑣𝑖,𝑘 ： 𝑘番目の点の𝑖番目のカメラ画像上の座標（既知） 𝜆𝑘,𝑖 ：𝑘番目の点の𝑖番目のカメラから見た奥行（未知） 𝑋𝑘 ： 𝑘番目の点の三次元座標 𝑝 = (𝑥1,1 , 𝑥2,1 , 𝑥3,1 , 𝑥4,1 , 𝑥5,1 , 𝑦1,1 , 𝑦2,1 , 𝑦3,1 , 𝑦4,1 , 𝑦5,1 , 𝑥1,2 , 𝑥2,2 , 𝑥3,2 , 𝑥4,2 , 𝑥5,2 , 𝑦1,2 , 𝑦2,2 , 𝑦3,2 , 𝑦4,2 , 𝑦5,2 ) 𝑠 = (𝜆1,1 , 𝜆2,1 , 𝜆3,1 , 𝜆4,1 , 𝜆5,1 , 𝜆1,2 , 𝜆2,2 , 𝜆3,2 , 𝜆4,2 , 𝜆5,2 ) 5点の座標x2カメラ→20パラメータ 5点の奥行x2カメラ –1 →9パラメータただし𝝀𝟏,𝟏 = 𝟏

Scrantonアルゴリズムの問題𝑝と解𝑠の定義 19 𝑣𝑘,𝑖 = 𝑥𝑘,𝑖 𝑦𝑘,𝑖 1 x y z
𝑋𝑘 = 𝜆𝑘,𝑖 𝑣𝑘,𝑖 = 𝜆𝑘,𝑖 𝑥𝑘,𝑖 𝑦𝑘,𝑖 1 𝐶𝑖 𝐶𝑖 ： 𝑖番目のカメラ 𝑣𝑖,𝑘 ： 𝑘番目の点の𝑖番目のカメラ画像上の座標（既知） 𝜆𝑘,𝑖 ：𝑘番目の点の𝑖番目のカメラから見た奥行（未知） 𝑋𝑘 ： 𝑘番目の点の三次元座標 𝑝 = (𝑥1,1 , 𝑥2,1 , 𝑥3,1 , 𝑥4,1 , 𝑦1,1 , 𝑦2,1 , 𝑦3,1 , 𝑦4,1 , 𝑥1,2 , 𝑥2,2 , 𝑥3,2 , 𝑥4,2 , 𝑦1,2 , 𝑦2,2 , 𝑦3,2 , 𝑦4,2 , 𝑥1,3 , 𝑥2,3 , 𝑥3,3 , 𝑥4,3 , 𝑦1,3 , 𝑦2,3 , 𝑦3,3 , 𝑦4,3 ) 𝑠 = (𝜆1,1 , 𝜆2,1 , 𝜆3,1 , 𝜆4,1 , 𝜆1,2 , 𝜆2,2 , 𝜆3,2 , 𝜆4,2 , 𝜆1,3 , 𝜆2,3 , 𝜆3,3 , 𝜆4,3 ) 4点の座標x3カメラ→24パラメータ 4点の奥行x3カメラ –1 →11パラメータただし 𝝀𝟏,𝟏 = 𝟏

ホモトピー継続 (Homotopy Continuation) 20 1. 問題𝑝から、始点となる問題/解のペア(𝑝0 , 𝑠0 ) ∈
𝑀を選択 2. 問題空間𝑃上で𝑝0 から𝑝へのパスを算出 3. 多様体𝑀上で上記パスを追跡することで解𝑠を算出問題のパス解のパス 𝑠0 𝑝0

Solve&Pick VS Pick&Solve 21 問題𝑝を解いて解集合𝑆を計算解集合𝑆から最適な𝑠を選択 Solve&Pick (従来法)

Solve&Pick VS Pick&Solve 22 問題𝑝を解いて解集合𝑆を計算解集合𝑆から最適な𝑠を選択問題𝑝からアンカーとなる問題/解のペア(𝑝0 , 𝑠0
)を選択 (𝑝0 , 𝑠0 )から𝑝の解𝑠をホモトピー継続を用いて解く Solve&Pick (従来法) Pick＆Solve (本手法)

Solve&Pick VS Pick&Solve 23 問題𝑝を解いて解集合𝑆を計算解集合𝑆から最適な𝑠を選択問題𝑝からアンカーとなる問題/解のペア(𝑝0 , 𝑠0
)を選択 (𝑝0 , 𝑠0 )から𝑝の解𝑠をホモトピー継続を用いて解く Solve&Pick (従来法) Pick＆Solve (本手法) 識別器𝜎を学習

Solverの構築 24 問題𝑝からアンカーとなる問題/解のペア(𝑝0 , 𝑠0 ) を算出する識別器𝜎を学習 1. 3Dモデルからデータセット𝐷をサンプリング 2.
データセット𝐷からアンカー𝐴を抽出 3. 問題𝑝を与えたとき、始点𝑝(𝑝0 , 𝑠0 ) ∈ 𝐴を出力する識別器𝜎を学習

学習データの作成 26 カメラと3D Model上の点のサンプリング • 5pt Algorithm: • Camera
x2, Point x5 • Scranton: • Camera x3, Point x4 ETH 3D Dataset サンプリングした点を各カメラへ投影し、問題と解のペア(𝑝, 𝑠)を生成サンプリングした 𝑝𝑖 ,𝑠𝑖 から他のペア(𝑝𝑗 , 𝑠𝑗 )へ追跡可能か調査追跡可能な場合、 𝑝𝑖 , 𝑠𝑖 と(𝑝𝑗 , 𝑠𝑗 )間にエッジを生成 (𝑝, 𝑠)を頂点、追跡可能性をエッジとしたグラフ生成グラフ全体をカバーする頂点をアンカー𝐴とする

アンカーの選択 27  ETH 3D DatasetのOfficeおよびTerrainsから1K, 4K, 10K, 40Kの問題/解をサンプリングして学習データセット𝐷を作成
 何個のアンカーでデータセット𝐷のどれだけの割合をカバーできるか

アンカーの選択 28  アンカー作成をETH 3DデータセットのSourceドメインで行い、他のドメインをどれだけカバーできるかの調査  Office + Terrainsが最もカバー率が高い

アンカーの選択 29  アンカー作成をETHデータセットのSourceドメインで行い、他のドメインをどれだけカバーできるかの調査  Office + Terrainsが最もカバー率が高い Office
Terrains

始点識別器σ(𝑝)の学習 31 カメラと3D Model上の点のサンプリング • 5pt Algorithm: • Camera
x2, Point x5 • Scranton: • Camera x3, Point x4 ETH 3D Dataset サンプリングした点を各カメラへ投影し、問題と解のペア(𝑝, 𝑠)を生成アンカー𝐴の各問題/解 𝑝0 , 𝑠0 から、サンプリングした 𝑝𝑖 , 𝑠𝑖 へ追跡可能か調査 𝑝𝑖 へ追跡可能なすべてのアンカーを𝑝𝑖 のラベルとする。追跡可能なアンカーが無い場合 TRASHラベルをつける入力が𝑝𝑖 、出力が 𝐴 + 1クラスのMLPを学習

始点識別器σ(𝑝)の学習 32  識別器の評価  評価データ：  delivery_area  facade
 学習データ  上記以外の23シーケンス  始点 𝑝0 , 𝑠0 の選択  B1:すべてのアンカー (𝑚 = 𝐴 )  B2: ユークリッド距離が最も近いアンカー (𝑚 = 1 )  B3: マハラノビス距離が最も近いアンカー (𝑚 = 1 )  MLP: MLPの出力上位m個  MLPT: MLPの出力上位１個 Recall アンカーの学習データカバー率

Solverの実行 33 問題𝑝を解く 1. 問題𝑝に対し正規化や対応点順序入れ替え等の前処理 2. 識別器𝜎を用い、アンカー𝐴から始点 𝜎 𝑝
= (𝑝0 , 𝑠0 )を選択 3. (𝑝0 , 𝑠0 )を始点としてホモトピー継続で問題𝑝の解𝑠を算出

ホモトピー継続 34  問題のパスが 𝑝 𝑡 = 1 − 𝑡
𝑝0 + 𝑡𝑝 で与えられたときの解𝑠 𝑡 を𝑠0 からステップΔ𝑡毎に求めていく（追跡）問題のパス解のパス 𝑠0 𝑝0 ルンゲ=クッタ法で予測 (predictor) ニュートン法で修正 (corrector) 𝑠 𝑝

実験 35  CVPR2020 RANSAC Tutorial Dataset  4950 Camera
Pairs  画像間の対応点は与えられている（ノイズおよび誤対応含む）  Rotationの誤差が10度以内の割合

まとめ 36  機械学習とホモトピー継続を用いて偽の解を避けて幾何学的な最適化問題を高速に解く手法を提案  問題と解のペアの多様体𝑀を生成  問題𝑝を与えたとき、始点となる𝑀上の点(𝑝0
, 𝑠0 ) を出力する識別器𝜎を学習  ホモトピー継続によって(𝑝0 , 𝑠0 )から問題𝑝に対する解𝑠を算出

Learning to Solve Hard Minimal Problems

Learning to Solve Hard Minimal Problems

More Decks by Takuya MINAGAWA

Other Decks in Technology

Featured

Transcript