Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SciPyとAutogradを使ったバンドル調整
Search
hei4
May 24, 2023
Programming
0
320
SciPyとAutogradを使ったバンドル調整
hei4
May 24, 2023
Tweet
Share
More Decks by hei4
See All by hei4
One/Few-shot Semantic Segmentation サーベイ
hei4
0
71
Other Decks in Programming
See All in Programming
PHPで始める振る舞い駆動開発(Behaviour-Driven Development)
ohmori_yusuke
2
240
なんとなくわかった気になるブロックテーマ入門/contents.nagoya 2025 6.28
chiilog
1
240
なぜ適用するか、移行して理解するClean Architecture 〜構造を超えて設計を継承する〜 / Why Apply, Migrate and Understand Clean Architecture - Inherit Design Beyond Structure
seike460
PRO
1
710
システム成長を止めない!本番無停止テーブル移行の全貌
sakawe_ee
1
150
CursorはMCPを使った方が良いぞ
taigakono
1
200
Kotlin エンジニアへ送る:Swift 案件に参加させられる日に備えて~似てるけど色々違う Swift の仕様 / from Kotlin to Swift
lovee
1
260
新メンバーも今日から大活躍!SREが支えるスケールし続ける組織のオンボーディング
honmarkhunt
1
200
What Spring Developers Should Know About Jakarta EE
ivargrimstad
0
340
Go1.25からのGOMAXPROCS
kuro_kurorrr
1
830
Cursor AI Agentと伴走する アプリケーションの高速リプレイス
daisuketakeda
1
130
Create a website using Spatial Web
akkeylab
0
310
datadog dash 2025 LLM observability for reliability and stability
ivry_presentationmaterials
0
340
Featured
See All Featured
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
Making the Leap to Tech Lead
cromwellryan
134
9.4k
Visualization
eitanlees
146
16k
How STYLIGHT went responsive
nonsquared
100
5.6k
Agile that works and the tools we love
rasmusluckow
329
21k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Designing Experiences People Love
moore
142
24k
BBQ
matthewcrist
89
9.7k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
We Have a Design System, Now What?
morganepeng
53
7.7k
Transcript
SciPyとAutogradを使ったバンドル調整 hei4
報告内容 三次元点群 カメラ行列 投影座標 特徴点座標 透視投影 変換 三次元点群 内部パラメータ 投影座標
特徴点座標 透視投影 変換 外部パラメータ 固定値 最適化対象 最適化対象 固定値 推定値 推定値 観測値 観測値 損失計算 損失計算
所与のデータについて •37枚の画像 (先頭と末尾は同一カメラのため実体としては36枚) •36個のカメラ行列 •4982 × 36個の画像特徴点の二次元座標(無効値あり)
定式化 𝑀 個のカメラによって撮影された 𝑀 枚の画像から、特徴点マッチングによって 𝑁 個の画像特徴点 𝒙 ∈ ℝ𝑀×3×𝑁
(同次座標系)が与えられたとする。ただし 𝒙 は無効値を含んでおり、有効値と無効値の 二値マスク 𝑩 ∈ ℤ𝑀×3×𝑁 が付随する。 𝑩 = ቊ 1 (enable) 0 (disable) いま 𝑁 個の画像特徴点に対応する 𝑁 個の三次元点群 𝑿 ∈ ℝ4×𝑁 (同次座標系)の座標を求 めたい。𝑀 個のカメラ行列 𝑷 ∈ ℝ𝑀×3×4 が与えられたとき、 𝑿 の透視投影変換 ෝ 𝒙 = 𝑷𝑿 を行い、𝒙 と ෝ 𝒙 の残差二乗和 ℒ(𝑿) を最小化することで三次元点群の座標についての推定値 𝑿∗ を求めること にする。ただし 𝑩 が無効である箇所についての残差は考慮しない。 𝑿∗ = argmin 𝑿 ℒ 𝑿 ℒ 𝑿 = 𝑩 ⊙ 𝒙 − 𝑷𝑿 2
実装方法 scipy.optimize.least_squaresによって残差二乗和の最小化を行う。 least_squaresに与えるヤコビ行列はAutogradによって算出する。
はまりポイント① 透視投影変換によって推定した投影座標は、三軸目が1に正規化されていない。 𝑥 𝑦 𝑓0 = 𝑃11 𝑃12 𝑃13 𝑃14
𝑃21 𝑃22 𝑃23 𝑃24 𝑃31 𝑃32 𝑃33 𝑃34 𝑋 𝑌 𝑍 1 観測値との損失計算を行う前に、三軸目が1の同次座標系に正規化する必要がある。 𝑥/𝑓0 𝑦/𝑓0 1
はまりポイント② 𝑿 の初期値は最小二乗法によって設定する。初期値を乱数にすると収束しない! 参考:『3次元復元のためのバンドル調整の実装と評価』
結果(三次元点群の最適化)
報告内容 三次元点群 カメラ行列 投影座標 特徴点座標 透視投影 変換 三次元点群 内部パラメータ 投影座標
特徴点座標 透視投影 変換 外部パラメータ 固定値 最適化対象 最適化対象 固定値 推定値 推定値 観測値 観測値 損失計算 損失計算
カメラ行列の分解と同時最適化 カメラ行列は内部パラメータと外部パラメータに分解できる。さらに外部パラメータは、 回転成分と並進成分で構成される。 𝑃11 𝑃12 𝑃13 𝑃14 𝑃21 𝑃22 𝑃23
𝑃24 𝑃31 𝑃32 𝑃33 𝑃34 = 𝐾11 𝐾12 𝐾13 0 𝐾22 𝐾23 0 0 1 𝑅11 𝑅12 𝑅13 𝑡1 𝑅21 𝑅22 𝑅23 𝑡2 𝑅31 𝑅32 𝑅33 𝑡3 内部パラメータは所与で真値だと仮定し、三次元点群と外部パラメータ(回転と並 進)の同時最適化を行うことにする。 これは三次元点群の座標とカメラの位置姿勢を同時に求めることを意味する。 𝑿∗, 𝑹∗, 𝒕∗ = argmin 𝑿,𝑹,𝒕 ℒ 𝑿, 𝑹, 𝒕
実装方法 外部パラメータの回転成分は回転行列だが、9要素を独立に最適化しているため、 得られた値は回転行列の条件を満たしていない。最適化後にSciPyのRotationイ ンスタンスを from_matrix メソッドから作ることで、回転行列に補正している。
はまりポイント③ カメラ行列の分解にはOpenCVの decomposeProjectionMatrix が便利だが、 出力が「外部パラメータの回転成分」と「ワールド座標系におけるカメラ位置」とチグハ グなため注意が必要。 外部パラメータの回転成分 𝑹 と並進成分 𝒕
、ワールド座標系におけるカメラ姿勢 𝑹𝑊 とカメラ位置 𝒕𝑊 は以下の関係が成り立つ。 𝑹 = 𝑹𝑊 −1 = 𝑹𝑊 𝑇 𝒕 = −𝑹𝒕𝑊 参考:https://mem-archive.com/2019/04/21/post-1778/
はまりポイント④ もし内部パラメータの焦点距離(𝐾11 と 𝐾22 )の符号がマイナスなら、内部パラメータには右から、回 転成分には左から以下の行列を掛けて補正してやればよい。 −1 0 0 0
−1 0 0 0 1 これは内部パラメータと回転成分の間に単位行列を挟んでいることに等しい。 𝐾11 𝐾12 𝐾13 0 𝐾22 𝐾23 0 0 𝐾33 −1 0 0 0 −1 0 0 0 1 −1 0 0 0 −1 0 0 0 1 𝑅11 𝑅12 𝑅13 𝑅21 𝑅22 𝑅23 𝑅31 𝑅32 𝑅33 = 𝐾11 𝐾12 𝐾13 0 𝐾22 𝐾23 0 0 𝐾33 1 0 0 0 1 0 0 0 1 𝑅11 𝑅12 𝑅13 𝑅21 𝑅22 𝑅23 𝑅31 𝑅32 𝑅33
はまりポイント⑤? decomposeProjectionMatrix で出力した内部パラメータは、右下が1ではない 場合がある。カメラ行列(透視投影変換行列)は定数倍しても本質的には同一な ため、内部パラメータの右下が1になるよう、カメラ行列全体を正規化すればよい。 1 𝐾33 𝐾11 𝐾12 𝐾13
0 𝐾22 𝐾23 0 0 𝐾33 𝑅11 𝑅12 𝑅13 𝑡1 𝑅21 𝑅22 𝑅23 𝑡2 𝑅31 𝑅32 𝑅33 𝑡3 (しかし、本質的に変わらないなら正規化しなくてもいいのでは?とも思える。)
結果(三次元点群とカメラ外部パラメータの同時最適化)