Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SciPyとAutogradを使ったバンドル調整
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
hei4
May 24, 2023
Programming
0
400
SciPyとAutogradを使ったバンドル調整
hei4
May 24, 2023
Tweet
Share
More Decks by hei4
See All by hei4
One/Few-shot Semantic Segmentation サーベイ
hei4
0
79
Other Decks in Programming
See All in Programming
AI Agent の開発と運用を支える Durable Execution #AgentsInProd
izumin5210
7
2.3k
コントリビューターによるDenoのすゝめ / Deno Recommendations by a Contributor
petamoriken
0
210
Lambda のコードストレージ容量に気をつけましょう
tattwan718
0
150
Fluid Templating in TYPO3 14
s2b
0
130
MDN Web Docs に日本語翻訳でコントリビュート
ohmori_yusuke
0
660
今こそ知るべき耐量子計算機暗号(PQC)入門 / PQC: What You Need to Know Now
mackey0225
3
380
疑似コードによるプロンプト記述、どのくらい正確に実行される?
kokuyouwind
0
390
AgentCoreとHuman in the Loop
har1101
5
250
OCaml 5でモダンな並列プログラミングを Enjoyしよう!
haochenx
0
140
インターン生でもAuth0で認証基盤刷新が出来るのか
taku271
0
190
責任感のあるCloudWatchアラームを設計しよう
akihisaikeda
3
180
16年目のピクシブ百科事典を支える最新の技術基盤 / The Modern Tech Stack Powering Pixiv Encyclopedia in its 16th Year
ahuglajbclajep
5
1k
Featured
See All Featured
Paper Plane
katiecoart
PRO
0
46k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.3k
Side Projects
sachag
455
43k
A better future with KSS
kneath
240
18k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
650
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
440
The Curse of the Amulet
leimatthew05
1
8.7k
SEO for Brand Visibility & Recognition
aleyda
0
4.2k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Transcript
SciPyとAutogradを使ったバンドル調整 hei4
報告内容 三次元点群 カメラ行列 投影座標 特徴点座標 透視投影 変換 三次元点群 内部パラメータ 投影座標
特徴点座標 透視投影 変換 外部パラメータ 固定値 最適化対象 最適化対象 固定値 推定値 推定値 観測値 観測値 損失計算 損失計算
所与のデータについて •37枚の画像 (先頭と末尾は同一カメラのため実体としては36枚) •36個のカメラ行列 •4982 × 36個の画像特徴点の二次元座標(無効値あり)
定式化 𝑀 個のカメラによって撮影された 𝑀 枚の画像から、特徴点マッチングによって 𝑁 個の画像特徴点 𝒙 ∈ ℝ𝑀×3×𝑁
(同次座標系)が与えられたとする。ただし 𝒙 は無効値を含んでおり、有効値と無効値の 二値マスク 𝑩 ∈ ℤ𝑀×3×𝑁 が付随する。 𝑩 = ቊ 1 (enable) 0 (disable) いま 𝑁 個の画像特徴点に対応する 𝑁 個の三次元点群 𝑿 ∈ ℝ4×𝑁 (同次座標系)の座標を求 めたい。𝑀 個のカメラ行列 𝑷 ∈ ℝ𝑀×3×4 が与えられたとき、 𝑿 の透視投影変換 ෝ 𝒙 = 𝑷𝑿 を行い、𝒙 と ෝ 𝒙 の残差二乗和 ℒ(𝑿) を最小化することで三次元点群の座標についての推定値 𝑿∗ を求めること にする。ただし 𝑩 が無効である箇所についての残差は考慮しない。 𝑿∗ = argmin 𝑿 ℒ 𝑿 ℒ 𝑿 = 𝑩 ⊙ 𝒙 − 𝑷𝑿 2
実装方法 scipy.optimize.least_squaresによって残差二乗和の最小化を行う。 least_squaresに与えるヤコビ行列はAutogradによって算出する。
はまりポイント① 透視投影変換によって推定した投影座標は、三軸目が1に正規化されていない。 𝑥 𝑦 𝑓0 = 𝑃11 𝑃12 𝑃13 𝑃14
𝑃21 𝑃22 𝑃23 𝑃24 𝑃31 𝑃32 𝑃33 𝑃34 𝑋 𝑌 𝑍 1 観測値との損失計算を行う前に、三軸目が1の同次座標系に正規化する必要がある。 𝑥/𝑓0 𝑦/𝑓0 1
はまりポイント② 𝑿 の初期値は最小二乗法によって設定する。初期値を乱数にすると収束しない! 参考:『3次元復元のためのバンドル調整の実装と評価』
結果(三次元点群の最適化)
報告内容 三次元点群 カメラ行列 投影座標 特徴点座標 透視投影 変換 三次元点群 内部パラメータ 投影座標
特徴点座標 透視投影 変換 外部パラメータ 固定値 最適化対象 最適化対象 固定値 推定値 推定値 観測値 観測値 損失計算 損失計算
カメラ行列の分解と同時最適化 カメラ行列は内部パラメータと外部パラメータに分解できる。さらに外部パラメータは、 回転成分と並進成分で構成される。 𝑃11 𝑃12 𝑃13 𝑃14 𝑃21 𝑃22 𝑃23
𝑃24 𝑃31 𝑃32 𝑃33 𝑃34 = 𝐾11 𝐾12 𝐾13 0 𝐾22 𝐾23 0 0 1 𝑅11 𝑅12 𝑅13 𝑡1 𝑅21 𝑅22 𝑅23 𝑡2 𝑅31 𝑅32 𝑅33 𝑡3 内部パラメータは所与で真値だと仮定し、三次元点群と外部パラメータ(回転と並 進)の同時最適化を行うことにする。 これは三次元点群の座標とカメラの位置姿勢を同時に求めることを意味する。 𝑿∗, 𝑹∗, 𝒕∗ = argmin 𝑿,𝑹,𝒕 ℒ 𝑿, 𝑹, 𝒕
実装方法 外部パラメータの回転成分は回転行列だが、9要素を独立に最適化しているため、 得られた値は回転行列の条件を満たしていない。最適化後にSciPyのRotationイ ンスタンスを from_matrix メソッドから作ることで、回転行列に補正している。
はまりポイント③ カメラ行列の分解にはOpenCVの decomposeProjectionMatrix が便利だが、 出力が「外部パラメータの回転成分」と「ワールド座標系におけるカメラ位置」とチグハ グなため注意が必要。 外部パラメータの回転成分 𝑹 と並進成分 𝒕
、ワールド座標系におけるカメラ姿勢 𝑹𝑊 とカメラ位置 𝒕𝑊 は以下の関係が成り立つ。 𝑹 = 𝑹𝑊 −1 = 𝑹𝑊 𝑇 𝒕 = −𝑹𝒕𝑊 参考:https://mem-archive.com/2019/04/21/post-1778/
はまりポイント④ もし内部パラメータの焦点距離(𝐾11 と 𝐾22 )の符号がマイナスなら、内部パラメータには右から、回 転成分には左から以下の行列を掛けて補正してやればよい。 −1 0 0 0
−1 0 0 0 1 これは内部パラメータと回転成分の間に単位行列を挟んでいることに等しい。 𝐾11 𝐾12 𝐾13 0 𝐾22 𝐾23 0 0 𝐾33 −1 0 0 0 −1 0 0 0 1 −1 0 0 0 −1 0 0 0 1 𝑅11 𝑅12 𝑅13 𝑅21 𝑅22 𝑅23 𝑅31 𝑅32 𝑅33 = 𝐾11 𝐾12 𝐾13 0 𝐾22 𝐾23 0 0 𝐾33 1 0 0 0 1 0 0 0 1 𝑅11 𝑅12 𝑅13 𝑅21 𝑅22 𝑅23 𝑅31 𝑅32 𝑅33
はまりポイント⑤? decomposeProjectionMatrix で出力した内部パラメータは、右下が1ではない 場合がある。カメラ行列(透視投影変換行列)は定数倍しても本質的には同一な ため、内部パラメータの右下が1になるよう、カメラ行列全体を正規化すればよい。 1 𝐾33 𝐾11 𝐾12 𝐾13
0 𝐾22 𝐾23 0 0 𝐾33 𝑅11 𝑅12 𝑅13 𝑡1 𝑅21 𝑅22 𝑅23 𝑡2 𝑅31 𝑅32 𝑅33 𝑡3 (しかし、本質的に変わらないなら正規化しなくてもいいのでは?とも思える。)
結果(三次元点群とカメラ外部パラメータの同時最適化)