Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
PromptDA (Depth Anything) を用いた深度推定や点群生成について
Search
Kenta Itakura
July 30, 2025
Technology
0
9
PromptDA (Depth Anything) を用いた深度推定や点群生成について
Kenta Itakura
July 30, 2025
Tweet
Share
More Decks by Kenta Itakura
See All by Kenta Itakura
3次元点群からメッシュモデルを作成: ボールピボット法について
kentaitakura
0
13
3D Gaussian Splatting (3DGS)のモデルを Cesiumの地球の上で可視化する方法
kentaitakura
0
260
主成分分析やRANSACを利用した点群からの円柱フィッティングの方法
kentaitakura
0
140
ImVisionLabs株式会社: 産業技術総合研究所様との取り組み
kentaitakura
0
150
ImVisionLabs株式会社:ゼンリンデータコム様との取り組み
kentaitakura
0
63
ImVisionLabs株式会社: 中日本航空様との取り組み
kentaitakura
0
90
全方位カメラやPostshotを利用した3D Gaussian Splattingの実行方法の例
kentaitakura
0
750
ImVisionLabs株式会社: 東京電力HD様との取り組み
kentaitakura
0
96
3次元点群の地表面抽出の方法であるCSF (Cloth Simulation Filter) について
kentaitakura
2
1k
Other Decks in Technology
See All in Technology
Jitera Company Deck / JP
jitera
0
280
Ktor + Google Cloud Tasks/PubSub におけるOTel Messaging計装の実践
sansantech
PRO
1
340
TypeScript 上達の道
ysknsid25
23
4.9k
VLMサービスを用いた請求書データ化検証 / SaaSxML_Session_1
sansan_randd
0
140
AIエージェントを支える設計
tkikuchi1002
11
2.4k
東京海上日動におけるセキュアな開発プロセスの取り組み
miyabit
0
200
[MIRU25] NaiLIA: Multimodal Retrieval of Nail Designs Based on Dense Intent Descriptions
keio_smilab
PRO
1
150
Claude Codeが働くAI中心の業務システム構築の挑戦―AIエージェント中心の働き方を目指して
os1ma
4
250
複数のGemini CLIが同時開発する狂気 - Jujutsuが実現するAIエージェント協調の新世界
gunta
13
3.8k
【CEDEC2025】大規模言語モデルを活用したゲーム内会話パートのスクリプト作成支援への取り組み
cygames
PRO
1
420
【2025 Japan AWS Jr. Champions Ignition】点から線、線から面へ〜僕たちが起こすコラボレーション・ムーブメント〜
amixedcolor
1
110
Kiro Hookを Terraformで検証
ao_inoue
0
140
Featured
See All Featured
Site-Speed That Sticks
csswizardry
10
730
A Tale of Four Properties
chriscoyier
160
23k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
Agile that works and the tools we love
rasmusluckow
329
21k
Testing 201, or: Great Expectations
jmmastey
43
7.6k
Statistics for Hackers
jakevdp
799
220k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
21
1.4k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
It's Worth the Effort
3n
185
28k
Building Applications with DynamoDB
mza
95
6.5k
Automating Front-end Workflow
addyosmani
1370
200k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Transcript
PromptDA (Depth Anything) を用いた 深度推定や点群生成について ImVisionLabs株式会社
Depth Anythingについて バックパック型スキャナー iPhone12 LiDAR Depth Anything では、点群センサーを用いずに、画像から物体の深度(距離)を推定可能
LiDARやRGBDカメラなどの他の深度推定手法に比べて、視覚情報のみを利用して 高精度な深度マップを生成できる点が特徴 [動画] Yang, L et al. (2024). Depth anything: Unleashing the power of large-scale unlabeled data. CVPR.
Depth Anythingの特徴 バックパック型スキャナー iPhone12 LiDAR Depth Anything は、RGB画像を入力とし、視覚的な特徴量に基づいてピクセルごとの深度 (距離)を予測
以下の出力された深度マップでは、距離が近いほど赤く、遠いほど青く表示される。 [動画] これにより、LiDARやRGB-Dカメラを用いずに、画像1枚から深度を推定できる。
Depth Anythingを用いた動画生成 Depth Anything動画に適用することで、動画の深度情報を抽出することも可能である。
Depth Anythingの限界とPromptDAの必要性 バックパック型スキャナー Depth Anythingで出力されるのは相対的な深度であり、実際の距離(例:1.5m)は明らかでない PromptDA (DepthAnything) について
• iPhone LiDARなどで取得した低解像度な深度を「プロンプト」として入力することで実スケー ルの深度マップが得られる • 画像のRGB情報と深度が合わせて取得されるため、点群や3D再構築に利用可能 画像出典: PromptDAのプロジェクトページ https://promptda.github.io/
PromptDAの構成 バックパック型スキャナー PromptDAは以下の3要素から構成される: 1. RGB画像: 通常のカメラで撮影された視覚情報 2. 初期深度マップ(prompt): Stray
Scanner などによって推定された粗い深度情報 3. 深度推論モデル: Depth Anything を拡張したモデルで、RGBとpromptの両方を入力として 高精度な深度を出力 動画: Stray Scannerでの撮影の様子 Stray Scanner: LiDARを利用して得られた 深度画像(動画)を録画できるアプリ
点群生成の原理 バックパック型スキャナー 3次元の点群を作るためには、実世界のx,y,z座標を得る必要がある。 そのために、PromptDAではカメラの内部パラメーターを利用して、画像上の点(画像 座標)から3次元座標(カメラ座標)を復元する。 カメラの内部パラメーターKは以下の式で表される 𝑓𝑥 , 𝑓𝑦 はそれぞれx,y軸方向の焦点距離(単位:ピクセル)
𝑎𝑥 , 𝑎𝑦 はカメラ座標からみた画像中心の位置
点群生成の原理 バックパック型スキャナー まずカメラ座標と画像座標の関係性を考える。 カメラ座標上において、右図のように複数点を考える。 また、オレンジ色の部分は画像平面である。 画像平面にカメラ座標上の点を集めることを考える。
本スライドの図は以下のページを参考に作成しました: https://mem-archive.com/2018/02/21/post-157/
点群生成の原理 バックパック型スキャナー 画像平面は、カメラ座標の中心から𝑧𝑎 方向に焦点距離 𝑓だけ離れた位置にあるため、カメラ 座標の 中心から見て、 倍だけすると図のように各点は画像座標上にある状況となる 𝑓/それぞれの点の𝑧𝑎
方向の距離 本スライドの図は以下のページを参考に作成しました: https://mem-archive.com/2018/02/21/post-157/
点群生成の原理 バックパック型スキャナー 最後に、画像座標とカメラ座標での原点のずれ(オフセット)を解消する。 オフセットは 𝑎𝑥 , 𝑎𝑦 であるため、図のようになる。
本スライドの図は以下のページを参考に作成しました: https://mem-archive.com/2018/02/21/post-157/
点群生成の原理 バックパック型スキャナー このそれぞれの点が、画像座標上の点 𝑢, 𝑣 と対応する。 すなわち、 が成り立つ。 また、以下のようにすることで、カメラ座標を計算でき、点群に変換することができる。
点群生成の原理 バックパック型スキャナー 得られた深度情報を踏まえると、 画像座標上の点 𝑢, 𝑣 に対して、3次元座標上の点 𝑋𝑎 , 𝑌𝑎
, 𝑍𝑎 は、 となる。これが3次元座標となり、 これと各点のRGB情報をもとに計算を繰り返すことで、点群が作られる
PromptDAによる深度マップの作成例 バックパック型スキャナー 左が入力の画像であり、同時に粗い深度情報も取得している PromptDAにより、右の高解像度な深度マップを生成した 赤枠の本物のしっぽとしっぽの影も区別されていることがわかる
PromptDAを用いた点群生成例 バックパック型スキャナー 階段本体はノイズの影響を受けることなく、一直線に安定して描画されている。 のぼり口などのマークも、点の集まり(点群)として正確に反映されている。
PromptDAを用いた点群生成例 バックパック型スキャナー PromptDAを用いて取得した深度情報から、猫の動きを点群として再構成した。 猫は左下方向に移動しており、フレームからやや見切れているが、全体の動きや形 状、動いている様子が点群として記録されている
PromptDAを用いた点群生成例 バックパック型スキャナー PromptDAにより取得した深度画像を点群に変換した時の結果 斜めから観察すると、奥行きや段差の構造が再現されていることがわかる
PromptDAの有無による点群生成精度の比較 バックパック型スキャナー iPhoneにより取得した深度画像をベースに点群にした場合(左)とPromptDAにより高 解像度にした結果(右)を示す PromptDAにより深度情報が正確に得られるため、コーンの奥行きやポールとの繋が りが正しく点群として表現されている
PromptDAの有無による点群生成精度の比較 バックパック型スキャナー 画像を斜めから見ると、PromptDAを適用した場合には階段の段差構造が明確に再構 成されている。 PromptDAを利用しない場合は段差が連続して滑らかにつながり、階段構造が曖昧