Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

機械学習ベースの動画像処理における近似計算手法の検討 (CPSY 2022/03)

機械学習ベースの動画像処理における近似計算手法の検討 (CPSY 2022/03)

電子情報通信学会研究会のコンピュータシステム研究会 (CPSY) での発表資料です (2022/03/11)。
機械学習ベースの動画像処理技術であり、深度推定タスクに対する DeepVideoMVS と呼ばれるアプリケーションを利用した近似計算手法についての検討を行った。
ダウンサンプリングを行って近似をする際に、どのフレームなら近似しても影響が少ないかを推定し、似たようなフレームが連続して入力される動画像の特性を活かした最適化を行う。
・プログラムと抄録: https://www.ieice.org/ken/paper/20220311mCin/
・論文 (Copyright ©2022 by IEICE): https://projects.n-hassy.info/paper/CPSY2022-3.pdf
・プロフィール: https://n-hassy.info/ja/

Nobuho Hashimoto

March 11, 2022
Tweet

More Decks by Nobuho Hashimoto

Other Decks in Research

Transcript

  1. ຊݚڀͷ֓ཁ ❖ಈը૾ॲཧʹ͓͚Δۙࣅܭࢉख๏Λݕ౼ Ø ೖྗͷμ΢ϯαϯϓϦϯάΛߦ͏͜ͱͰԋࢉճ਺Λ࡟ݮ Ø ͲͷϑϨʔϜΛۙࣅ͢Δ͔ܾఆ͢Δख๏Λݕ౼ l ϥϯμϜͳબ୒ l نଇతͳબ୒

    l ϑϨʔϜؒͷ PSNR ʹج͍ͮͨ༧ଌ l ϑϨʔϜؒͷϙʔζͷڑ཭ʹج͍ͮͨ༧ଌ l ResNet Λ༻͍ͨ༧ଌ l ConvLSTM ͷग़ྗΛ༻͍ͨ༧ଌ ❖DeepVideoMVS (1) ʹద༻ͯ͠ධՁ 2022/3/11 2 (1) A. Duzceker, S. Galliani, C. Vogel, P. Speciale, M. Dusmanu, and M. Pollefeys, “DeepVideoMVS: Multi-view stereo on video with recurrent spatio-temporal fusion,” CVPR 2021
  2. എܠ ❖ػցֶशΛ༻͍ͨಈը૾ॲཧٕज़ͷൃୡ Ø ߴਫ਼౓ͷೝࣝ΍ߴ඼࣭ͷಈըੜ੒͕࣮ݱ Ø ߴ଎ԽɾܰྔԽͷඞཁੑ ❖ߴਫ਼౓Ͱߴີ౓ͳࡾ࣍ݩ৘ใͷඞཁੑ Ø ϩϘοτ΍υϩʔϯͷࣗ཯૸ߦɺ֦ுݱ࣮ɺ3D ϞσϦϯά

    Ø Ұ୆ͷ୯؟Χϝϥ͔ΒಘΒΕΔಈը૾Λݩʹࡾ࣍ݩ৘ใΛ࠶ߏங l ਂ౓ਪఆʹΑͬͯಘΒΕΔਂ౓Ϛοϓ͕ಛʹॏཁͰ͔ͭ༗༻ͳதؒදݱ 2022/3/11 4
  3. ਂ౓ਪఆ ❖ݹయతͳख๏ Ø SfM (Structure from Motion) ͱ MVS (Multi-View

    Stereo) Λར༻ Ø ֎෦؀ڥͷӨڹͰਫ਼౓͕௿Լ ❖ػցֶशΛ༻͍ͨख๏ Ø ໬΋Β͍͠ग़ྗ͕ͩɺزԿֶత੔߹ੑ͕ෆे෼ ❖ϋΠϒϦουͳख๏ Ø ্هೋͭΛ૊Έ߹Θͤͯར༻ Ø DeepV2D (1) ɺDeepVideoMVS (2) ɺHITNet (3) Ø ਫ਼౓ʹՃ͑ɺߴ଎͔ͭܰྔͳγεςϜΛ໨ࢦ͢ྲྀΕ 2022/3/11 5 (1) Z. Teed and J. Deng, “DeepV2D: Video to depth with differentiable structure from motion,” ICLR 2020 (2) A. Duzceker, S. Galliani, C. Vogel, P. Speciale, M. Dusmanu, and M. Pollefeys, “DeepVideoMVS: Multi-view stereo on video with recurrent spatio-temporal fusion,” CVPR 2021 (3) V. Tankovich, C. Hane, Y. Zhang, A. Kowdle, S. Fanello, and S. Bouaziz, “HITNet: Hierarchical iterative tile refinement network for real-time stereo matching,” CVPR 2021
  4. ۙࣅ͢ΔϑϨʔϜͷબͼํ 1. ϥϯμϜͳબ୒ 2. نଇతͳબ୒ Ø Ex) 25 % Λۙࣅ͢Δ৔߹:

    4 ճͷ͏ͪ 1 ճΛۙࣅ͢Δ͜ͱͷ܁Γฦ͠ 3. ϑϨʔϜؒͷ PSNR ʹج͍ͮͨ༧ଌ Ø લʹۙࣅͤͣʹॲཧͨ͠ը૾ͱͷྨࣅ౓͕ᮢ஋ΑΓߴ͍΋ͷͷΈۙࣅ l ConvLSTM Λ࢖༻ͯ͠ҎલͷϑϨʔϜͷ৘ใΛ࢖ͬͯ༧ଌ l ग़ྗ͕ࣅ͍ͯΕ͹ (≒ ೖྗ͕ࣅ͍ͯΔ) ਫ਼౓ྼԽ΋཈͑ΒΕΔͱ૝ఆ Ø PSNR ͕ߴ͍ = ྨࣅ౓͕ߴ͍ 4. ϑϨʔϜؒͷϙʔζͷڑ཭ʹ ج͍ͮͨ༧ଌ Ø ϙʔζͷڑ཭͕খ͍͞ = ྨࣅ౓͕ߴ͍ 2022/3/11 10
  5. ۙࣅ͢ΔϑϨʔϜͷબͼํ 1. ϥϯμϜͳબ୒ 2. نଇతͳબ୒ Ø Ex) 25 % Λۙࣅ͢Δ৔߹:

    4 ճͷ͏ͪ 1 ճΛۙࣅ͢Δ͜ͱͷ܁Γฦ͠ 3. ϑϨʔϜؒͷ PSNR ʹج͍ͮͨ༧ଌ Ø લʹۙࣅͤͣʹॲཧͨ͠ը૾ͱͷྨࣅ౓͕ᮢ஋ΑΓߴ͍΋ͷͷΈۙࣅ l ConvLSTM Λ࢖༻ͯ͠ҎલͷϑϨʔϜͷ৘ใΛ࢖ͬͯ༧ଌ l ग़ྗ͕ࣅ͍ͯΕ͹ (≒ ೖྗ͕ࣅ͍ͯΔ) ਫ਼౓ྼԽ΋཈͑ΒΕΔͱ૝ఆ Ø PSNR ͕ߴ͍ = ྨࣅ౓͕ߴ͍ 4. ϑϨʔϜؒͷϙʔζͷڑ཭ʹ ج͍ͮͨ༧ଌ Ø ϙʔζͷڑ཭͕খ͍͞ = ྨࣅ౓͕ߴ͍ 2022/3/11 11 ϕʔεϥΠϯ
  6. ۙࣅ͢ΔϑϨʔϜͷબͼํ 1. ϥϯμϜͳબ୒ 2. نଇతͳબ୒ Ø Ex) 25 % Λۙࣅ͢Δ৔߹:

    4 ճͷ͏ͪ 1 ճΛۙࣅ͢Δ͜ͱͷ܁Γฦ͠ 3. ϑϨʔϜؒͷ PSNR ʹج͍ͮͨ༧ଌ Ø લʹۙࣅͤͣʹॲཧͨ͠ը૾ͱͷྨࣅ౓͕ᮢ஋ΑΓߴ͍΋ͷͷΈۙࣅ l ConvLSTM Λ࢖༻ͯ͠ҎલͷϑϨʔϜͷ৘ใΛ࢖ͬͯ༧ଌ l ग़ྗ͕ࣅ͍ͯΕ͹ (≒ ೖྗ͕ࣅ͍ͯΔ) ਫ਼౓ྼԽ΋཈͑ΒΕΔͱ૝ఆ Ø PSNR ͕ߴ͍ = ྨࣅ౓͕ߴ͍ 4. ϑϨʔϜؒͷϙʔζͷڑ཭ʹ ج͍ͮͨ༧ଌ Ø ϙʔζͷڑ཭͕খ͍͞ = ྨࣅ౓͕ߴ͍ 2022/3/11 12 ࿈ଓʹྲྀΕͯ͘Δͱ͍͏ ಈը૾ͷಛੑΛར༻
  7. ۙࣅ͢ΔϑϨʔϜͷબͼํ 1. ϥϯμϜͳબ୒ 2. نଇతͳબ୒ Ø Ex) 25 % Λۙࣅ͢Δ৔߹:

    4 ճͷ͏ͪ 1 ճΛۙࣅ͢Δ͜ͱͷ܁Γฦ͠ 3. ϑϨʔϜؒͷ PSNR ʹج͍ͮͨ༧ଌ Ø લʹۙࣅͤͣʹॲཧͨ͠ը૾ͱͷྨࣅ౓͕ᮢ஋ΑΓߴ͍΋ͷͷΈۙࣅ l ConvLSTM Λ࢖༻ͯ͠ҎલͷϑϨʔϜͷ৘ใΛ࢖ͬͯ༧ଌ l ग़ྗ͕ࣅ͍ͯΕ͹ (≒ ೖྗ͕ࣅ͍ͯΔ) ਫ਼౓ྼԽ΋཈͑ΒΕΔͱ૝ఆ Ø PSNR ͕ߴ͍ = ྨࣅ౓͕ߴ͍ 4. ϑϨʔϜؒͷϙʔζͷڑ཭ʹ ج͍ͮͨ༧ଌ Ø ϙʔζͷڑ཭͕খ͍͞ = ྨࣅ౓͕ߴ͍ 2022/3/11 13 Կ͔͠Βͷಛ௃ʹج͍ͮͯ ਫ਼౓Λ༧ଌ
  8. ۙࣅ͢ΔϑϨʔϜͷબͼํ 1. ϥϯμϜͳબ୒ 2. نଇతͳબ୒ Ø Ex) 25 % Λۙࣅ͢Δ৔߹:

    4 ճͷ͏ͪ 1 ճΛۙࣅ͢Δ͜ͱͷ܁Γฦ͠ 3. ϑϨʔϜؒͷ PSNR ʹج͍ͮͨ༧ଌ Ø લʹۙࣅͤͣʹॲཧͨ͠ը૾ͱͷྨࣅ౓͕ᮢ஋ΑΓߴ͍΋ͷͷΈۙࣅ l ConvLSTM Λ࢖༻ͯ͠ҎલͷϑϨʔϜͷ৘ใΛ࢖ͬͯ༧ଌ l ग़ྗ͕ࣅ͍ͯΕ͹ (≒ ೖྗ͕ࣅ͍ͯΔ) ਫ਼౓ྼԽ΋཈͑ΒΕΔͱ૝ఆ Ø PSNR ͕ߴ͍ = ྨࣅ౓͕ߴ͍ 4. ϑϨʔϜؒͷϙʔζͷڑ཭ʹ ج͍ͮͨ༧ଌ Ø ϙʔζͷڑ཭͕খ͍͞ = ྨࣅ౓͕ߴ͍ 2022/3/11 14 Կ͔͠Βͷಛ௃ʹج͍ͮͯ ਫ਼౓Λ༧ଌ
  9. ۙࣅ͢ΔϑϨʔϜͷબͼํ 5. ResNet Λ༻͍ͨ༧ଌ Ø ಛ௃ྔΛਓ͕ܾؒΊΔͷͰ͸ͳ͘ɺػցతʹܾఆ Ø લͷϑϨʔϜͱࠓͷϑϨʔϜ͔Β ResNet-18 Λ༻͍ͯਫ਼౓ྼԽΛ༧ଌ

    Ø ਫ਼౓ྼԽ͕খ͍͞ͱ༧ଌ͞Εͨ΋ͷΛۙࣅ 6. ConvLSTM ͷग़ྗΛ༻͍ͨ༧ଌ Ø աڈͷϑϨʔϜ৘ใΛ͞Βʹੜ͔ͨ͢ΊʹɺConvLSTM ͷӅΕ૚Λ࢖༻ Ø શ݁߹૚ʹ௨ͯ͠ਫ਼౓ྼԽΛ༧ଌ Ø ਫ਼౓ྼԽ͕খ͍͞ͱ ༧ଌ͞Εͨ΋ͷΛۙࣅ 2022/3/11 15
  10. ۙࣅ͢ΔϑϨʔϜͷબͼํ 5. ResNet Λ༻͍ͨ༧ଌ Ø ಛ௃ྔΛਓ͕ܾؒΊΔͷͰ͸ͳ͘ɺػցతʹܾఆ Ø લͷϑϨʔϜͱࠓͷϑϨʔϜ͔Β ResNet-18 Λ༻͍ͯਫ਼౓ྼԽΛ༧ଌ

    Ø ਫ਼౓ྼԽ͕খ͍͞ͱ༧ଌ͞Εͨ΋ͷΛۙࣅ 6. ConvLSTM ͷग़ྗΛ༻͍ͨ༧ଌ Ø աڈͷϑϨʔϜ৘ใΛ͞Βʹੜ͔ͨ͢ΊʹɺConvLSTM ͷӅΕ૚Λ࢖༻ Ø શ݁߹૚ʹ௨ͯ͠ਫ਼౓ྼԽΛ༧ଌ Ø ਫ਼౓ྼԽ͕খ͍͞ͱ ༧ଌ͞Εͨ΋ͷΛۙࣅ 2022/3/11 16 ͞Βʹաڈͷ৘ใ΋ར༻ ಛ௃Λػցతʹಛ௃ྔΛܾఆ
  11. ࣮ݧ ❖TUM RGB-D (1) Ͱࣄલֶश͞Εͨ DeepVideoMVS ͷϞσϧΛ࢖༻ ❖ݩͷը૾: 320 º

    256ɺμ΢ϯαϯϓϦϯάͨ͠ը૾: 160 º 128 ❖7-Scenes (2) Λ༻͍࣮ͯݧ ❖ޡࠩ: ग़ྗͱ Ground Truth ͷؒͷ MSE ❖ਫ਼౓ྼԽ: ۙࣅ͋Γͷग़ྗͷޡ͔ࠩΒݩͷग़ྗͷޡࠩΛҾ͍ͨ஋ 2022/3/11 18 (1) J. Sturm, W. Burgard, and D. Cremers, “Evaluating egomotion and structure-from-motion approaches using the TUM RGB-D benchmark,” IROS 2012 (2) J. Shotton, B. Glocker, C. Zach, S. Izadi, A. Criminisi, and A. Fitzgibbon, “Scene coordinate regression forests for camera relocalization in RGB-D images,” CVPR 2013
  12. ֤ख๏ͷൺֱ 1. ϥϯμϜ (Random) 2. نଇత (Interval) Ø ਫ਼౓ྼԽ͸࠷΋খ͍͞ Ø

    ఆظతʹݩͷαΠζͰ ॲཧ͢Δ͜ͱͰ ޡࠩͷ஝ੵΛ๷ࢭ ͢Δ͜ͱ͕ॏཁ 3. PSNR 4. ϙʔζͷڑ཭ (Pose) 5. ResNet 6. ConvLSTM 2022/3/11 20 ֤ख๏ʹ͓͚Δۙࣅͨ͠ϑϨʔϜͷׂ߹ͱฏۉޡࠩͷؔ܎
  13. ֤ख๏ͷൺֱ 3. PSNR Ø PSNR ͱਫ਼౓ྼԽͷؒʹ૬ؔ͸ͳ͍ (૬ؔ܎਺ 0.028) 4. ϙʔζͷڑ཭

    (Pose) Ø ϙʔζͷڑ཭ͱਫ਼౓ྼԽͷؒʹ૬ؔ͸ͳ͍ (૬ؔ܎਺ 0.013) Ø Χϝϥ͸ಉ͡ํ޲ʹಈ͖ଓ͚Δ͜ͱ͕ଟ͍ͷͰɺఆظతʹڑ཭͕େ͖͘ ͳͬͯݩͷαΠζͰͷॲཧ͕ߦΘΕΔͨΊɺਫ਼౓͕ൺֱతߴ͍ 2022/3/11 21 PSNR ͱਫ਼౓ྼԽͷؔ܎ ϙʔζͷڑ཭ͱਫ਼౓ྼԽͷؔ܎