$30 off During Our Annual Pro Sale. View Details »

機械学習ベースの動画像処理における近似計算手法の検討 (CPSY 2022/03)

機械学習ベースの動画像処理における近似計算手法の検討 (CPSY 2022/03)

電子情報通信学会研究会のコンピュータシステム研究会 (CPSY) での発表資料です (2022/03/11)。
機械学習ベースの動画像処理技術であり、深度推定タスクに対する DeepVideoMVS と呼ばれるアプリケーションを利用した近似計算手法についての検討を行った。
ダウンサンプリングを行って近似をする際に、どのフレームなら近似しても影響が少ないかを推定し、似たようなフレームが連続して入力される動画像の特性を活かした最適化を行う。
・プログラムと抄録: https://www.ieice.org/ken/paper/20220311mCin/
・論文 (Copyright ©2022 by IEICE): https://projects.n-hassy.info/paper/CPSY2022-3.pdf
・プロフィール: https://n-hassy.info/ja/

Nobuho Hashimoto

March 11, 2022
Tweet

More Decks by Nobuho Hashimoto

Other Decks in Research

Transcript

  1. ػցֶशϕʔεͷಈը૾ॲཧʹ͓͚Δ
    ۙࣅܭࢉख๏ͷݕ౼
    ౦ژେֶ େֶӃ৘ใཧ޻ֶܥݚڀՊ
    ίϯϐϡʔλՊֶઐ߈
    ڮຊ ৴าɾߴલా ৳໵
    2022/03/11
    ίϯϐϡʔλγεςϜݚڀձ (CPSY)

    View Slide

  2. ໨࣍
    1. ֓ཁ
    2. എܠ
    3. ఏҊ಺༰
    4. ࣮ݧɾ݁Ռ
    5. ·ͱΊ
    2022/3/11 1

    View Slide

  3. ຊݚڀͷ֓ཁ
    ❖ಈը૾ॲཧʹ͓͚Δۙࣅܭࢉख๏Λݕ౼
    Ø ೖྗͷμ΢ϯαϯϓϦϯάΛߦ͏͜ͱͰԋࢉճ਺Λ࡟ݮ
    Ø ͲͷϑϨʔϜΛۙࣅ͢Δ͔ܾఆ͢Δख๏Λݕ౼
    l ϥϯμϜͳબ୒
    l نଇతͳબ୒
    l ϑϨʔϜؒͷ PSNR ʹج͍ͮͨ༧ଌ
    l ϑϨʔϜؒͷϙʔζͷڑ཭ʹج͍ͮͨ༧ଌ
    l ResNet Λ༻͍ͨ༧ଌ
    l ConvLSTM ͷग़ྗΛ༻͍ͨ༧ଌ
    ❖DeepVideoMVS (1)
    ʹద༻ͯ͠ධՁ
    2022/3/11 2
    (1) A. Duzceker, S. Galliani, C. Vogel, P. Speciale, M. Dusmanu, and M. Pollefeys,
    “DeepVideoMVS: Multi-view stereo on video with recurrent spatio-temporal fusion,” CVPR 2021

    View Slide

  4. ໨࣍
    1. ֓ཁ
    2. എܠ
    3. ఏҊ಺༰
    4. ࣮ݧɾ݁Ռ
    5. ·ͱΊ
    2022/3/11 3

    View Slide

  5. എܠ
    ❖ػցֶशΛ༻͍ͨಈը૾ॲཧٕज़ͷൃୡ
    Ø ߴਫ਼౓ͷೝࣝ΍ߴ඼࣭ͷಈըੜ੒͕࣮ݱ
    Ø ߴ଎ԽɾܰྔԽͷඞཁੑ
    ❖ߴਫ਼౓Ͱߴີ౓ͳࡾ࣍ݩ৘ใͷඞཁੑ
    Ø ϩϘοτ΍υϩʔϯͷࣗ཯૸ߦɺ֦ுݱ࣮ɺ3D ϞσϦϯά
    Ø Ұ୆ͷ୯؟Χϝϥ͔ΒಘΒΕΔಈը૾Λݩʹࡾ࣍ݩ৘ใΛ࠶ߏங
    l ਂ౓ਪఆʹΑͬͯಘΒΕΔਂ౓Ϛοϓ͕ಛʹॏཁͰ͔ͭ༗༻ͳதؒදݱ
    2022/3/11 4

    View Slide

  6. ਂ౓ਪఆ
    ❖ݹయతͳख๏
    Ø SfM (Structure from Motion) ͱ MVS (Multi-View Stereo) Λར༻
    Ø ֎෦؀ڥͷӨڹͰਫ਼౓͕௿Լ
    ❖ػցֶशΛ༻͍ͨख๏
    Ø ໬΋Β͍͠ग़ྗ͕ͩɺزԿֶత੔߹ੑ͕ෆे෼
    ❖ϋΠϒϦουͳख๏
    Ø ্هೋͭΛ૊Έ߹Θͤͯར༻
    Ø DeepV2D (1)
    ɺDeepVideoMVS (2)
    ɺHITNet (3)
    Ø ਫ਼౓ʹՃ͑ɺߴ଎͔ͭܰྔͳγεςϜΛ໨ࢦ͢ྲྀΕ
    2022/3/11 5
    (1) Z. Teed and J. Deng, “DeepV2D: Video to depth with differentiable structure from motion,” ICLR 2020
    (2) A. Duzceker, S. Galliani, C. Vogel, P. Speciale, M. Dusmanu, and M. Pollefeys,
    “DeepVideoMVS: Multi-view stereo on video with recurrent spatio-temporal fusion,” CVPR 2021
    (3) V. Tankovich, C. Hane, Y. Zhang, A. Kowdle, S. Fanello, and S. Bouaziz,
    “HITNet: Hierarchical iterative tile refinement network for real-time stereo matching,” CVPR 2021

    View Slide

  7. ໨࣍
    1. ֓ཁ
    2. എܠ
    3. ఏҊ಺༰
    4. ࣮ݧɾ݁Ռ
    5. ·ͱΊ
    2022/3/11 6

    View Slide

  8. DeepVideoMVS ͷ֓ཁ
    ❖Ұ࿈ͷಈը૾ͱͦͷ֤ϑϨʔϜʹ͓͚ΔϙʔζΛݩʹɺҎલͷϑ
    ϨʔϜͱεςϨΦϚονϯάΛߦ͏͜ͱͰਂ౓Λਪఆ
    2022/3/11 7
    ϙʔζɿΧϝϥ࠲ඪ͔Β
    άϩʔόϧ࠲ඪʹࣹӨ͢Δ
    ͨΊͷ 4 º 4 ͷߦྻ

    View Slide

  9. DeepVideoMVS ͷ֓ཁ
    ❖Ұ࿈ͷಈը૾ͱͦͷ֤ϑϨʔϜʹ͓͚ΔϙʔζΛݩʹɺҎલͷϑ
    ϨʔϜͱεςϨΦϚονϯάΛߦ͏͜ͱͰਂ౓Λਪఆ
    2022/3/11 8
    ϙʔζɿΧϝϥ࠲ඪ͔Β
    άϩʔόϧ࠲ඪʹࣹӨ͢Δ
    ͨΊͷ 4 º 4 ͷߦྻ
    ͲͷΑ͏ʹͯ͠ܭࢉΛল͚Δ͔ʁʁ

    View Slide

  10. μ΢ϯαϯϓϦϯάʹΑΔۙࣅܭࢉ
    ❖ෳ਺ͷϑϨʔϜ͕ॱʹྲྀΕࠐΜͰ͘Δಈը૾ಛ༗ͷੑ࣭Λੜ͔͠
    ͨ࠷దԽ
    Ø ਫ਼౓ʹӨڹͷগͳ͍ϑϨʔϜΛ༧ଌ͠ɺͦͷϑϨʔϜͷΈμ΢ϯαϯϓ
    ϦϯάΛߦͬͯۙࣅ͢Δ͜ͱͰԋࢉճ਺Λ࡟ݮ
    2022/3/11 9

    View Slide

  11. ۙࣅ͢ΔϑϨʔϜͷબͼํ
    1. ϥϯμϜͳબ୒
    2. نଇతͳબ୒
    Ø Ex) 25 % Λۙࣅ͢Δ৔߹: 4 ճͷ͏ͪ 1 ճΛۙࣅ͢Δ͜ͱͷ܁Γฦ͠
    3. ϑϨʔϜؒͷ PSNR ʹج͍ͮͨ༧ଌ
    Ø લʹۙࣅͤͣʹॲཧͨ͠ը૾ͱͷྨࣅ౓͕ᮢ஋ΑΓߴ͍΋ͷͷΈۙࣅ
    l ConvLSTM Λ࢖༻ͯ͠ҎલͷϑϨʔϜͷ৘ใΛ࢖ͬͯ༧ଌ
    l ग़ྗ͕ࣅ͍ͯΕ͹ (≒ ೖྗ͕ࣅ͍ͯΔ) ਫ਼౓ྼԽ΋཈͑ΒΕΔͱ૝ఆ
    Ø PSNR ͕ߴ͍ = ྨࣅ౓͕ߴ͍
    4. ϑϨʔϜؒͷϙʔζͷڑ཭ʹ
    ج͍ͮͨ༧ଌ
    Ø ϙʔζͷڑ཭͕খ͍͞ = ྨࣅ౓͕ߴ͍
    2022/3/11 10

    View Slide

  12. ۙࣅ͢ΔϑϨʔϜͷબͼํ
    1. ϥϯμϜͳબ୒
    2. نଇతͳબ୒
    Ø Ex) 25 % Λۙࣅ͢Δ৔߹: 4 ճͷ͏ͪ 1 ճΛۙࣅ͢Δ͜ͱͷ܁Γฦ͠
    3. ϑϨʔϜؒͷ PSNR ʹج͍ͮͨ༧ଌ
    Ø લʹۙࣅͤͣʹॲཧͨ͠ը૾ͱͷྨࣅ౓͕ᮢ஋ΑΓߴ͍΋ͷͷΈۙࣅ
    l ConvLSTM Λ࢖༻ͯ͠ҎલͷϑϨʔϜͷ৘ใΛ࢖ͬͯ༧ଌ
    l ग़ྗ͕ࣅ͍ͯΕ͹ (≒ ೖྗ͕ࣅ͍ͯΔ) ਫ਼౓ྼԽ΋཈͑ΒΕΔͱ૝ఆ
    Ø PSNR ͕ߴ͍ = ྨࣅ౓͕ߴ͍
    4. ϑϨʔϜؒͷϙʔζͷڑ཭ʹ
    ج͍ͮͨ༧ଌ
    Ø ϙʔζͷڑ཭͕খ͍͞ = ྨࣅ౓͕ߴ͍
    2022/3/11 11
    ϕʔεϥΠϯ

    View Slide

  13. ۙࣅ͢ΔϑϨʔϜͷબͼํ
    1. ϥϯμϜͳબ୒
    2. نଇతͳબ୒
    Ø Ex) 25 % Λۙࣅ͢Δ৔߹: 4 ճͷ͏ͪ 1 ճΛۙࣅ͢Δ͜ͱͷ܁Γฦ͠
    3. ϑϨʔϜؒͷ PSNR ʹج͍ͮͨ༧ଌ
    Ø લʹۙࣅͤͣʹॲཧͨ͠ը૾ͱͷྨࣅ౓͕ᮢ஋ΑΓߴ͍΋ͷͷΈۙࣅ
    l ConvLSTM Λ࢖༻ͯ͠ҎલͷϑϨʔϜͷ৘ใΛ࢖ͬͯ༧ଌ
    l ग़ྗ͕ࣅ͍ͯΕ͹ (≒ ೖྗ͕ࣅ͍ͯΔ) ਫ਼౓ྼԽ΋཈͑ΒΕΔͱ૝ఆ
    Ø PSNR ͕ߴ͍ = ྨࣅ౓͕ߴ͍
    4. ϑϨʔϜؒͷϙʔζͷڑ཭ʹ
    ج͍ͮͨ༧ଌ
    Ø ϙʔζͷڑ཭͕খ͍͞ = ྨࣅ౓͕ߴ͍
    2022/3/11 12
    ࿈ଓʹྲྀΕͯ͘Δͱ͍͏
    ಈը૾ͷಛੑΛར༻

    View Slide

  14. ۙࣅ͢ΔϑϨʔϜͷબͼํ
    1. ϥϯμϜͳબ୒
    2. نଇతͳબ୒
    Ø Ex) 25 % Λۙࣅ͢Δ৔߹: 4 ճͷ͏ͪ 1 ճΛۙࣅ͢Δ͜ͱͷ܁Γฦ͠
    3. ϑϨʔϜؒͷ PSNR ʹج͍ͮͨ༧ଌ
    Ø લʹۙࣅͤͣʹॲཧͨ͠ը૾ͱͷྨࣅ౓͕ᮢ஋ΑΓߴ͍΋ͷͷΈۙࣅ
    l ConvLSTM Λ࢖༻ͯ͠ҎલͷϑϨʔϜͷ৘ใΛ࢖ͬͯ༧ଌ
    l ग़ྗ͕ࣅ͍ͯΕ͹ (≒ ೖྗ͕ࣅ͍ͯΔ) ਫ਼౓ྼԽ΋཈͑ΒΕΔͱ૝ఆ
    Ø PSNR ͕ߴ͍ = ྨࣅ౓͕ߴ͍
    4. ϑϨʔϜؒͷϙʔζͷڑ཭ʹ
    ج͍ͮͨ༧ଌ
    Ø ϙʔζͷڑ཭͕খ͍͞ = ྨࣅ౓͕ߴ͍
    2022/3/11 13
    Կ͔͠Βͷಛ௃ʹج͍ͮͯ
    ਫ਼౓Λ༧ଌ

    View Slide

  15. ۙࣅ͢ΔϑϨʔϜͷબͼํ
    1. ϥϯμϜͳબ୒
    2. نଇతͳબ୒
    Ø Ex) 25 % Λۙࣅ͢Δ৔߹: 4 ճͷ͏ͪ 1 ճΛۙࣅ͢Δ͜ͱͷ܁Γฦ͠
    3. ϑϨʔϜؒͷ PSNR ʹج͍ͮͨ༧ଌ
    Ø લʹۙࣅͤͣʹॲཧͨ͠ը૾ͱͷྨࣅ౓͕ᮢ஋ΑΓߴ͍΋ͷͷΈۙࣅ
    l ConvLSTM Λ࢖༻ͯ͠ҎલͷϑϨʔϜͷ৘ใΛ࢖ͬͯ༧ଌ
    l ग़ྗ͕ࣅ͍ͯΕ͹ (≒ ೖྗ͕ࣅ͍ͯΔ) ਫ਼౓ྼԽ΋཈͑ΒΕΔͱ૝ఆ
    Ø PSNR ͕ߴ͍ = ྨࣅ౓͕ߴ͍
    4. ϑϨʔϜؒͷϙʔζͷڑ཭ʹ
    ج͍ͮͨ༧ଌ
    Ø ϙʔζͷڑ཭͕খ͍͞ = ྨࣅ౓͕ߴ͍
    2022/3/11 14
    Կ͔͠Βͷಛ௃ʹج͍ͮͯ
    ਫ਼౓Λ༧ଌ

    View Slide

  16. ۙࣅ͢ΔϑϨʔϜͷબͼํ
    5. ResNet Λ༻͍ͨ༧ଌ
    Ø ಛ௃ྔΛਓ͕ܾؒΊΔͷͰ͸ͳ͘ɺػցతʹܾఆ
    Ø લͷϑϨʔϜͱࠓͷϑϨʔϜ͔Β ResNet-18 Λ༻͍ͯਫ਼౓ྼԽΛ༧ଌ
    Ø ਫ਼౓ྼԽ͕খ͍͞ͱ༧ଌ͞Εͨ΋ͷΛۙࣅ
    6. ConvLSTM ͷग़ྗΛ༻͍ͨ༧ଌ
    Ø աڈͷϑϨʔϜ৘ใΛ͞Βʹੜ͔ͨ͢ΊʹɺConvLSTM ͷӅΕ૚Λ࢖༻
    Ø શ݁߹૚ʹ௨ͯ͠ਫ਼౓ྼԽΛ༧ଌ
    Ø ਫ਼౓ྼԽ͕খ͍͞ͱ
    ༧ଌ͞Εͨ΋ͷΛۙࣅ
    2022/3/11 15

    View Slide

  17. ۙࣅ͢ΔϑϨʔϜͷબͼํ
    5. ResNet Λ༻͍ͨ༧ଌ
    Ø ಛ௃ྔΛਓ͕ܾؒΊΔͷͰ͸ͳ͘ɺػցతʹܾఆ
    Ø લͷϑϨʔϜͱࠓͷϑϨʔϜ͔Β ResNet-18 Λ༻͍ͯਫ਼౓ྼԽΛ༧ଌ
    Ø ਫ਼౓ྼԽ͕খ͍͞ͱ༧ଌ͞Εͨ΋ͷΛۙࣅ
    6. ConvLSTM ͷग़ྗΛ༻͍ͨ༧ଌ
    Ø աڈͷϑϨʔϜ৘ใΛ͞Βʹੜ͔ͨ͢ΊʹɺConvLSTM ͷӅΕ૚Λ࢖༻
    Ø શ݁߹૚ʹ௨ͯ͠ਫ਼౓ྼԽΛ༧ଌ
    Ø ਫ਼౓ྼԽ͕খ͍͞ͱ
    ༧ଌ͞Εͨ΋ͷΛۙࣅ
    2022/3/11 16
    ͞Βʹաڈͷ৘ใ΋ར༻
    ಛ௃Λػցతʹಛ௃ྔΛܾఆ

    View Slide

  18. ໨࣍
    1. ֓ཁ
    2. എܠ
    3. ఏҊ಺༰
    4. ࣮ݧɾ݁Ռ
    5. ·ͱΊ
    2022/3/11 17

    View Slide

  19. ࣮ݧ
    ❖TUM RGB-D (1)
    Ͱࣄલֶश͞Εͨ DeepVideoMVS ͷϞσϧΛ࢖༻
    ❖ݩͷը૾: 320 º 256ɺμ΢ϯαϯϓϦϯάͨ͠ը૾: 160 º 128
    ❖7-Scenes (2)
    Λ༻͍࣮ͯݧ
    ❖ޡࠩ: ग़ྗͱ Ground Truth ͷؒͷ MSE
    ❖ਫ਼౓ྼԽ: ۙࣅ͋Γͷग़ྗͷޡ͔ࠩΒݩͷग़ྗͷޡࠩΛҾ͍ͨ஋
    2022/3/11 18
    (1) J. Sturm, W. Burgard, and D. Cremers,
    “Evaluating egomotion and structure-from-motion approaches using the TUM RGB-D benchmark,” IROS 2012
    (2) J. Shotton, B. Glocker, C. Zach, S. Izadi, A. Criminisi, and A. Fitzgibbon,
    “Scene coordinate regression forests for camera relocalization in RGB-D images,” CVPR 2013

    View Slide

  20. ఆੑతͳ݁Ռ
    ❖ۙࣅ͢Δ͜ͱͰɺத৺తͳେ͖ͳ෺ମҎ֎ͷ෺ମͷਂ౓Λ༧ଌ͢
    Δ͜ͱ͕೉͘͠ͳΔՄೳੑ
    2022/3/11 19
    ೖྗ Ground Truth ݩͷग़ྗ ۙࣅޙͷग़ྗ
    Ground Truth ͱͷؒͷ MSE
    0.17 0.16
    0.14 1.4
    Ground Truth ͱͷؒͷ MSE

    View Slide

  21. ֤ख๏ͷൺֱ
    1. ϥϯμϜ (Random)
    2. نଇత (Interval)
    Ø ਫ਼౓ྼԽ͸࠷΋খ͍͞
    Ø ఆظతʹݩͷαΠζͰ
    ॲཧ͢Δ͜ͱͰ
    ޡࠩͷ஝ੵΛ๷ࢭ
    ͢Δ͜ͱ͕ॏཁ
    3. PSNR
    4. ϙʔζͷڑ཭ (Pose)
    5. ResNet
    6. ConvLSTM
    2022/3/11 20
    ֤ख๏ʹ͓͚Δۙࣅͨ͠ϑϨʔϜͷׂ߹ͱฏۉޡࠩͷؔ܎

    View Slide

  22. ֤ख๏ͷൺֱ
    3. PSNR
    Ø PSNR ͱਫ਼౓ྼԽͷؒʹ૬ؔ͸ͳ͍ (૬ؔ܎਺ 0.028)
    4. ϙʔζͷڑ཭ (Pose)
    Ø ϙʔζͷڑ཭ͱਫ਼౓ྼԽͷؒʹ૬ؔ͸ͳ͍ (૬ؔ܎਺ 0.013)
    Ø Χϝϥ͸ಉ͡ํ޲ʹಈ͖ଓ͚Δ͜ͱ͕ଟ͍ͷͰɺఆظతʹڑ཭͕େ͖͘
    ͳͬͯݩͷαΠζͰͷॲཧ͕ߦΘΕΔͨΊɺਫ਼౓͕ൺֱతߴ͍
    2022/3/11 21
    PSNR ͱਫ਼౓ྼԽͷؔ܎ ϙʔζͷڑ཭ͱਫ਼౓ྼԽͷؔ܎

    View Slide

  23. ֤ख๏ͷൺֱ
    5. ResNet
    Ø ֶश͕͏·͘ਐΜͰ͍ͳ͍Α͏ʹݟ͑Δ
    6. ConvLSTM
    Ø ResNet ΑΓ͸ֶश͕҆ఆ͍ͯ͠Δ͕ɺਫ਼౓͸্͕͍ͬͯͳ͍
    2022/3/11 22
    ֶशۂઢ ςετਫ਼౓ͷਪҠ
    ResNet ConvLSTM ResNet ConvLSTM

    View Slide

  24. ໨࣍
    1. ֓ཁ
    2. എܠ
    3. ఏҊ಺༰
    4. ࣮ݧɾ݁Ռ
    5. ·ͱΊ
    2022/3/11 23

    View Slide

  25. ·ͱΊͱࠓޙͷ՝୊
    ❖DeepVideoMVS Λ࢖༻ͯ͠ಈը૾ॲཧʹ͓͚Δۙࣅܭࢉख๏Λ
    ݕ౼
    ❖نଇతʹϑϨʔϜબ୒ͯ͠ɺμ΢ϯαϯϓϦϯά͢Δͷ͕࠷ద
    Ø ఆظతʹݩͷը૾αΠζͰॲཧΛߦ͏͜ͱͰޡࠩͷ஝ੵΛ๷ࢭ
    ❖Ұํɺݱ࣌఺Ͱ͸ೖྗ͔Βਫ਼౓ྼԽͷఔ౓Λ༧ଌ͢Δ͜ͱ͸ࠔ೉
    ❖ҎԼͷੑ࣭Λੜ͔ͯ͠༧ଌ͢Δ͜ͱ͸Ͱ͖ͳ͍͔
    Ø ਫ਼౓ྼԽͷେ͖͍࣌ؒଳͱখ͍࣌ؒ͞ଳ͸ଘࡏ
    Ø ۙࣅʹΑΓൺֱతখ͞ͳ෺ମͷਂ౓৘ใ͸ࣦΘΕΔ
    2022/3/11 24

    View Slide

  26. 2022/3/11 25

    View Slide