DNN による動画認識

〒169-0074 東京都新宿区北新宿2-21-1 新宿フロントタワー15F TEL: 03-5937-1610 FAX: 03-5937-1612 www.albert2005.co.jp/ DNNによる動画認識

⾃⼰紹介 © 2020 ALBERT Inc. 2 ⽔船公輔 n ~2019
⼤阪⼤学経済学修⼠ Ø 専⾨︓マーケティングサイエンス Ø 研究内容︓LDA (Latent Dirichlet Allocation) を⽤いたレビューテキストの解析 n 2019 （株）ALBERT に⼊社 n 2020~ リサーチャーに転向 Ø 動画認識の研究

Outline © 2020 ALBERT Inc. 3 n 動画認識タスク Ø 動画認識で何ができる︖
n 動画のハンドリング Ø 動画の前処理はどうすれば良いのか︖ Ø ニューラルネットにはどのような形式で与えるのか︖ n 研究動向 Ø 最近はどんな課題意識があるか︖

動画認識で何ができる︖ © 2020 ALBERT Inc. 5 今回は「⾏動認識」に焦点を当てる n 「⾏動」についての認識 Ø
切り抜かれた（Trimmed）動画での、「どんな」⾏動があるかの認識︓Action Recognition Ø 切り抜かれない（Untrimmed）動画において、「いつ」「どんな」⾏動があるかの認識︓Action Localization, Action Segmentation n Tracking Ø 対象⼈物を追跡する n その他 Ø 動画を利⽤した深度推定 Ø Motion capture

Action Recognitionとは n 基本的には画像分類の動画版 Ø つまり、他のタスクに共通する基礎的な研究が多い n 動画ならではの課題がある Ø 時間⽅向のモデリングが必要であったり
Ø 画像認識と⽐べると、効率的なモデルを作る意識が強い © 2020 ALBERT Inc. 6 動画フレームを⼊⼒として、⾏動ラベルを出⼒するタスク Model クラス

Action Localizationとは n ⼀般に動画は切り抜かれない状態のものが多いことを考えると、より実務的なタスク n 動画フレーム全体をニューラルネットに処理させると計算量が⼤きすぎるため、学習済モデルを使⽤した表現を⼊⼒とする研究が多い © 2020 ALBERT
Inc. 7 [1] Yuanjun Xiong, Introduction to Human Activity Understanding in Videos, CVPR 2020 Tutorial, https://bryanyzhu.github.io/videomodeling.github.io/slide/talk1_activity_understanding_slide.pdf 動画フレームを⼊⼒とし、action labels + start & end timestampsを出⼒する

動画認識の応⽤ © 2020 ALBERT Inc. 8 n スポーツやゲームの実況⽣成 n 動画コンテンツの検索エンジン
n 監視カメラの認識 Ø 犯罪⾃動検知 Ø ⼯場内での危険動作検知 Ø 居眠り運転の検知

そもそも動画とは︖ n 本資料では動画像の扱いについて⾔及する © 2020 ALBERT Inc. 10 連続した静⽌画像+⾳声 +
Images Audio Video

動画をニューラルネットで扱うには n 時間⽅向をモデル化する為、3D畳み込みが使⽤できる n ただし計算コストが⼤きいため、近年は使⽤されていない © 2020 ALBERT Inc. 11
チャネルの次元は簡単のため無視しているフレーム数が次元に加わり、3D畳み込みを使⽤できる画像 (縦, 横) 動画像 (縦, 横, フレーム数) ✴ 2D Conv ✴ 3D Conv

動画像の前処理について n 上で⽰しているように、300枚の動画を扱えるか︖ Ø 難しい（メモリ的に⾟いし、冗⻑すぎる） n サンプリングにより解決。ただし、様々なサンプリング⽅法がある Ø ここでは代表的なサンプリング⽅法であるDense SamplingとUniform
Samplingについて紹介 © 2020 ALBERT Inc. 12 動画を扱うには、時間⽅向のサンプリングが必要 Naïve: 30FPS、10秒の動画=300枚 Sampling: 30FPS、10秒の動画、 1秒につき１枚=10枚サンプリング

動画像の前処理︓Dense Sampling n 密にサンプリング=細かい動き情報が⾒れる n ただし動画全体を扱うことはできないため、クリップ（動画の⼀区間）を複数使⽤し、最終的に出⼒の平均値をラベルスコアとして扱う © 2020 ALBERT
Inc. 13 [2] Korbar et al, SCSampler: Sampling salient clips from video for efficient action recognition, ICCV 2019 動画の⼀部を密にサンプリング。動画全体で推論するときは複数クリップを作る Clip 1 Clip N

動画像の前処理︓Uniform Sampling n Dense Samplingは動画の⼀部しか⾒ていないため、推論時に10クリップ分samplingして評価することが多い Ø 10個分のNNの計算を⾏うわけなので計算負荷が⼤きい（精度は⾼いが） n Uniform Samplingはセグメントから１フレームずつサンプリングすることで動画全体を⾒れる
Ø ただし、サンプリングがスパースなので精度が落ちる（1クリップしか使わないので速度は速い） © 2020 ALBERT Inc. 14 [3] Wang et al, Temporal segment networks: Towards good practices for deep action recognition, ECCV 2016 動画全体を複数のセグメントに分割し、それぞれから１フレームずつサンプリングする⽅法を提案 Segment 1 Segment 3 Segment 2

Optical Flowの利⽤ © 2020 ALBERT Inc. 15 [4] J. Carreira
and A. Zisserman. Quo vadis, action recognition? a new model and the kinetics dataset. In Proc. CVPR, 2017 [5] Piergiovanni et al, Representation flow for action recognition, CVPR 2019 Optical Flowを使⽤することで精度向上ができる n Optical Flowとは、連続する画像間の物体の動きをベクトルで表したもの（左図） n 右図のように画像とは別にOptical Flow⽤の3D Convを⽤意するTwo-Streamな⽅法で精度を上げられる [4] Ø 短時間の動き特徴を持っている n ただし、最近はこの⽅法が最適ではないという指摘もある [5]

動画のデコード n 画像認識と⽐較して数⼗倍の容量を読み込むので、I/Oを効率化する必要がある * Ø ⼯夫すれば数倍は学習を⾼速化できる Ø I/Oだけでなく前処理時点でのテンソル操作の効率化も⼤事 ** n
動画のデコードライブラリ Ø pyav Ø OpenCV Ø 最近はGPUサポートについたdecordというライブラリが出ていて⾼速 n ⼀⽅、ffmpegなどでフレーム分割した⽅が基本的には速い *** Ø PillowやOpenCVといった、画像認識で使っていたものがそのまま使える Ø ただし、ストレージが⼤量に必要なので注意（数倍に膨らむはず、ものによってはTBは必要） © 2020 ALBERT Inc. 16 • GPUの性能だけでなく、CPUも⼤事です。動画分析を⾏うマシンを選ぶ際は気をつけましょう。（弊社の環境 https://blog.albert2005.co.jp/2020/12/09/dgx-a100/ ） ** 例えばPyTorchでnumpy配列に対してtorch.tensorをするとコピーを作るので⾮常に遅くなります。torch.from_numpy()を使いましょう。 *** ちなみに3分くらいのmp4ファイルを複数読み込むとメモリエラーになります。動画のデコードは基本的に時間がかかる->学習が遅い要因に

有名なデータセット © 2020 ALBERT Inc. 19 n UCF101 Ø 13000動画、101個のラベルを分類。
Ø 動画版CIFAR10/100。 n Kinetics Ø 30万動画、400のラベルを分類（600, 700ラベルのタスクも存在） Ø UCFはサンプルサイズが⼩さいため、⼤きいモデルを学習できないという問題を解決（動画版ImageNet）

背景・物体バイアスの少ないタスク © 2020 ALBERT Inc. 20 [6] Kay et al,
The Kinetics Human Action Video Dataset, 2017 [7] Epstein et al, Oops! Predicting Unintentional Action in Video, CVPR 2020 [8] Girdhar and Ramanan, CATER: A diagnostic dataset for Compositional Actions and TEmporal Reasoning, ICLR 2020 ⼈間には簡単だけど機械にとっては難しいタスクが新たに提案されつつある 1動画に1⾏動ラベルを付与する分類（下図はPlaying violin）[6] しかし、⼀枚⾒れば⼗分であまり動画である必要がない動画中の⾏動が「意図的」なものかを識別（下図はこけているので「⾮意図的」）[7] ⾦の球体は最後どこにあるかを識別[8] 背景や物体に対するバイアスを取り除いたタスクに焦点が当てられつつある従来 (UCF, Kinetics) 近年

効率的なネットワーク︓P3D, R(2+1)D, S3D n P3D [9], R(2+1)D [10], S3D [11]
といったモデルが提案されている。 n 計算速度削減のためのベンチマークとしてよく使われる（ちょっと古いから最近は微妙だが） © 2020 ALBERT Inc. 22 [9] Qiu et al, Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks, ICCV 2017 [10] Tran et al, “A closer look at spatiotemporal convolutions for action recognition”, CVPR 2018 [11] Xie et al, Rethinking spatiotemporal feature learning: Speed-accuracy trade-offs in video classification, ECCV 2018 3×3×3 Convは計算量が多いため、空間⽅向と時間⽅向に分けてたたみこむ

効率的なネットワーク︓ TSM n ⾏動認識では3次元⽅向に畳み込む必要が無く、時間⽅向に前後している特徴を捉えれば良い事を⽰した n 全てのチャネルをシフトするとメモリ移動のオーバーヘッドが起きるため1/4ほどズラすと良い n また、Residual ModuleはShiftの前に⼊れると良いとのこと（右図） ©
2020 ALBERT Inc. 23 [12] Lin et al, TSM: Temporal shift module for efficient video understanding, ICCV 2019 時間⽅向に特徴マップをズラすことで、従来の2D Convのみで時間⽅向の相互関係を学習

時空間モデリング: Non-local n 動画には時間・空間⽅向のモデリングが必要 n 3D CNNだけだと受容野が狭い or 層を深くしても良いが最適化が難しいという問題をカバーしている ©
2020 ALBERT Inc. 24 [13] Wang et al, Non-local Neural Networks, CVPR 2018 時空間でSelf-Attentionを⾏い、遠い位置・時間情報を取り⼊れている yi = 1 C(x) X j f(xi, xj)g(xj) zi = Wzyi + xi <latexit sha1_base64="4++kxJBHXH6tcDJNYy5GoUZDkHc=">AAADEnichVHPaxNBFH67altTbVN7EbwMhpaUljBbhaoglOTiMf2RptAty+x0kkw7+4PdSTBZ8g94Fjx4UhAR8R/wJr148NpD/4TSYwtePPiyWbBJUd8w8958731vvplxQyVjTempYd64eWticup2bvrO3ZnZ/Ny9nThoR1zUeKCCaNdlsVDSFzUttRK7YSSY5ypRd48qg3y9I6JYBv627oZi32NNXzYkZxohJ//FdgN1EHc9dKTrSLL4nNiNiPHE6ie2x3SLM0UqxatlL5dI347bnnNIGqMJR66QUeBwqVkcR4ht565iveGxdadHxtQsj3V38gVaoqmR64GVBQXIrBrkP4INBxAAhzZ4IMAHjbECBjGOPbCAQojYPiSIRRjJNC+gDznktrFKYAVD9AjXJu72MtTH/aBnnLI5nqJwRsgksEBP6Cd6Qb/Tz/SM/vprryTtMdDSRe8OuSJ0Zl/d3/r5X5aHXkPrD+ufmjU04EmqVaL2MEUGt+BDfqf35mLr2eZCskjf03PU/46e0mO8gd+55B82xOZbyOEHWOPPfT3YWS1Zj0qrG48L6+XsK6bgATyEIr73GqzDC6hCDbgxbzw1ykbFfG1+Nb+Zx8NS08g48zBi5o/faNTKYw==</latexit>

3D Convは動き情報を捉えているのか︖ n Temporal Generatorは、最初のフレームから⾃動⽣成した動画を⼊⼒とする実験 n Oracleは精度の⾼くなるフレームを⼊⼒とする実験（現実には精度の⾼いフレームは神のみぞ知るので、ズル） n 最初のフレームから⾃動⽣成した動画でも精度が出るし、Oracle Selectorだと、全フレーム(Original
Video)を上回る Ø つまり、3D Convは重要そうなフレームを取ってきているだけで「動き」は理解していない説 © 2020 ALBERT Inc. 25 [14] Huang et al, What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets, CVPR 2018 3D Convは重要なフレームのselectorとして働いているだけという⾒⽅がある

Optical Flowの代⽤︓Compressed Video Action Recognition n Optical Flowを⽤いると、確かに精度は上がる Ø しかし、そもそもOptical
Flowの作成に時間がかかるため、代⽤したいモチベーションがある n RGBフレームを全て使うのは⾮効率 n 参照画像であるIフレームと、前のフレームを参照として符号化したPフレームを⽤いて計算を⾏う n Optical Flowと同様、Pフレームにも動きの情報があるとしている © 2020 ALBERT Inc. 26 [15] Wu et al, Compressed Video Action Recognition, CVPR 2018 ビデオの圧縮情報を⽤いて計算量を緩和

まとめ © 2020 ALBERT Inc. 28 n 動画特有の前処理には気をつける必要はあるが、基本的には静⽌画像の解析と同じ n 背景/物体バイアスに依存しないようなデータセット/タスクが提案されつつある
n 多様な課題意識があり、年々新しいモデルが提案されている Ø 特に計算量の削減、「動き」の認識が重要視されている印象

参考⽂献 © 2020 ALBERT Inc. 29 [1] Yuanjun Xiong, Introduction
to Human Activity Understanding in Videos, CVPR 2020 Tutorial, https://bryanyzhu.github.io/videomodeling.github.io/slide/talk1_activity_understanding_slide.pdf [2] Korbar et al, SCSampler: Sampling salient clips from video for efficient action recognition, ICCV 2019 [3] Wang et al, Temporal segment networks: Towards good practices for deep action recognition, ECCV 2016 [4] J. Carreira and A. Zisserman. Quo vadis, action recognition? a new model and the kinetics dataset. In Proc. CVPR, 2017 [5] Piergiovanni et al, Representation flow for action recognition, CVPR 2019 [6] Kay et al, The Kinetics Human Action Video Dataset, 2017 [7] Epstein et al, Oops! Predicting Unintentional Action in Video, CVPR 2020 [8] Girdhar and Ramanan, CATER: A diagnostic dataset for Compositional Actions and TEmporal Reasoning, ICLR 2020 [9] Qiu et al, Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks, ICCV 2017 [10] Tran et al, “A closer look at spatiotemporal convolutions for action recognition”, CVPR 2018 [11] Xie et al, Rethinking spatiotemporal feature learning: Speed-accuracy trade-offs in video classification, ECCV 2018 [12] Lin et al, TSM: Temporal shift module for efficient video understanding, ICCV 2019 [13] Wang et al, Non-local Neural Networks, CVPR 2018 [14] Huang et al, What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets, CVPR 2018 [15] Wu et al, Compressed Video Action Recognition, CVPR 2018

DNN による動画認識

DNN による動画認識

ALBERT Inc.

More Decks by ALBERT Inc.

Other Decks in Technology

Featured

Transcript

〒169-0074 東京都新宿区北新宿2-21-1 新宿フロントタワー15F TEL: 03-5937-1610 FAX: 03-5937-1612 www.albert2005.co.jp/ DNNによる動画認識

⾃⼰紹介 © 2020 ALBERT Inc. 2 ⽔船公輔 n ~2019

Outline © 2020 ALBERT Inc. 3 n 動画認識タスク Ø 動画認識で何ができる︖

動画認識タスク © 2020 ALBERT Inc. 4

動画認識で何ができる︖ © 2020 ALBERT Inc. 5 今回は「⾏動認識」に焦点を当てる n 「⾏動」についての認識 Ø

Action Recognitionとは n 基本的には画像分類の動画版 Ø つまり、他のタスクに共通する基礎的な研究が多い n 動画ならではの課題がある Ø 時間⽅向のモデリングが必要であったり

動画認識の応⽤ © 2020 ALBERT Inc. 8 n スポーツやゲームの実況⽣成 n 動画コンテンツの検索エンジン

動画像のハンドリング © 2020 ALBERT Inc. 9

そもそも動画とは︖ n 本資料では動画像の扱いについて⾔及する © 2020 ALBERT Inc. 10 連続した静⽌画像+⾳声 +

動画をニューラルネットで扱うには n 時間⽅向をモデル化する為、3D畳み込みが使⽤できる n ただし計算コストが⼤きいため、近年は使⽤されていない © 2020 ALBERT Inc. 11

動画像の前処理︓Dense Sampling n 密にサンプリング=細かい動き情報が⾒れる n ただし動画全体を扱うことはできないため、クリップ（動画の⼀区間）を複数使⽤し、最終的に出⼒の平均値をラベルスコアとして扱う © 2020 ALBERT

Optical Flowの利⽤ © 2020 ALBERT Inc. 15 [4] J. Carreira

動画のデコード n 画像認識と⽐較して数⼗倍の容量を読み込むので、I/Oを効率化する必要がある * Ø ⼯夫すれば数倍は学習を⾼速化できる Ø I/Oだけでなく前処理時点でのテンソル操作の効率化も⼤事 ** n

研究動向 © 2020 ALBERT Inc. 17

データセットについて © 2020 ALBERT Inc. 18

有名なデータセット © 2020 ALBERT Inc. 19 n UCF101 Ø 13000動画、101個のラベルを分類。

背景・物体バイアスの少ないタスク © 2020 ALBERT Inc. 20 [6] Kay et al,

モデル︓⾏動認識 © 2020 ALBERT Inc. 21

効率的なネットワーク︓P3D, R(2+1)D, S3D n P3D [9], R(2+1)D [10], S3D [11]

時空間モデリング: Non-local n 動画には時間・空間⽅向のモデリングが必要 n 3D CNNだけだと受容野が狭い or 層を深くしても良いが最適化が難しいという問題をカバーしている ©

Optical Flowの代⽤︓Compressed Video Action Recognition n Optical Flowを⽤いると、確かに精度は上がる Ø しかし、そもそもOptical

まとめ © 2020 ALBERT Inc. 27

まとめ © 2020 ALBERT Inc. 28 n 動画特有の前処理には気をつける必要はあるが、基本的には静⽌画像の解析と同じ n 背景/物体バイアスに依存しないようなデータセット/タスクが提案されつつある

参考⽂献 © 2020 ALBERT Inc. 29 [1] Yuanjun Xiong, Introduction