Explaining the Unique Nature of Individual Gait Patterns with Deep Learning

Explaining the unique nature of individual gait patterns with deep learning
Horst, F., Lapuschkin, S., Samek, W., Müller, K., Schöllhorn, W. (2019). Explaining the unique nature of individual gait patterns with deep learning Scientific Reports 9(1), 2391. https://dx.doi.org/10.1038/s41598-019-38748-8
【Sports AI 論文解説】
by スコットアトム

どんなもの？
DNNを用いて
臨床バイオメカニクスにおける個人の歩行パターンの特異性
を研究。

出力結果の理解と解釈を可能にするフレームワークを提案。
本論文では、ディープニューラルネットワークを用いて臨床バイオメカニクスにおける個人の歩行パターンの特性を研究しています。
歩行データから個人を識別するというタスクをもとに、その出力結果の理解と解釈、「どこを見て、個人を特定したのか」ということが説明できるようなフレームワークを提案しています。

背景 / 歩行分析における機械学習
機械学習を用いて歩行パターンから神経障害や病的な歩行状態の識別が可能
パーキンソン病
脳性麻痺
急性前十字靭帯損傷 etc.
その識別結果が出力された原因の追求が難しい。
→医学的診断を伴うアプリケーションの普及に歯止めをかけている。
機械学習を用いて歩行パターンから神経障害や病的な歩行状態の識別が可能であるということはいくつかの先行研究で明らかになっています。論文中にはパーキンソン病、脳性麻痺、急性前十字靭帯損傷etc. を患わっているかを識別できた研究が例として挙げられています。

しかし、ディープニューラルネットワークのブラックボックス的な性質からある識別結果が出力された原因の追求が難しいため、
医学的診断を伴う医療分野でのアプリケーションはなかなか普及せず、

解釈が困難であるために医療の現場でディープニューーラルネットワークには歯止めかかっているそうです。

背景 / 摂動に基づく機械学習モデルの解釈可能性
解釈可能性　＝　人間がモデル出力の原因を理解できる程度
摂動（任意のパッチで画像を隠すこと）に基づく方法

レントゲン画像は http://blog.qure.ai/notes/visualizing_deep_learning より入手
Original（胸水）
Occlusion
肋骨横隔膜角（CP角）
の鈍化
通常
解釈可能性とは、人間がモデル出力の原因を理解できる程度のことです。

ここでは、胸水と診断された患者の胸部X線（上の画像）を考えてみます。胸水とは、肺野（はいや）に肺液が溜まった状態のことでです。

胸水が溜まっていることの視覚的な手がかりは、ここに示したX線写真のように肋骨横隔膜角（CP角）が鈍くなっていることである。このように、画像の右側のCP角はシャープであるのに対し、左のCP角は鈍くなっており、胸水の症状を示していることがわかるかと思います。

参考にしている記事では胸水を検出する精度がかなり高い識別器を用いて，３つの方法で上記の識別器を解釈をしようとしています

Occlusion - 隠したら胸水の確率が大きく落ちるエリアを見つける方法です．任意の大きさの正方形を左上から順に画像にオーバーレイさせて，出力の変化をみて，胸水であるという確率が大きく落ちたエリアを探します．

LIME - 次の手法では，隠す範囲をより工夫してグリッドではなく，似ているピクセルをクラスタリングして隠す範囲を決めます．

背景 / 摂動に基づく機械学習モデルの解釈可能性

レントゲン画像は http://blog.qure.ai/notes/visualizing_deep_learning より入手
左のような画像があったときに，似ているピクセルをクラスタリングすると左のような境界線・グループができます．
あとはオクルージョンと同じ原理で，グループごとに隠したりして，出力の変化をみます．

背景 / 摂動に基づく機械学習モデルの解釈可能性

解釈可能性　＝　人間がモデル出力の原因を理解できる程度
摂動（任意のパッチで画像を隠すこと）に基づく方法

レントゲン画像は http://blog.qure.ai/notes/visualizing_deep_learning より入手
Original
Occlusion
LIME
Integrated Gradients - もう一つの手法では連続で変更できるパラメータ，例えば明るさを任意のaからbまで変更させます．

背景 / 摂動に基づく機械学習モデルの解釈可能性

レントゲン画像は http://blog.qure.ai/notes/visualizing_deep_learning より入手
それで各パラメータ値でセンシティビティーを計算して，最後に積分する方法です．

背景 / 摂動に基づく機械学習モデルの解釈可能性

解釈可能性　＝　人間がモデル出力の原因を理解できる程度
摂動（任意のパッチで画像を隠すこと）に基づく方法

ただし，コストが高く画像に大きく手を加えている．．．

レントゲン画像は http://blog.qure.ai/notes/visualizing_deep_learning より入手
Original
Occlusion
LIME
Integrated
Gradients
これらの方法の良い点は，画像を加工しているだけということで，モデルを問わず，ニューラルネットワークではなくても，SVMでも，部分空間法でも，モデルが見ているところにあたりをつけることができるということです．

しかし，こういう手法だと色々な場所を隠しながら複数回の出力が必要になるため，計算コストが高いです．さらに，画像を加工しているがゆえに，間違った結果を導くことがあります．
例えば，胸水ではなく，レントゲン画像自体に異常があるか，ないかのシンプルな識別を考えると，グリッドが画像を隠していたら，そのグリッドのせいで画像が異常だと検出されるはずです．

背景 / 摂動に基づく機械学習モデルの解釈可能性

レントゲン画像は http://blog.qure.ai/notes/visualizing_deep_learning より入手
東大の研究室から出たこちらの論文では，バレーボールでセッターの体の関節からボールの軌道を予測する研究をしており，アブレーションで入力関節を全身，腕のみ，下半身のみと変えて入力を変えて，腕のみより，下半身のみの方が軌道の予測精度が落ちることを発見し，ボールの軌道の予測には腕の関節の方が，下半身よりも重要であると結論づけました．

しかし，もっと細かく，「どのタイミングで」「どの関節が」影響が高いかを知りたければ，時間毎，関節毎に入力を変える必要があり，すぐに組み合わせが膨大な数になり計算コストがすぐに大きくなります．

背景 / 勾配に基づく機械学習モデルの解釈可能性

ニューラルネットワークから得られる出力や勾配を用いる手法
Saliency Maps / DeconvNet
GRAD-CAM / GRAD-CAM++
Layer-wise Relevance Propagation (LRP)
http://www.heatmapping.org/
これらの問題を克服するのは、出力から入力を逆にたどって何か意味がある結果が得られるのではないか、というアイディアをベースにした手法です。
ニューラルネットワークの解釈に関するものとして，Saliency Maps, DeconvNet, Grad-CAMなどいろいろな手法がありますが，本論文で使用されているのはLayer-wise relevance propagation(LRP)という手法です．
Layer-wise relevance propagation(LRP)は、ニューラルネットのレイヤー間の関係性を逆に伝搬していき、入力にたどり着くという手法です。出力に対する各入力の貢献の総和は各レイヤ間で等しく、伝搬を通じてその配分が変わっているに過ぎない、というのがベースにあります。

背景 / 勾配に基づく機械学習モデルの解釈可能性

Layer-wise Relevance Propagation (LRP)
http://danshiebler.com/2017-04-16-deep-taylor-lrp/　
入力まで貢献度を計算することで，画像であれば，各ピクセルの貢献度を可視化することができます．
本来であれば，クラス毎に出力ノードが一つあるので．一つずつ伝搬して，可視化します．またうまく可視化するためには負の貢献度を伝搬させないなどの工夫が必要です．

提案手法 / Framework Overview
入力：関節データ・床反力データを連結したベクトル x
出力: 被験者 y の subject ID
では，論文の提案手法の概要に進みます。

1). はデータ収集の様子ですが、被験者が任意の歩行速度で10mの距離を裸足で20回歩行したデータを記録します。2枚のフォースプレートと10台の赤外線カメラで、全身の関節角と床反力が記録されます。
2).では緑の関節データ、青の床反力データを時間正規化し、連結した入力ベクトルXをDNNに入力し、被験者yのSubject IDを予測します。画像では、Subject 6 という予測結果になっていることが分かるかと思います。
3). はLRPを用いて、モデルの入力結果の解釈を行っています。

図中の入力部に関しては注意が必要で，これは左から，左足首・左膝・左の腰・右足首・右膝・右の腰を連結したデータになっています．またグレーになっているのは足が床についてるときです．

７種類のモデルを使用
どのモデルでも，高い精度を達成
実験

SVM, CNN, MLP -> 似た特徴を抽出できている
同じ時間帯で，複数の関節角の貢献度が高い
LinearやMLPと比べ，SVM，CNNの貢献度の分散が低く，汎化性が高い
結果
貢献度プロット，縦軸は貢献度，色と同じことを示す．
左）グラフはSubject 57の１サンプルの場合のSVM，MLP，CNNを比較

右）Subject 28のサンプルを全てをモデルごとに比較
CNNとLinear SVMは分散が少なくて良い

まとめ
「個人に特有の歩行特性があり、他の個人の歩行パターンと明確に区別できる」
→機械学習を用いない先行研究と一致
SVM，CNN，MLPなど機械学習を使用
LRPを用いたモデルの解釈を可能にするフレームワークを提案

データセット
https://data.mendeley.com/datasets/svx74xcrjr/1 よりダウンロード可能
「個人に特有の歩行特性があり、他の個人の歩行パターンと明確に区別できる」
→機械学習を用いない先行研究と一致
SVM，CNN，MLPなど機械学習を使用
LRPを用いたモデルの解釈を可能にするフレームワークを提案

データセット
https://data.mendeley.com/datasets/svx74xcrjr/1 よりダウンロード可能