慣性センサログの効果的な可視化と分類手法について

慣性センサログの効果的な可視化と分類手法について令和6年5月24日（金）（ミワダマサト）三和田将人

成果物について • 慣性センサから得られた561種類×5618件のログデータから人の動作予測をするモデル。 • 正答率（Cross Validation：CV）= 98.3%、LB（Leader Board）= 98.3%
04/22 04/23 04/24 04/25 04/26 04/27 04/28 04/29 04/30 05/01 05/02 05/03 05/04 05/05 05/06 05/07 05/08 05/09 05/10 05/11 05/12 05/13 05/14 05/15 05/16 05/17 05/18 05/19 05/20 05/21 05/22 05/23 05/24 月火水木金土日月火水木金土日月火水木金土日月火水木金土日月火水木金成果物の作成課題の調査特徴量の影響を調べるポートフォリオ作成文書作成コードの整理勉強会スライド作成（t-SNEについて）発表会スライド作成類似問題について調べる出典元の文献を調べるモデル作成 SVCモデルを作成・評価する SVCモデルをチューニングする GBMモデルを作成・評価する GBMモデルをチューニングする DNNモデルを作成・評価する DNNモデルをチューニングする EDA 与データの構造を確認する欠損値の割合を調べる t-SNEで調査するテーブルデータ分類 Scikit-learn LightGBM TensorFlow 活動センサーログからの動作予測成果物種類ツール利用するコンペ行動工程細目 • 事前調査：4日（12時間） • 試作品（精度が出るまで）：３日（８時間） • データ構造の調査や考察：3日（8時間） • 文書作成：12日（32時間）

発表の流れについて 1. 背景 2. 学習に用いたデータについて 3. 結果（各モデル手法の精度及び次の施策まで） 4. 作成スケジュール 5.
開発環境 6. 苦労、実践したこと 7. 最後に

1. 背景（慣性センサログとモデルの重要性） • 近年、より小型な慣性センサの製造が可能になり、様々な場面での人や物の動きについての記録の取得が容易となっている。 • 記録データ活用（動作予測）は、ますます社会で重要となってくる。（例） 1. 産業用ロボット、工作機械の動作予測
→ 運動・姿勢の維持、異常検知 2. ウェアラブル端末による、人の動作予測 → 医療分野への活用 3. インフラ構造物（鉄橋、高速道路）の維持管理 → 車両走行時の振動数や変位等加速度センサIC（Kionix Technology）:ローム株式会社 https://www.rohm.co.jp/products/sensors- mems/accelerometer-ics

1. 背景（動作予測モデルにおける課題点） • 結果に対して、高い精度が求められる。（例） 1. 製造：機械の異常をすぐに検知し、該当箇所の同定に貢献 2. 医療：装着者の重篤な状況を見逃さない •
一方で、誤検知も防ぐ必要がある。（例） 1. 製造：現場における製造の流れを止めない 2. 医療：誤検知による医療現場への負担を高めない

1. 背景（動作予測モデルにおける課題点） • 結果に対して、高い精度が求められる。（例） 1. 製造：機械の異常をすぐに検知し、該当箇所の同定に貢献 2. 医療：装着者の重篤な状況を見逃さない •
一方で、誤検知も防ぐ必要がある。（例） 1. 製造：現場における製造の流れを止めない 2. 医療：誤検知による医療現場への負担を高めない動作予測をする学習モデルには、高い検出力誤りが少ない高い精度が要求される

2. 学習に用いたデータと題材についてスマートフォンの慣性センサログから人間の動作予測をする • データソース https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones • 学習モデルの試験に利用したデータコンペ Signate, 【練習問題】活動センサーログからの動作予測,
https://signate.jp/competitions/116#Other • データセットの説明慣性センサログから得られたデータに信号処理などを施して用意された 561の特徴量から、６つの行動パターンを分類する。（n=5149）特徴量の大まかな分類 • 身体加速度計（xyz軸ごと） • 重力加速度計(xyz軸ごと） • 加加速度（加速度の時間微分値）データ（3軸） • 角運動量データ（3軸）上記のそれぞれに対する周波数データ× 各種統計量（平均、絶対値、信号エントロピー等） precision recall f1 LAYING 1 1 STANDING 0.96 0.96 SITTING 0.96 0.96 WALKING 0.99 1 WALKING_UPSTAIRS 0.99 0.99 WALKING_DOWNSTAIRS 1 0.99 目的変数

2. 学習に用いたデータと題材についてスマートフォンの慣性センサログから人間の動作予測をする • データソース https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones • 学習モデルの試験に利用したデータコンペ Signate, 【練習問題】活動センサーログからの動作予測,
https://signate.jp/competitions/116#Other • データセットの説明慣性センサログから得られたデータに信号処理などを施して用意された 561の特徴量から、６つの行動パターンを分類する。（n=5149） precision recall f1 LAYING 1 1 STANDING 0.96 0.96 SITTING 0.96 0.96 WALKING 0.99 1 WALKING_UPSTAIRS 0.99 0.99 WALKING_DOWNSTAIRS 1 0.99 目的変数

3. 結果（各モデル手法の精度）学習モデルを • Support Vector Machine Classification（SVC） • Deep
Neural Network（DNN） • Gradient Boosting Method（GBM）の３種類で作製し、比較したところSVCが最も精度が高かった。（なお、それぞれのモデルにはチューニングを施している） SVC DNN GBM CV 0.983 0.963 0.959 LB 0.983 0.976 0.971 CV：Cross Validation 検証データでの正解率(Accuracy） LB : Leader Board コンペでの正解率(Accuracy）

3. 結果（SVCモデルについて１/２） • 全体として98%以上と高い正答率を保ちながら、誤検知も少ない動作予測ができている（f1-scoreを参照） • 一方で「STANDING」と「SITTNG」の精度が相対的に悪い precision recall
f1-score support LAYING 1 1 1 1016 STANDING 0.96 0.96 0.96 895 SITTING 0.96 0.96 0.96 926 WALKING 0.99 1 0.99 853 WALKING_UPSTAIRS 0.99 0.99 0.99 682 WALKING_DOWNSTAIRS 1 0.99 0.99 777 accuracy 0.98 5149 macro avg 0.98 0.98 0.98 5149 weighted avg 0.98 0.98 0.98 5149

3. 結果（SVCモデルについて２/２） • t-SNE（高次元データの可視化手法）で学習データの構造を可視化したところ、「STANDING」と「SITTING」で点群の重なりが多く見られ、この２つはデータ構造的に近いことがわかった。

3. 結果（モデルを活用するための施策）（案の１）まず、「STANDING」と「SITTING」のセットとそれ以外に分離しする。そして、上記二つのみを正確に動作予測できるモデルを作成し、2種類のモデルからの予測結果を組み合わせる。（案の２）音などの別種類のデータを学習に取り入れる。 • End-to-End（一つのモデルでの検出精度を高める）
• 複数のモデルを組合せる。

4. 作成スケジュール 04/22 04/23 04/24 04/25 04/26 04/27 04/28 04/29
04/30 05/01 05/02 05/03 05/04 05/05 05/06 05/07 05/08 05/09 05/10 05/11 05/12 05/13 05/14 05/15 05/16 05/17 05/18 05/19 05/20 05/21 05/22 05/23 05/24 月火水木金土日月火水木金土日月火水木金土日月火水木金土日月火水木金成果物の作成課題の調査特徴量の影響を調べるポートフォリオ作成文書作成コードの整理勉強会スライド作成（t-SNEについて）発表会スライド作成類似問題について調べる出典元の文献を調べるモデル作成 SVCモデルを作成・評価する SVCモデルをチューニングする GBMモデルを作成・評価する GBMモデルをチューニングする DNNモデルを作成・評価する DNNモデルをチューニングする EDA 与データの構造を確認する欠損値の割合を調べる t-SNEで調査するテーブルデータ分類 Scikit-learn LightGBM TensorFlow 活動センサーログからの動作予測成果物種類ツール利用するコンペ行動工程細目 • 事前調査：4日（12時間） • 試作品（精度が出るまで）：３日（８時間） • データ構造の調査や考察：3日（8時間） • 文書作成：12日（32時間）

5. 開発環境 • Anaconda3 ➢Python 3.11 ✓matplot lib 3.5 ✓numpy
1.21 ✓Pandas 2.0 ✓Scikit-learn 1.4 ✓Optuna 3.6 ✓LightGBM 3.3 • 仮想環境（tqdml） ➢ Python 3.9 ✓Tensorflow（-directml） 2.16 ✓Keras-tuner 1.4 Lenovo 「IdeaPad Flex 5 14ALC7 (2022年製)」（Windows11 HOME）演算装置：AMD Ryzen 7 5700U with Radeon Graphics 1.80 GHz ➢Frequency （ Base:1.8GHz, Max 4.3GHz ） ➢Cores : 8, Threads : 16, Cache : 4MB L2 / 8MB L3 ソフトウェアハードウェア

6. 苦労、実践したこと（１/２） 1. 目的変数の確認慣性センサログの活用に関する文献を参考にして、動的・静的な動きと強く影響する指標（今回であれば、身体加速度におけるベクトル絶対値の平均）から分布図を作成して可視化した。

6. 苦労、実践したこと（２/２） 2. 出力結果の考察と高次元データ（特徴量）の可視化高次元の特徴量を持つ学習データの構造を理解するために、主成分分析や多次元尺度更生法を試したが、それらの手法ではデータの構造がうまく表現できなかった。 t-SNEを用いることで、データのクラスターがうまく形成され、構造的に近いデータを見つけることができ、分類モデルの作成に向けた重要な洞察を得ることができた。

7. 最後に（売込みポイント） • 新しい技術や概念を習得できる能力大学院で培われた、技術開発の経験 • とにかく、早く、試作品を作成できる能力公務員時代に培われた、手堅く進めて個々を積み上げる手法（古い意味でのハック：Hack） •
ざっくりと大枠を理解し、説明できる能力学生時代からの心掛け • 仮説と検証を積み重ねる能力これまでの人生で培ってきたもの

現在作成中のもの • 物体検出で部品の異常を検出するモデル（以下のモデルではYolov8を使用） • 他手法（Mask R-CNN等）との違い（ = 精度と出力までの時間）の精査中 open_circuit spurious_copper
spur short missing hole mouse_bite

ご清聴ありがとうございました

参考文献等の一覧（１/３）公式情報 • Tensorflow公式リファレンス（日、英）・・・ https://www.tensorflow.org/ • Scikit-learn公式ドキュメント（英）・・・ https://scikit-learn.org/stable/user_guide.html
• Optuna ・・・ https://optuna.org/ • Keras-tuner ・・・ https://keras.io/keras_tuner/ ブログなど • Qiita（日）・・・ https://qiita.com/ • teratail（日）・・・ https://teratail.com/ • Stack Overflow（日、英）・・・ https://stackoverflow.com/ • Kaggle（英）・・・ https://www.kaggle.com/ • Analytics Vidhya（英）・・・ https://www.analyticsvidhya.com/blog/ • Medium（英）・・・ https://medium.com/ • GitHub（日、英）・・・ https://github.com

参考文献一覧（２/３） 1. Laurens van der Maaten , Geoffrey Hinton ,
"Visualizing Data using t-SNE", Journal of Machine Learning Research, https://lvdmaaten.github.io/publications/papers/JMLR_2008.pdf, 2008.11 2. @g-k氏, Qiita, "t-SNEを理解して可視化力を高める”, https://qiita.com/g- k/items/120f1cf85ff2ceae4aba , 2021.10.08（最終アクセス2024.05.15） 3. @sakami氏, Qiita, "t-SNE解説", https://qiita.com/sakami/items/bb466161489771f7d2e9 , 2020.08, （最終アクセス2024.05.15） 4. @hkharmfulbear氏, Qiita, "次元圧縮を片っ端から試してみた（t-SNE, PCA, MDS, UMAP）", https://qiita.com/hkharmfulbear/items/a19dff8f3c637fa3bc12, 2022.03, （最終アクセス2024.05.15） 5. @kenmatsu4(まつけん)氏, Qiita, "Variational Autoencoder徹底解説", https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24, 2017.06,（最終アクセス2024.05.15） 6. データ化学工学研究室(金子研究室)＠明治大学理工学部応用化学科, "t-distributed Stochastic Neighbor Embedding (t-SNE) ～データの可視化に特化した手法～", https://datachemeng.com/tsne/ , （最終アクセス2024.05.15）

参考文献一覧（３/３） 7. 室田一雄, 東京大学計数工学科及び数理情報学専攻 - 俯瞰講義 (数理の世界第 7回)
, "最適化の数理—応用数理の視点", https://ocw.u-tokyo.ac.jp/lecture_files/gf_06/7/notes/ja/07murota.pdf, 2007.06 8. Leland McInnes, John Healy, James Melville, "UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction", https://arxiv.org/abs/1802.03426, 2018. 9. Narayan, A., Berger, B. & Cho, H. "Assessing single-cell transcriptomic variability through density- preserving data visualization." Nature Biotechnology, https://www.nature.com/articles/s41587-020- 00801-7 , 2021 • データソース https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones • 引用元 Davide Anguita, Alessandro Ghio, Luca Oneto, Xavier Parra and Jorge L. Reyes-Ortiz. "A Public Domain Dataset for Human Activity Recognition Using Smartphones". 21th European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning, ESANN 2013. Bruges, Belgium 24- 26 April 2013.

慣性センサログの効果的な可視化と分類手法について

慣性センサログの効果的な可視化と分類手法について

Masato MIWADA

More Decks by Masato MIWADA

Other Decks in Technology

Featured

Transcript