Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
講演②異常を検知する 東日本旅客鉄道株式会社 堀 恵治 様_SPSSユーザーイベント2022春
Search
JPSPSS
May 29, 2022
Technology
0
490
講演②異常を検知する 東日本旅客鉄道株式会社 堀 恵治 様_SPSSユーザーイベント2022春
2022/05/20に開催されたSPSS オンラインユーザーイベントのご講演
東日本旅客鉄道株式会社 堀 恵治 様
「講演②異常を検知する」
のスライド資料(公開版)です
JPSPSS
May 29, 2022
Tweet
Share
More Decks by JPSPSS
See All by JPSPSS
20250604SPSS春03_トヨタプロダクションエンジニアリング_稲垣様資料
jpspss
0
91
20250604SPSS春01_JALカード_伊藤様資料
jpspss
0
110
20250604SPSS春04_2_三井化学_新村様資料
jpspss
0
91
20250604SPSS春02_ベネッセ_中島様資料
jpspss
0
63
20250604SPSS春04_1_三井化学_松下様資料
jpspss
0
120
SPSS Modeler 18.6 新機能ハイライト
jpspss
0
130
SPSS Modeler18.6 新機能Text Analytics
jpspss
0
120
20241127SPSS秋01_産総研本田先生資料
jpspss
0
120
20241127SPSS秋02_東日本旅客鉄道 堀様資料
jpspss
0
160
Other Decks in Technology
See All in Technology
いま注目のAIエージェントを作ってみよう
supermarimobros
0
350
roppongirb_20250911
igaiga
1
240
Aurora DSQLはサーバーレスアーキテクチャの常識を変えるのか
iwatatomoya
1
1.2k
実践!カスタムインストラクション&スラッシュコマンド
puku0x
0
520
メルカリIBISの紹介
0gm
0
110
S3アクセス制御の設計ポイント
tommy0124
3
200
Snowflake×dbtを用いたテレシーのデータ基盤のこれまでとこれから
sagara
0
120
Android Audio: Beyond Winning On It
atsushieno
0
2.4k
LLM時代のパフォーマンスチューニング:MongoDB運用で試したコンテキスト活用の工夫
ishikawa_pro
0
170
Modern Linux
oracle4engineer
PRO
0
160
AWSを利用する上で知っておきたい名前解決のはなし(10分版)
nagisa53
10
3.2k
20250910_障害注入から効率的復旧へ_カオスエンジニアリング_生成AIで考えるAWS障害対応.pdf
sh_fk2
3
270
Featured
See All Featured
Bash Introduction
62gerente
615
210k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.7k
How GitHub (no longer) Works
holman
315
140k
Facilitating Awesome Meetings
lara
55
6.5k
How to Think Like a Performance Engineer
csswizardry
26
1.9k
BBQ
matthewcrist
89
9.8k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
113
20k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
580
Transcript
IoTデータの 異常を検知する 東日本旅客鉄道株式会社 JR東日本研究開発センター テクニカルセンター 堀 恵治 1 2022 IBM
SPSS Modeler 春のオンラインユーザーイベント
2 ✓ IoTデータ/異常検知とは ✓ 一般的な異常検知の事例 ✓ IoTデータの異常検知の事例 ✓ 一般的な異常検知とIoTデータの異常検知の違い 本日の内容
使用するデータは 自製の模擬データ
3 IoTデータとは ・ 特定のサンプリング周期で記録される時系列データ ・ アナログデータとデジタルデータの双方が含まれる アナログデータ:センサー情報等の連続値 デジタルデータ:操作ログ等の離散値(ON、OFF等) ・ 計測と通信デバイス、通信料の安価化により
今後も飛躍的にデータ量が増えると見込まれるデータ ・ IoTデータの分析ニーズは、増々高まっていく (完全な民主化ツールの登場には、まだ時間が必要) ・ 異常データの観測機会は極端に少ない
異常検知とは 4 ・他のデータと比較して特異 ・通常と比較して特異 ・想定と比較して特異 あるデータが特異な状態にある事を検出するデータ分析 特異な状態とは・・・ よって、まったく未知のデータに対しては、異常検出はできない 通常の範囲 想定の範囲
特異 特異 特異
IoTデータの異常検知の活用場面 5 ✓ 設備保護 ✓ メンテナンスタイミングの推定と決定 ✓ 製造製品の品質管理 等 IoTデータの異常検知とは
IoTデータにおいて、 「いつもの (or 想定される) ふるまい 」 と異なるデータを検出する事を目的とするデータ分析 IoTデータの異常検知の定義例 ※ IoTデータの異常データが極少数である特性から、明確に「正常」と「異常」を判別するデータ分析は多くの場合困難
6 一般的な異常検知手法
一般的な異常検知の事例(定期試験データから) 7 対象データ: 1000人分の定期試験の模擬データ 氏名ID 数学 英語 国語 100001 50
64 50 100002 37 52 51 100003 47 50 60 100004 33 66 67 100005 39 66 50 100006 42 52 63 100007 46 49 57 100008 34 52 40 100009 48 57 65 100010 34 55 65 100995 60 55 55 100996 41 57 52 100997 44 62 66 100998 31 78 63 100999 66 53 30 101000 24 34 18 ・ ・ ・ 問題設定: 定期試験の結果から 特異な成績の人物を特定する データの中身を確認 (データの分布、統計情報、欠損値)
8 手法1:統計的なアプローチによる特異データの検出例 偏差値の活用 偏差値:データ集団全体に対して、各データの位置を表す指標 μ x :平均値 𝑇𝑖 = 10
𝑥𝑖 − 𝜇𝑥 𝜎𝑥 + 50 x i :データ σ x :標準偏差 特異な データ ・ ・ ・ 例:三教科平均点の偏差値を算出し、偏差値の大きい順に並び替え 一般的な異常検知の事例(定期試験データから) 三教科平均点の 平 均 : 51.21 標準偏差 : 6.33 氏名ID 数学 英語 国語 三教科平均 三教科平均偏差値 100100 99 98 96 97.67 123.37 100056 53 69 84 68.77 77.73 100523 52 72 82 68.70 77.62 100636 42 72 91 68.16 76.77 100730 40 68 95 67.86 76.29 100824 39 76 86 66.77 74.58 100470 47 61 88 65.38 72.37 100677 45 63 87 65.27 72.20 100218 47 73 75 65.04 71.85 100244 50 59 86 65.03 71.82
9 手法2:クラスタ分析による特異データの検知例 例:極小クラスタによる特異データの検出 自動クラスタリングノードで極小クラスタの存在を検定※ 形成された極小クラスタの中身から特異データを特定 「K-means」モデルで 極小クラスタを形成 「クラスタ4」が 極小クラスタ 「クラスタ4」のみを抽出
特異なデータ 一般的な異常検知の事例(定期試験データから) ※考え方 特異データは、他のデータと異なるので 別のクラスタを形成し、通常そのクラスタには 極小数のデータしか含まれない クラスタ分析結果
10 手法3:異常度を活用した特異データの検出例 例:Modelerの異常値検査ノードによる異常度算出 異常値検査ノードにより異常度を算出 大きい順に並び替え、特異データを特定 特異なデータを抽出 一般的な異常検知の事例(定期試験データから) 異常度
11 IoTデータの異常検知手法
12 IoTデータの異常検知の事例(温度データ) 時刻 センサー1 センサー2 センサー3 2022/4/25 13:00:00 15 18
16 2022/4/25 13:00:01 18 22 18 2022/4/25 13:00:02 25 25 22 2022/4/25 13:00:03 17 19 19 2022/4/25 13:00:04 24 18 24 2022/4/25 13:00:05 24 23 15 2022/4/25 13:00:06 15 25 17 2022/4/25 13:00:07 19 23 24 2022/4/25 13:00:08 22 20 15 2022/4/25 13:00:09 22 20 17 2022/4/25 13:16:39 40 40 40 2022/4/25 13:16:40 40 40 40 2022/4/25 13:16:41 40 40 40 2022/4/25 13:16:42 40 40 40 2022/4/25 13:16:43 40 40 40 2022/4/25 13:16:44 40 40 40 2022/4/25 13:16:45 40 40 40 2022/4/25 13:16:46 40 40 40 ・ ・ ・ 対象データ: 1000レコード分の温度センサーの模擬データ 問題設定: センサーのIoTデータから 特異な時刻を特定する データの中身を確認 (データの分布、統計情報、欠損値)
IoTデータの異常検知の事例(温度データ) 13 こんな事例(データ)は、ほとんど無い ⇒IoT化必要なく、単純なセンサーの異常検知システム 手法1:クラスタ分析による特異データの検知例 例:極小クラスタによる特異データの検出 自動クラスタリングノードで極小クラスタの存在を検定 形成された極小クラスタの中身から特異データを特定 極小クラスタ 特異な
データ
IoTデータの異常検知の事例(デジタルデータ) 14 問題設定: センサーのIoTデータから 特異な時刻を特定する 対象データ: 1000レコード分のデジタルデータ 実際に直面するデータイメージ 時刻 センサー1
センサー2 センサー3 2022/4/25 13:00:00 1 0 1 2022/4/25 13:00:01 0 0 1 2022/4/25 13:00:02 0 1 0 2022/4/25 13:00:03 0 1 0 2022/4/25 13:00:04 0 1 0 2022/4/25 13:00:05 1 1 0 2022/4/25 13:00:06 1 0 1 2022/4/25 13:00:07 1 0 1 2022/4/25 13:00:08 1 0 1 2022/4/25 13:00:09 0 0 1 2022/4/25 13:16:37 1 0 1 2022/4/25 13:16:38 1 0 1 2022/4/25 13:16:39 1 0 1 2022/4/25 13:16:40 0 0 1 2022/4/25 13:16:41 0 1 0 2022/4/25 13:16:42 0 1 0 2022/4/25 13:16:43 0 1 0 2022/4/25 13:16:44 1 1 0 2022/4/25 13:16:45 1 0 1 2022/4/25 13:16:46 1 0 1 ・ ・ ・ データの中身を確認 (データの分布、統計情報、欠損値) これまで紹介した一般的な異常検知手法は 使えなそう... 0 1 時刻
IoTデータの異常検知の事例(デジタルデータ) 15 時刻 センサー1 センサー2 センサー3 2022/4/25 13:16:18 0 1
0 2022/4/25 13:16:19 1 1 0 2022/4/25 13:16:20 1 0 1 2022/4/25 13:16:21 1 0 1 2022/4/25 13:16:22 1 0 1 2022/4/25 13:16:23 0 0 1 2022/4/25 13:16:24 0 1 0 2022/4/25 13:16:26 0 1 0 2022/4/25 13:16:27 0 1 0 2022/4/25 13:16:28 1 1 0 2022/4/25 13:16:29 1 0 1 2022/4/25 13:16:30 1 0 1 2022/4/25 13:16:31 1 0 1 2022/4/25 13:16:32 0 0 1 2022/4/25 13:16:33 0 1 0 2022/4/25 13:16:34 0 1 1 2022/4/25 13:16:35 0 1 1 2022/4/25 13:16:36 1 1 0 2022/4/25 13:16:37 1 0 1 2022/4/25 13:16:38 1 0 1 2022/4/25 13:16:39 1 0 1 2022/4/25 13:16:40 0 0 1 2022/4/25 13:16:41 0 1 0 2022/4/25 13:16:42 0 1 0 2022/4/25 13:16:43 0 1 0 2022/4/25 13:16:44 1 1 0 2022/4/25 13:16:45 1 0 1 2022/4/25 13:16:46 1 0 1 4秒ON 設計書や仕様書 STEP1:データの観察と理解、知見の収集 ・そもそものデータの意味を確認 「1」:センサーがONしている状態 「0」:センサーがOFFしている状態 4秒OFF 4秒ON 4秒OFF 4秒ON 4秒OFF ・いつものふるまいを確認 「通常の状態」:「4秒ONしたら4秒OFFする」 ・特異な状態の知見を確認 「特異な状態」 : 「調子が悪くなると 緑と赤の光り方がいつもと違う気がする」 設計書や仕様書 設計書や仕様書 現物を知る人の知見 レーザー 発振部 センサー =記録される データ 製品:無 レーザー光がセンサに入り「1」が記録 レーザー 発振部 センサー =記録される データ ベルト コンベア ベルト コンベア 緑のランプ 点灯 赤のランプ 点灯 異常検知の進め方 現場・現物のイメージ 製品:有 レーザー光がセンサに入らず「0」が記録
IoTデータの異常検知の事例(デジタルデータ) 16 4秒ON 4秒OFF 4秒ON 1秒OFF 2秒ON 1秒OFF 特異なデータ STEP2:データの詳細確認
異常検知の進め方 ・可視化(グラフ化)しての確認が有効
IoTデータの異常検知の事例(デジタルデータ) 17 異常検知の進め方 STEP3:特徴量の設計 検知時間を算出し、 連続検知が終了した レコードのみを抽出 検知時間の算出式例 F3 =
IF(B2=B3,F2+1,1) ※縦方向のデータ処理 Modelerでは@関数を多用 特徴量の例.センサーが連続してON or OFFしている時間 4秒間ON 4秒間OFF 4秒間OFF 4秒間ON 4秒間ON 4秒間OFF 特徴量 4秒間ON 4秒間OFF 4秒間ON 1秒間OFF 2秒間ON 1秒間OFF 4秒間ON 4秒間OFF ・データ処理の例(構造化処理) 計測したデータ
18 特徴量化により一般的な異常検知手法が使用可 ⇒多くの場合、単純な閾値検知を採用 時刻 センサー3特徴量 2022/4/25 13:00:05 4 2022/4/25 13:00:09
4 2022/4/25 13:00:13 4 2022/4/25 13:00:17 4 2022/4/25 13:00:21 4 2022/4/25 13:00:25 4 2022/4/25 13:00:29 4 2022/4/25 13:00:33 4 2022/4/25 13:00:37 4 2022/4/25 13:00:41 4 2022/4/25 13:00:45 4 2022/4/25 13:00:49 4 2022/4/25 13:00:53 4 2022/4/25 13:00:57 4 2022/4/25 13:16:19 4 2022/4/25 13:16:23 4 2022/4/25 13:16:28 4 2022/4/25 13:16:32 4 2022/4/25 13:16:33 1 2022/4/25 13:16:35 2 2022/4/25 13:16:36 1 2022/4/25 13:16:40 4 ・ ・ ・ STEP4:特徴量の計算と異常検知システムの設計 特異なデータ IoTデータの異常検知の事例(デジタルデータ) ~ ~ ~ ~ 247 2 1 特異なデータ レーザー 発振部 センサー =記録される データ ベルト コンベア 特異なデータと現物異常の関係 センサーのデジタルデータの 特異データ検知であるが ①レーザー発振部の異常 ②センサーの異常 ③ベルトコンベアの異常 ④製品の寸法異常 ⑤製品製造部の異常 等の現物異常の可能性 現物の知識が必要不可欠 異常検知の進め方 センサー3 特徴量 特徴量.センサーが連続してON or OFFしている時間
一般的な異常検知とIoTデータの異常検知の違い 19 ・一般的な異常検知 (一方向) ID 数学 英語 国語 1001 60
72 55 1002 69 89 70 1003 72 62 67 1004 40 57 92 1005 100 100 100 行方向 ID 数学 英語 国語 1004 40 57 92 1003 72 62 67 1001 60 72 55 1005 100 100 100 1002 69 89 70 「行方向の情報(数学,英語,国語)」から、 特異レコード を抽出する データ順序には意味が無い = 分析結果はデータ の順序によらない ・IoTデータの異常検知(多方向) 「行方向の情報(センサ-1,センサ-2)」+「列方向等のデータ順序」から 特異レコード を抽出する 時刻 センサー1 センサー2 04/27 13:38:00 0 20.0℃ 04/27 13:38:01 0 20.2℃ 04/27 13:38:02 1 20.1℃ 04/27 13:38:03 1 20.0℃ 04/27 13:38:04 0 19.9℃ 行方向 列 方 向 データ 順序変更 時刻 センサー1 センサー2 04/27 13:38:01 0 20.2℃ 04/27 13:38:03 1 20.0℃ 04/27 13:38:02 1 20.1℃ 04/27 13:38:00 0 20.0℃ 04/27 13:38:04 0 19.9℃ 異なる異常検知 結果となる ・具体的なIoTデータの異常検知の手法 ②列方向のデータ の並び順を含めてデータ 全体をモデル化する = 時系列モデル等 ①列方向のデータ の並び順を特徴量化により吸収し、「一般的な異常検知」と同じ土俵にして、各手法を適用する ③列方向のデータ の並び順を考慮しなくて良いIoTデータ の場合は、「一般的な異常検知」手法を適用する 様々な異常検知手法が提案されている 特異データは順序が変わっても同じ データ 順序変更 特徴量化 時刻 特徴量A 特徴量B 04/27 13:38:01 0 12 04/27 13:38:10 2 14 04/27 13:38:20 4 10 特徴量化により データ順序に意味が無くなる 本講演での紹介手法 データ の意味が変わる
20 IoTデータ自体の特殊性(扱い辛さ) IoTデータの分析で苦労している点 ✓ 大規模データ ✓ 横持のデータが多い 時刻 第1工場 _Aライン
_温度1 第1工場 _Aライン _温度2 第1工場 _Bライン _温度1 第1工場 _Bライン _温度2 第2工場 _Aライン _温度1 第2工場 _Aライン _温度2 2022/05/09 10:30:00 20.1 20.2 20.4 20.1 19.9 20.3 2022/05/09 10:30:01 20.3 20.3 20.1 20.0 20.0 20.4 2022/05/09 10:30:02 20.1 20.0 20.0 19.9 20.1 20.1 • 分析ツールを活用する為に、縦持への変換が必要 • 横持のデータ構造では、BIツールによる可視化も不便 (表計算ソフトによる可視化の方が便利) • 生データの観察には横持のデータが有効 ✓ 分析事例や公開データセットが極めて少ない
21 IoTデータの異常検知を成功させるために ✓ 現場の知見とデータ分析を組合わせる ⇒現場を知る技術者が分析者となる道が有用 ✓ 問題設定の重要性 ⇒意味のある異常検知を実現しなければならない ✓ 最終運用を早期にイメージしておく
⇒大量データを毎日処理する必要がある
22 「実践! 異常検知と故障予測」のご紹介 ・目次 第1章 異常を検知する 1-1 異常検知の目的と手法 1-1-1 時系列データに対する異常検知とは
1-1-2 異常検知の目的 1-1-3 異常検知の手法 1-1-4 特徴量を活用した異常検知 1-1-5 異常検知の業務適用における注意事項 時系列データの 異常検知の概要を 体系化して紹介 ✓ 約5年前、「ノートPC+表計算ソフト」で鉄道車両データの分析に挑まなければ、 ならなかった自分に向けて、知っとくと有用な基本的知識を整理して記載 ✓ 数式は使わず、各名著への橋渡しを意識し、「異常検知」のカタログ的に 内容を記述。SPSS Modelerの特性を最大限活用し、短時間で触って理解 可能とする為に、Modelerの操作ポイントを記述し、データやストリームは ダウンロード可能 ✓ 第1章の異常検知を担当
23 「実践! 異常検知と故障予測」のご紹介 第1章 異常を検知する 1-2 異常検知の進め方 1-2-1 時系列ノードを活用した異常検知 1-2-2
TCMノードを活用した異常検知 1-2-3 機械学習を活用した異常検知 1-2-4 特徴量を活用した異常検知 1-3 実務で使える異常検知 1-3-1 データの理解と問題設定 1-3-2 データの準備 1-3-3 データの前処理 1-3-4 データの加工 1-3-5 繰り返し処理 1つの工場をイメージして デジタルとアナログのデータを 組合わせ、実践的に特徴量を 活用した異常検知手法を 一気通貫的に解説 使用している模擬データやストリームは出版社のホームページからダウンロード可能 具体的なModelerの ノードを用いた 検知手法を解説
24 まとめ ✓ 一般的な異常検知とIoTデータの異常検知の違いを それぞれの異常検知手法の比較によりご説明 ✓ 現場を知る技術者が「データ分析をツール」として 活用して、仮説と検証のサイクルを高速にまわす 仕組みがIoTデータの異常検知を成功させる近道 ✓
第3弾の書籍を期待