Causal and Interpretable Rules for Time Series Analysis

KDD 2021 論文読み会 Causal and Interpretable Rules for Time Series
Analysis 2021年10月7日株式会社リクルートデータ推進室木村隆介

(C) Recruit Technologies Co.,Ltd. All rights reserved. 2 ⾃⼰紹介⽊村
隆介学歴早稲⽥⼤学応⽤物理学科 MSc. Bioinformatics, University of Edinburgh 職歴⽇⽴製作所横浜研究所 (2011 – 2016) リクルート (2017 – 現在) 情報処理学会 PBD運営委員 (2020 – 現在) 神奈川⼤学外部講師 (2020 – 現在) 休⽇ジムでトレーニングしながら本・論⽂を読む⾃転⾞でうまい飯屋を巡る酒飲みながらNetflix ↑翻訳中

(C) Recruit Technologies Co.,Ltd. All rights reserved. 3 はじめに Q1.
この論⽂は何︖ A1. 時系列データからAが起きたらBが起きるといった因果ルールを抽出する予測論⽂だよ。 Q2. なんでこの論⽂を選んだの︖ A2. ビジネスサイドに予測モデルを説明する時間を節約できて早く帰ってビール飲めそうだと思ったからだよ。 Q3. この論⽂読んで実際の業務で使えそう︖ A3. 使えそうだよ。例えばSaaSだと解約の因果ルールがわかると現場の⼈たちが⾃分たちで打ち⼿が導き出せそうだよ。 Q4. しっくり来なかった点は︖ A4. 因果ルールとは・・・って感じだけど、これでいい結果出たら早く帰ってビール飲めそうだからいい感じだよ。 Q5. 他に⾔っとくことある︖ A5. ⽊村が論⽂の理解を深めるために論⽂とは関係ない⽂献も引⽤したりしているよ。間違いあったらごめんなさい︕ Q6. 今⽇の発表の流れってどんな感じ︖ A6. 論⽂の章に沿って進めるよ。時間的に厳しいところは⾶ばすよ。

(C) Recruit Technologies Co.,Ltd. All rights reserved. 4 Introduction ストレージの低価格化とセンサ機器の発達によって
産業界の多様なデータを⼤量取得できるようになってきたストレージ単価の推移 (総務省⽩書) センサ技術の発展に関する記事 (電⼦情報通信学会誌 Vol.100 No.9 pp.913-918 2017年9⽉) ストレージ単価は30年でざっくり10万分の１︕ 新物質/新現象が発⾒後すぐセンサ化される︕

(C) Recruit Technologies Co.,Ltd. All rights reserved. 5 Introduction 多様なデータの⼤量取得に加え、機械学習の開発環境の充実化により
経済的や環境的な損失に繋がるトラブルや故障の予測が広まってきた Google Colaboratory Amazon Medium article for GCP エレベータの故障発電設備の故障⾶⾏機の故障

(C) Recruit Technologies Co.,Ltd. All rights reserved. 6 Introduction 本研究では⽯油精製⼯場の蒸留装置で発⽣する
フラッジングと呼ばれるトラブルの予測を研究対象とする https://www.idemitsu.com/jp/business/factory/profile/f_process.html フラッジングとは︖ ⽯油を蒸留する際に、蒸留したガスが溢れて蒸留した液体の流れを遮ってしまうこと。フラッジングの発⽣は蒸留装置の圧⼒上昇と⽣産量の低下で検知する。フラッジングが発⽣すると蒸留装置の内部環境を安定させて⽣産量を元に戻すのに⻑い時間蒸留装置を⽌める必要がある。気体の蒸留装置ではフラッジングは頻繁に発⽣し復旧に2-3時間かかる。 ※この特許も参考にしました

(C) Recruit Technologies Co.,Ltd. All rights reserved. 7 Introduction ⼀般的な機械学習モデルを⽤いたフラッジング予測では
現場への適⽤は⾒送られていた⾒送られるケース意思決定による影響が⼤きいケースが多い⾒送られる要因⼈命に関わる意思決定影響する⾦額が⼤きい意思決定予測精度に加えモデルがブラックボックスであることに起因する要因が多い意思決定の根拠を⽀持する時系列データの因果関係を専⾨家が検証出来ない意思決定の根拠が不明なため具体的な打ち⼿に繋がらない

(C) Recruit Technologies Co.,Ltd. All rights reserved. 8 Introduction 適⽤が⾒送られる要因を解消してあげる必要がある︕
⾒送られる要因（再掲）予測精度に加えモデルがブラックボックスであることに起因する要因が多い意思決定の根拠を⽀持する時系列データの因果関係を専⾨家が検証出来ない意思決定の根拠が不明なため具体的な打ち⼿に繋がらない要因の解消に向けた⽅針時系列データの因果関係を現場の⼈たちが解釈可能な形で提⽰すればOK! 温度差と圧⼒が急上昇しているからイベントが起こるよ︕(※1) 温度差と圧⼒が急上昇ならばあの打ち⼿を打つべきだな︕ (※1) ⽊村がメーカーで働いてた頃の肌感でも現のエンジニアはこれくらいの情報量でも打ち⼿を導き出せる⼈がいる

(C) Recruit Technologies Co.,Ltd. All rights reserved. 9 Introduction 時系列データの因果関係を現場の⼈たちが
解釈可能な形で提⽰するにはどうしたら良いか︖ 突発的なトラブルの要因を分析するための⼿法であるCase-crossover designと解釈性の⾼い予測を実現するRule-based Algorithmを組み合わせる︕

(C) Recruit Technologies Co.,Ltd. All rights reserved. 10 Case-crossover design
疫学領域では疾患の要因特定のために Case-control designという⼿法が⽤いられる患者群対照群疾患を持つCase群（患者群）と⽐較対象のControl群（対照群）に分けて疾患の要因特定を試みる変形性膝関節症では両群で性別と年齢を揃えて交絡バイアスを除去して転倒歴や歩⾏速度を⽐較する

⾃動⾞事故の要因分析のように交絡バイアスを除去できない状況ではCase-control designは使えない Case群 Control群運転中の携帯電話での通話が要因と思っても個⼈の性格といった交絡バイアスを除去できない︕ 慎重じゃ無い性格の⼈たちかも︖ 慎重な性格の⼈たちかも︖

⾃動⾞事故の要因分析では交絡バイアスを除去するためにCase-crossover designが⽤いられる Case Control 事故が起きた時をCase群、事故が起きない平常運転時をControl群とすれば個⼈の性格といった交絡バイアスを除去できる︕ 同じ⼈︕ （同じ性格の⼈︕）

(C) Recruit Technologies Co.,Ltd. All rights reserved. 13 Rule-based Algorithm
Association Rule Miningはスーパーマーケットでの消費者の購買ルールを抽出するために開発されたスーパーのPOSデータから頻出する購買ルールを抽出するカニとホタテを買うならばビールも買う︕

(C) Recruit Technologies Co.,Ltd. All rights reserved. 14 Rule-based Algorithm
Association Rule Miningで抽出したルールの指標カニとホタテを買うならばビールも買う︕ # 指標名意味 1 ⽀持度全レシートのうちこのルールが出現する割合。 2 確信度カニとホタテを買った⼈のうちビールを買った⼈の割合。 3 リフト値カニとホタテを買った⼈とビールを買った⼈が独⽴と仮定した時よりどれくらいこのルールが多いのかの割合。代表的な指標3つはこんな感じ

(C) Recruit Technologies Co.,Ltd. All rights reserved. 15 Methodology Case-crossover
designとApriori Algorithm(※1)を組み合わせたCase-crossover APriori (CAP) を提案 ※1 Association Rule Miningでルール抽出によく⽤いられるアルゴリズム

(C) Recruit Technologies Co.,Ltd. All rights reserved. 16 Methodology 研究対象のデータはこんな感じ
横軸は時刻、縦軸はセンサデータの値を表しているセンサデータの値は4ヶ⽉間1分おきに取得している取り付けたセンサの数は約800個圧⼒、温度、流量、バルブ開閉化学物質の濃度などを取得フラッジング

(C) Recruit Technologies Co.,Ltd. All rights reserved. 17 Methodology 時系列データをCase-crossover
designでControlとCaseに分割する分割するためのパラメータは専⾨家との議論で決定した Control Y=0 Case Y=1 各データを独⽴として扱うために 20時間(1200分)以上の間隔を空けた Controlとして扱う正常な期間をフラッジングの10時間(600分)前以上とした

(C) Recruit Technologies Co.,Ltd. All rights reserved. 18 Methodology ここから⼆値分類できるようなデータセットを作っていく
⽬的変数はCaseとControlでそれぞれY=1,0となる Control Y=0 Case Y=1 Y X1 … Xp 1 x11 … x1p 0 x21 … x2p … … … … 1 x76 1 … x76p 0 x76 1 … x76p 4ヶ⽉間でフラッジングは 38回発⽣したためデータの⾏数は76となる

(C) Recruit Technologies Co.,Ltd. All rights reserved. 19 Methodology Period1
からPeriod2 におけるセンサjの平均値を取得しどれくらい変化(何%変化)したかを算出する Y X1 … Xp 1 x11 … x1p 0 x21 … x2p … … … … 1 x76 1 … x76p 0 x76 1 … x76p

(C) Recruit Technologies Co.,Ltd. All rights reserved. 20 Methodology One-hot
encodingで[0,1]の連続値をカテゴリカル変数に変換し Apriori Algorithmに適⽤可能な形にする Y X1 … Xp 1 x11 … x1p 0 x21 … x2p … … … … 1 x76 1 … x76p 0 x76 1 … x76p

(C) Recruit Technologies Co.,Ltd. All rights reserved. 21 Methodology Table
2のデータに対してmlxtendのaccosiation_rules を適⽤しフラッジングの因果ルールを抽出する︕ http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/association_rules/ 公式ドキュメントより

(C) Recruit Technologies Co.,Ltd. All rights reserved. 22 Interpretable Rules
found by CAP 今回抽出したルールは以下の通り X(1)は従来物理モデルでフラッジングを予測する時に使われている変数 X(2)は循環する流量を表す変数で、専⾨家がフラッジングの発⽣を説明する時によく使われる

(C) Recruit Technologies Co.,Ltd. All rights reserved. 23 Predictive Algorithm
Case-crossover APriori Predictive 1 (CAPP1) Event=TrueとなるルールをConfidence(確信度)とLift(リフト値)でをソートし上から10個のルールのうち⼀つでも当てはまったらフラッジングが発⽣すると予測する

Case-crossover APriori Predictive 2 (CAPP2) CAPP1と異なり Event=True となるルールだけでなく Event=False となるルールも抽出する

Case-crossover APriori Predictive 2 (CAPP2) Support(⽀持度)が0.01以上、Confidence(確信度)が0.5以上となるEvent=Trueルール、 Event=Falseルールを対象にConfidenceの⾼い順に上からルールを100個選ぶ Event=Trueルールに⼀つでも当てはまる、かつ、Event=Falseルールに⼀つも当てはまらないならばフラッジングが発⽣すると予測する Event=True ルール Event=False ルール

(C) Recruit Technologies Co.,Ltd. All rights reserved. 26 CAPP1 &
CAPP2 Prediction Results モデルの評価にはLeave-Two-Out Cross Validationを⽤いた Y X1 … Xp 1 x11 … x1p 0 x21 … x2p … … … … 1 x76 1 … x76p 0 x76 1 … x76p … テストデータ訓練データ n=2 n=74 1回のフラッジング(Y=1,0のペア)をテストデータとして抜き出しそれ以外のデータを訓練データとしてルールを学習する

(C) Recruit Technologies Co.,Ltd. All rights reserved. 28 Conclusion and
Future Work ⽯油精製⼯場のセンサデータを⽤いてフラッジングの発⽣を⼈間が解釈可能な因果ルールで予測する⼿法を開発した 1 Case-crossover designとApriori Algorithmを組み合わせた CAP(Case-crossover APriori)を開発した 2 開発⼿法を実データで評価したところ、既存⼿法より⾼精度かつ専⾨家から⾒ても妥当な因果ルールの抽出を実現した 3 今後の課題として、各種パラメータの最適化、抽出した因果ルールを aggregateして予測する⼿法の開発などが考えられる

Appendix

(C) Recruit Technologies Co.,Ltd. All rights reserved. 30 Appendix.1 Abstractを意訳しました
これだけでも持って帰ってもらえると嬉しいです🙇 経済成⻑と共に複雑な産業機械の導⼊が進んでいるが、原因不明の急なトラブルや故障に伴う経済的、環境的な損失が発⽣している。これらの損失の発⽣を防ぐためには、トラブルや故障の原因を特定し、この原因に対して予知保全を実施する必要がある。トラブルや故障の原因特定には、産業機械に各種センサを設置し、センサから取得した時系列データを分析するアプローチを取るのが⼀般的である。本研究では、突発するトラブルや故障の原因を特定して予知保全を実施するには産業機械の保守点検員がデータ分析の結果を解釈可能な必要があることから、疫学の領域で病気の急激な発症を分析する⼿法である case-crossover design と⼈間が解釈可能なルールをデータから抽出する Apriori algorithm を組み合わせた⼿法を開発した。開発⼿法を⾮線形な時系列データである実際の産業機械のデータに対して適⽤した結果、トラブルや故障の原因を特定し、予知保全を実施することが可能となった。

(C) Recruit Technologies Co.,Ltd. All rights reserved. 31 Appendix.2 著者の所属組織①
TotalEnergies TotalEnergiesは1924年に設⽴されたフランスの多国籍⽯油ガス会社です。7つのスーパーメジャー⽯油ガス会社の1つ。TotalEnergiesの事業は、原油および天然ガスの探査および⽣産から、発電、輸送、精製、⽯油製品のマーケティング、国際的な原油および製品の取引といったように⽯油ガスビジネスの全体をカバーしています。また、 TotalEnergiesは化学メーカーの側⾯も持っています。 TotalEnergiesは、パリ⻄部のラデファンス地区に本社を置いています。同社はユーロストックス50株価指数の構成企業です。フォーブスグローバル2000では、世界で29番⽬に⼤きい公開会社としてフォーチュングローバル500では25番⽬に⼤きい会社としてランク付けされています。他の⽯油ガス会社と同様に、TotalEnergiesには、複数の論争を含む、環境的および社会的影響の複雑な歴史があります。CDP Carbon Majors Report 2017によると、同社は世界で炭素排出量を⽣み出している上位100社の1つであり、1998年から2015年までの世界の排出量の0.9％を占めています。

(C) Recruit Technologies Co.,Ltd. All rights reserved. 32 Appendix.3 著者の所属組織②
パリ⼯科⼤学エコール・ポリテクニークエコール・ポリテクニーク（フランス語: École polytechnique、通称X〈イックス〉）または理⼯科学校は、フランス共和国のパリ市近郊パレゾーに位置する公⽴⾼等教育研究機関である。パリサクレー⼤学の理⼯系グランゼコールのひとつである。フランス⾰命時に創設された3校（パリ⾼等師範学校、エコール・ポリテクニーク、国⽴⼯芸院）のうちの⼀校であり、現代フランス社会においてエナ (ENA) と共に絶⼤なる影響⼒を誇る。 4年の課程でIngénieur Polytechnicien の理⼯系学位を付与する。学⽣やディプロム授与者はポリテクニシャン（polytechnicien）と呼ばれる。学⽣の多くは、予備⼤学で2年間の数学と物理を学んだ後、または理学⼠（Bachelor of Science）を取得したのちに、本校を受験することとなる。 1794年のフランス⾰命中に、数学者ラザール・カルノーとガスパール・モンジュによって創設され、1804年にナポレオン・ボナパルトによって軍学校とされる。今⽇ではフランス国防省（2017年6⽉以降は軍事省）の配下にある。2020 年1⽉にフランス政府の重要国家プロジェクト・パリサクレー計画および「未来への投資」プログラム (Investissements d'Avenir) の⼀環として創設されたパリサクレー⼤学の正式機関と認定される。 “ポリテクニック”の語源となった学校であり、世界中にエコール・ポリテクニークをモデルとした学校・⼤学が存在する。理⼯系エリート（テクノクラート）養成の機関であり、同校からは3名のノーベル賞受賞者、1名のフィールズ賞受賞者、3名のフランス⼤統領、複数の企業CEOを輩出している。2015年TimesのTHE世界⼤学ランキングによって、フランス国内において第⼀位と認定された。 ParisTechの設⽴メンバーとしてパリ近郊の各⾼等⼯科系の学校とグループを結んでいる。

(C) Recruit Technologies Co.,Ltd. All rights reserved. 34 Appendix.5 時系列データの因果推定を対象とした関連研究
Pearl Causality based Granger Causality based 1 𝑦 𝑡 = % !"# $ 𝑎!𝑦 𝑡 − 𝑖 + 𝑒% 𝑡 2 𝑦 𝑡 = % !"# $ 𝑎! 𝑦 𝑡 − 𝑖 + % !"# $ 𝑏! 𝑥 𝑡 − 𝑖 + 𝑒% 𝑡 (1)にxの項を加えた(2)が(1)より精度向上した場合 xからyへのグレンジャー因果が存在する深層学習やAttentionを応⽤した関連研究が存在ベイジアンネットワーク(BN)やSEMを対象に変数の時系列の順序に制約を持たせる論⽂では引⽤していないがBNの推定⼿法であるK2アルゴリズムのイメージ xi xj xk > > xk xi xj

(C) Recruit Technologies Co.,Ltd. All rights reserved. 35 Appendix.6 解釈可能性を対象とした関連研究
Local Explanation based Decision Tree based 決定⽊は精度が低い上にモデルの分散が⼤きいランダム森で頻出するパターンを抽出する研究も決定⽊決定森で頻出するパターンを抽出 LoRMIkAと呼ばれるアソシエーションルールを⽤いた局所的な説明⼿法がある

Causal and Interpretable Rules for Time Series ...

Causal and Interpretable Rules for Time Series Analysis

More Decks by Ryusuke Kimura

Other Decks in Technology

Featured

Transcript