WebConf 2026 Multi-Aspect Mining and Anomaly Detection for Heterogeneous Tensor Streams

Multi-Aspect Mining and Anomaly Detection for Heterogeneous Tensor Streams 垣尾
颯志†,‡ 松原靖⼦† 藤原廉†,‡ 櫻井保志† 1 © 2026 Sakurai & Matsubara Lab. @ The University of Osaka † ⼤阪⼤学産業科学研究所 ‡ ⼤阪⼤学⼤学院情報科学研究科

⽬次 I. 研究背景 II. 提案⼿法 I. アイディア II. モデル III.
アルゴリズム III. 実験 IV. まとめ © 2026 Sakurai & Matsubara Lab. @ The University of Osaka 2

研究背景︓異種混合テンソルストリーム pタイムスタンプと離散属性, 連続属性から構成される 3 © 2026 Sakurai & Matsubara Lab.
@ The University of Osaka タイムスタンプ送信元 IPアドレス送信先 IPアドレスプロトコルバイト長フロー時間 (sec) 2025-07-01-21:01:01 145.23.56.12 145.23.56.12 TCP 4324 342 2025-07-01-21:01:02 141.24.56.15 145.23.56.12 UDP 2243 3.43 2025-07-01-21:01:02 145.23.56.12 145.23.53. TCP 532 10.2 2025-07-01-21:01:03 145.23.12.12 124.23.56.17 UDP 552 6.43 2025-07-01-21:01:03 145.43.56.12 45.23.56.12 ICMP 13 0.4 離散属性 (𝑀! = 3) 連続属性 (𝑀" = 2) ! ! ! 例：サイバーセキュリティ

研究背景︓異種混合テンソルストリームユーザーレビュー離散属性︓ 作品名ジャ連続属性︓ 値段 © 2026 Sakurai
& Matsubara Lab. @ Osaka U 4 サイバーセキュリティ離散属性︓ IPアドレスポート番号プロトコル etc... 連続属性︓ フロー間隔データのバイト⻑ etc... サイバー攻撃を検知したい隠れたトレンドを知りたい

© 2026 Sakurai & Matsubara Lab. @ The University of
Osaka 5 研究背景︓異種混合テンソルストリーム 😣 異種混合性 😣 タイムスタンプの連続性 😣 高次元 (多属性) 😣 スパース Ø レコード数 << テンソルサイズ 😣 連続属性の分布は未知

p サイバーセキュリティではグループ異常の検知が必要 Ø 例︓DDoS攻撃 • 単体では正常のリクエストを⼤量に送信して異常を引き起こす Ø レコード同⼠の時間的関係の考慮が必要研究背景︓グループ異常
6 © 2026 Sakurai & Matsubara Lab. @ The University of Osaka ⼤量のリクエスト

研究背景︓グループ異常 😣 多くの既存手法は点異常を目的とする Øレコード同⼠の関係を考慮しない 😣 教師なし学習 Ø正解・不正解のフィードバックを得られない 😣 ストリーム処理 Øサイバー攻撃をできるだけ早く検知したい
© 2026 Sakurai & Matsubara Lab. @ The University of Osaka 7

研究背景︓Question Q. 連続属性の分布を制限することなく，異種混合テンソルストリームを解釈可能な形に要約し，⾼速かつ正確にグループ異常を検知できる︖ A. アルゴリズム HeteroComp を提案 Ø
Effective︓解釈可能かつ有⽤な特徴を抽出 Ø Accurate︓正確なグループ異常検知 Ø Scalable︓ストリームに耐えうる計算時間 © 2026 Sakurai & Matsubara Lab. @ The University of Osaka 8

⼀つ前のテンソル © 2026 Sakurai & Matsubara Lab. @ The University
of Osaka 9 問題定義 Given︓ 𝑀! + 𝑀" + 1 属性の異種混合テンソルストリーム – 𝑀! 個の離散属性 + 𝑀" 個の連続属性 + タイムスタンプ – 𝑇# 個のタイムスタンプごとに分解していく f 離散1 連続1 カテゴリ4 2.78 カテゴリ2 0.53 カテゴリ1 2.6 カテゴリ2 1.2 カテゴリ1 2.3 離散1 連続1 カテゴリ6 3.3 カテゴリ3 1.34 カテゴリ3 1.67 カテゴリ3 1.41 カテゴリ3 1.45 カテゴリ3 1.44 カテゴリ3 1.43 離散1 連続1 カテゴリ1 2.8 カテゴリ3 1.4 カテゴリ3 1.52 カテゴリ3 1.3 離散1 連続1 カテゴリ1 0.8 (𝑀! = 1, 𝑀" = 1 の場合) 時間現在のテンソル

⼀つ前のテンソル © 2026 Sakurai & Matsubara Lab. @ The University
of Osaka 10 問題定義 Given︓ 𝑀! + 𝑀" + 1 属性の異種混合テンソルストリーム – 𝑀! 個の離散属性 + 𝑀" 個の連続属性 + タイムスタンプ – 𝑇# 個のタイムスタンプごとに分解していく f 離散1 連続1 カテゴリ4 2.78 カテゴリ2 0.53 カテゴリ1 2.6 カテゴリ2 1.2 カテゴリ1 2.3 離散1 連続1 カテゴリ6 3.3 カテゴリ3 1.34 カテゴリ3 1.67 カテゴリ3 1.41 カテゴリ3 1.45 カテゴリ3 1.44 カテゴリ3 1.43 離散1 連続1 カテゴリ1 2.8 カテゴリ3 1.4 カテゴリ3 1.52 カテゴリ3 1.3 離散1 連続1 カテゴリ1 0.8 (𝑀! = 1, 𝑀" = 1 の場合) 時間現在のテンソル Goal︓ 解釈可能な形式に要約グループ異常の検知

アイディア p連続属性の分布は未知 pタイムスタンプの連続性のモデリングが必要 © 2026 Sakurai & Matsubara Lab. @
The University of Osaka 12 ガウス過程で表現！

アイディア︓ガウス過程 p ランダムな関数を⽣成する確率過程 Ø 関数の確率分布 Ø 連続時間をモデリング可能 © 2026 Sakurai
& Matsubara Lab. @ The University of Osaka 13

アイディア︓対数ガウス過程(LGP)分布 p ノンパラメトリックにデータに合わせた分布を作る © 2026 Sakurai & Matsubara Lab. @
The University of Osaka 14

モデル: 仮定 p 主要なK個の潜在グループ (コンポーネント) が存在 p コンポーネントの割合は時間変化する Ø 各コンポーネントの影響⼒を潜在ダイナミクスで表現
© 2026 Sakurai & Matsubara Lab. @ The University of Osaka 16 コンポーネント1 コンポーネント2 コンポーネントK ・・・

Osaka 17 モデルコンポーネント 1 潜在ダイナミクス離散属性コンポーネント影響力の時間変化 𝐵! ∼ 𝐺𝑃(0, 𝑘") 𝐴! #! ∈ ℝ$"! 多項分布 Mult (𝐴! (#!)) 連続属性 LGP分布𝑃!"# 𝑥|𝐶$ (&!)

モデル︓⽣成過程 © 2026 Sakurai & Matsubara Lab. @ The University
of Osaka 18 前のテンソルでの事後パラメータを事前パラメータとして使うことで時間依存性を導入

of Osaka 19 (1) レコードごとにコンポーネントをサンプル (2) コンポーネントに従って観測値を生成 (2) (1) (2)

of Osaka 20 pMulti-aspect：任意の個数の属性を扱える pNon-parametric：連続属性を統一的に扱える pOnline：ストリーム全体を保持せずに時間的依存性を扱える

Osaka 22 アルゴリズム HeteroCompは (1) 推論 (2) グループ異常検知を⾏う入力：現在のテンソル

(1) 推論︓具体的な流れ 1. 崩壊ギブスサンプリング︓収束するまで以下を繰り返す． Ø レコードごとにコンポーネントのサンプル Ø 潜在ダイナミクス B の推定
2. 離散属性𝚨の事後分布推定 3. 連続属性𝑪の事後分布推定 © 2026 Sakurai & Matsubara Lab. @ The University of Osaka 23

p コンポーネントkに割り当てられる確率 © 2026 Sakurai & Matsubara Lab. @ The
University of Osaka 24 (1) 推論︓コンポーネントのサンプル離散属性連続属性潜在ダイナミクス

😣 softmaxは共役な事後分布を持たない Øギブスサンプリングできない © 2026 Sakurai & Matsubara Lab. @
The University of Osaka 25 (1) 推論︓Bの推定 PolyaGamma分布を使って共役にする Details in paper

Osaka 26 (1) 推論︓Bの推定事後分布事前分布十分統計量解析的に計算可能☺ Details in paper

得られたに対してガウス過程回帰をする © 2026 Sakurai & Matsubara Lab. @ The
University of Osaka 27 (1) 推論︓Bの推定線形時不変な確率微分方程式(LTI-SDE) に近似 😣ガウス過程の計算量は 𝒪(𝑇# $)

p前向き︓カルマンフィルタ © 2026 Sakurai & Matsubara Lab. @ The University
of Osaka 28 (1) 推論︓Bの推定

p後ろ向き︓ Rauch-Tung-Striebel (RTS) Smoother © 2026 Sakurai & Matsubara Lab.
@ The University of Osaka 33 (1) 推論︓Bの推定

Osaka 34 (1) 推論︓Bの推定 p後ろ向き︓ Rauch-Tung-Striebel (RTS) Smoother

p後ろ向き︓ Rauch-Tung-Striebel (RTS) Smoother © 2026 Sakurai & Matsubara Lab.
@ The University of Osaka 38 (1) 推論︓Bの推定 ☺多くのカーネルが等価or近似的に表現可能 ☺高速な推論が可能 Ø 時間計算量：𝒪 𝑇! Ø メモリ計算量：𝒪 𝑇! Details in paper

pディレクレ分布とカテゴリカル分布は共役． Ø解析的に求まる． © 2026 Sakurai & Matsubara Lab. @ The
University of Osaka 39 (1) 推論︓Aの推定コンポーネントkに属するレコード数 𝑚! 番⽬の離散属性がuであるコンポーネント𝑘のレコード数

p計算の効率化のため，グリッド化して近似 © 2026 Sakurai & Matsubara Lab. @ The University
of Osaka 40 (1) 推論︓Cの推定グリッドgに⼊る確率グリッドの幅代表点の予測値 𝐺## 個のグリッドに分割

MAP推定︓ ØL-BFGS法を使い，対数尤度を最⼤化するCを求める． © 2026 Sakurai & Matsubara Lab. @ The
University of Osaka 41 (1) 推論︓Cの推定事前分布尤度 Details in paper

(2) グループ異常検知 p 急激なコンポーネント数の上昇を異常とする Ø適合度検定によって異常かどうかの判定を⾏う • 帰無仮説︓コンポーネントの出現頻度は⼀定 • 対⽴仮説︓少なくとも1つのコンポーネントの頻度に有意差 ©
2026 Sakurai & Matsubara Lab. @ The University of Osaka 42 1 2 3 期待値 1 2 3 実際のコンポーネント数カイ二乗適合度検定カウントの急上昇グループ異常 =

実験 Q1. 有効性実データに対して有⽤な特徴を抽出できているか Q2. 正確性既存⼿法に⽐べ正確に異常を検知できているか Q3. 時間計算量ストリーム処理に実⽤的な時間計算量か
© 2026 Sakurai & Matsubara Lab. @ The University of Osaka 44

実験設定 p データセット 1. CIʼ17 2. CCIʼ18 3. Edge-IIoT 4.
DDoS2019 5. CUPID 6. Amazon Movie&TV © 2026 Sakurai & Matsubara Lab. @ The University of Osaka 45 p 9つの⽐較⼿法 – OneClassSVM @NIPS1999 – iForestASD @IFAC2013 – RRCF @ICMl2016 – ARCUS @KDD2022 – MStream @WebConf2021 – MemStream @WebConf2022 – AnoGraph @KDD2023 – CubeScope @WebConf2023 – CyberCScope @WebConf2024

p Amazon Movie&TV データセット © 2026 Sakurai & Matsubara Lab.
@ The University of Osaka 46 Q1. 有効性︓ユーザーレビュー COVID-19 Outbreak & Trolls World Tour Wild Mountain Thyme Endless Corridor Time (month) (a-iv) Component Western Probability Long tail Price Title (a-i) Component Adventure Probability (b) Latent dynamics of components (a-i) (a-ii) Title Price Title Price (a-iii) Component SF/ Comedy Probability Price Title (a-ii) Component Kids Probability

Osaka 47 Q1. 有効性︓サイバーセキュリティ DDoS HTTP DDoS TCP XSS SQL Injection Scanner Port Scanning Fingerprinting DDoS ICMP Backdoor (c) Latent dynamics of components (above) and attacked times (below) (a) Word cloud of source port (b) Distribution of TCP segment length Component red Component orange Component blue Long tail Probability Probability Probability Very short Very short p Edge-IIoT データセット

Q1. 有効性︓サイバーセキュリティ © 2026 Sakurai & Matsubara Lab. @ The
University of Osaka 48 0 1 Component weight 13 14 15 16 17 18 19 20 07/05 Attack 13 14 15 16 17 18 19 20 07/06 13 14 15 16 17 18 19 20 07/07 DoS Infiltration Port Scan DDoS Component pink Component blue Component red (d) Latent dynamics of components (above) and attacked times (below) (b) Distribution of total length of backward packets (a)Word cloud of destination IP address (c) Distribution of forward header length Long tail Long tail Very short DoS victim Infiltration victim DDoS victim Very short Very short Probability Probability Probability Probability Probability Probability Short p CI’17 データセット

p DDoS2019 データセット © 2026 Sakurai & Matsubara Lab. @
The University of Osaka 49 Q1. 有効性︓サイバーセキュリティ NetBIOS LDAP UDP MSSQL DDoS NTP DDoS DNS DDoS LDAP DDoS MSSQL DDoS NetBIOS DDoS SNMP DDoS SSDP DDoS UDP SYN TFTP

Q1. 有効性︓サイバーセキュリティ p CCI’18 データセット © 2026 Sakurai & Matsubara
Lab. @ The University of Osaka 50 DoS Golden Eye DDoS-HOIC DoS Hulk DDoS LOIC-UDP

p評価指標︓ROC-AUC (⾼いほど良) Ø太字が最も精度が⾼く，下線が⼆番⽬に精度が良い © 2026 Sakurai & Matsubara Lab. @
The University of Osaka 51 Q2. 正確性︓サイバー攻撃検知精度 datasets #1 CI’17 #2 CCI’18 #3 Edge-IIoT #4 DDos2019 #5 CUPID Average OneClassSVM 0.587 0.594 0.662 0.900 0.467 0.642 iForestASD 0.844 ± 0.001 0.781 ± 0.001 0.700 ± 0.009 0.881 ± 0.001 0.957 ± 0.004 0.833 RRCF 0.877 ± 0.002 0.763 ± 0.009 0.927 ± 0.002 0.896 ± 0.002 0.974 ± 0.004 0.888 ARCUS 0.500 ± 0.002 0.503 ± 0.004 0.501 ± 0.001 0.500 ± 0.002 0.497 ± 0.008 0.500 MStream 0.905 ± 0.000 0.779 ± 0.000 0.928 ± 0.000 0.899 ± 0.000 0.991 ± 0.000 0.900 MemStream 0.893 ± 0.000 0.781 ± 0.000 0.935 ± 0.000 0.950 ± 0.002 0.977 ± 0.000 0.907 AnoGraph 0.921 ± 0.000 0.776 ± 0.001 0.928 ± 0.000 0.974 ± 0.000 0.994 ± 0.000 0.915 CubeScope 0.921 ± 0.001 0.490 ± 0.002 0.294 ± 0.004 0.684 ± 0.013 0.986 ± 0.000 0.675 CyberCScope 0.625 ± 0.037 0.659 ± 0.090 0.771 ± 0.054 0.502 ± 0.176 0.940 ± 0.034 0.699 HeteroComp 0.990 ± 0.006 0.788 ± 0.005 0.935 ± 0.003 0.963 ± 0.003 0.999 ± 0.000 0.935 全データセットの平均

Osaka 52 Q2. 正確性︓サイバー攻撃検知精度 datasets #1 CI’17 #2 CCI’18 #3 Edge-IIoT #4 DDos2019 #5 CUPID Average OneClassSVM 0.082 0.146 0.601 0.913 0.016 0.352 iForestASD 0.540 ± 0.003 0.428 ± 0.005 0.680 ± 0.008 0.912 ± 0.001 0.608 ± 0.003 0.634 RRCF 0.679 ± 0.004 0.337 ± 0.010 0.919 ± 0.003 0.922 ± 0.001 0.705 ± 0.013 0.712 ARCUS 0.028 ± 0.002 0.153 ± 0.010 0.586 ± 0.178 0.280 ± 0.014 0.013 ± 0.000 0.212 MStream 0.736 ± 0.000 0.363 ± 0.000 0.927 ± 0.000 0.925 ± 0.000 0.734 ± 0.000 0.737 MemStream 0.713 ± 0.000 0.366 ± 0.000 0.935 ± 0.000 0.956 ± 0.001 0.678 ± 0.000 0.730 AnoGraph 0.741 ± 0.000 0.419 ± 0.005 0.920 ± 0.000 0.970 ± 0.000 0.814 ± 0.001 0.773 CubeScope 0.545 ± 0.003 0.123 ± 0.001 0.421 ± 0.004 0.715 ± 0.010 0.872 ± 0.004 0.535 CyberCScope 0.302 ± 0.096 0.202 ± 0.047 0.633 ± 0.056 0.574 ± 0.127 0.785 ± 0.116 0.499 HeteroComp 0.931 ± 0.037 0.644 ± 0.008 0.931 ± 0.003 0.970 ± 0.002 0.959 ± 0.001 0.887 p評価指標︓PR-AUC (⾼いほど良) Ø太字が最も精度が⾼く，下線が⼆番⽬に精度が良い全データセットの平均

まとめ pHeteroComp は以下の優れた特性を全て満たす． Ø Effective 異種混合イベントテンソルストリームから有⽤な特徴を抽出可能 Ø Accurate 正確にグループ異常検知が可能 Ø
Scalable データストリームに対して実⽤的な時間計算量 © 2026 Sakurai & Matsubara Lab. @ The University of Osaka 55 ソースコード論文

WebConf 2026 Multi-Aspect Mining and Anomaly D...

WebConf 2026 Multi-Aspect Mining and Anomaly Detection for Heterogeneous Tensor Streams

More Decks by 垣尾 颯志

Other Decks in Research

Featured

Transcript

More Decks by 垣尾颯志