Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Поиск аномалий в потоковых данных
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Михаил Васильев
July 22, 2025
Programming
6
0
Share
Поиск аномалий в потоковых данных
Доклад на митапе PythoNN 8 (2025)
Михаил Васильев
July 22, 2025
More Decks by Михаил Васильев
See All by Михаил Васильев
Anomaly Detection with Python
slauton1234
0
50
Классификация новостных текстов с присвоением тегов
slauton1234
0
57
Интеллектуальный помощник оператора службы поддержки
slauton1234
0
48
Other Decks in Programming
See All in Programming
PHPのバージョンアップ時にも役立ったAST(2026年版)
matsuo_atsushi
0
280
今からFlash開発できるわけないじゃん、ムリムリ! (※ムリじゃなかった!?)
arkw
0
180
車輪の再発明をしよう!PHP で実装して学ぶ、Web サーバーの仕組みと HTTP の正体
h1r0
2
480
GoのDB アクセスにおける 「型安全」と「柔軟性」の両立 - Bob という選択肢
tak848
0
300
年間50登壇、単著出版、雑誌寄稿、Podcast出演、YouTube、CM、カンファレンス主催……全部やってみたので面白さ等を比較してみよう / I’ve tried them all, so let’s compare how interesting they are.
nrslib
4
670
ポーリング処理廃止によるイベント駆動アーキテクチャへの移行
seitarof
3
1.3k
Nuxt Server Components
wattanx
0
240
Migration to Signals, Signal Forms, Resource API, and NgRx Signal Store @Angular Days 03/2026 Munich
manfredsteyer
PRO
0
220
Codex CLI でつくる、Issue から merge までの開発フロー
amata1219
0
280
Everything Claude Code OSS詳細 — 5層構造の中身と導入方法
targe
0
160
Rethinking API Platform Filters
vinceamstoutz
0
5.5k
PHP 7.4でもOpenTelemetryゼロコード計装がしたい! / PHPerKaigi 2026
arthur1
1
470
Featured
See All Featured
How to make the Groovebox
asonas
2
2.1k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
Being A Developer After 40
akosma
91
590k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
960
Rails Girls Zürich Keynote
gr2m
96
14k
A Modern Web Designer's Workflow
chriscoyier
698
190k
4 Signs Your Business is Dying
shpigford
187
22k
Un-Boring Meetings
codingconduct
0
250
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
Transcript
Аномалии в потоковых данных алгоритмы под капотом
Обо мне • Старший специалист по машинному обучению • deep
learning engineer • NLP, CV, anomaly detection • Open source contributor • Амбассадор Яндекс Практикума
Аномалии
None
попугаи удавы 3.248357 -2.874754 2.930868 -2.826776 3.323844 -3.340012 3.761515 -2.883873
2.882923 -2.853464 2.882932 -3.357176 3.789606 -2.067113 … …
попугаи удавы 3.248357 -2.874754 2.930868 -2.826776 3.323844 -3.340012 3.761515 -2.883873
2.882923 -2.853464 2.882932 -3.357176 3.789606 -2.067113 … … индекс аномальности -0.119150 -0.131275 -0.108670 -0.065472 -0.128972 -0.120056 -0.012170 …
None
Threshold
None
None
None
None
None
Потоковые данные
pip install pysad from pysad.models import IForestASD model = IForestASD()
for x in streaming_data: anomaly_score = model.fit_score_partial(x)
Ансамбли
Делим
Обучаем
Усредняем
None
None
In [1]: import random In [2]: axes = ['попугаи', 'удавы']
In [3]: random.choice(axes) Out[3]: 'удавы' In [4]: random.uniform(df['удавы'].min(), df['удавы'].max()) Out[4]: 3.954197818641566
… In [5]: random.choice(axes) Out[5]: 'попугаи' In [6]: random.uniform(df_b['попугаи'].min(), df_b['попугаи'].max())
Out[6]: -3.7345546743319455
… In [7]: random.choice(axes) Out[7]: 'попугаи' In [8]: random.uniform(df_bl['попугаи'].min(), df_bl['попугаи'].max())
Out[8]: 4.55352143693694
… In [9]: random.choice(axes) Out[9]: 'удавы' In [10]: random.uniform(df_br['удавы'].min(), df_br['удавы'].max())
Out[10]: -0.6572094533790986
iTree
Isolation Forest
Isolation Forest
Алгоритм Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou.
Isolation forest. In Data Mining, 2008. ICDM'08. Eighth IEEE International Conference on, 413–422. IEEE, 2008.
Потоковые данные Zhiguo Ding and Minrui Fei. An anomaly detection
approach based on isolation forest algorithm for streaming data using sliding window. IFAC Proceedings Volumes, 46(20):12–17, 2013.
None
None
None
None
None
None
None
Алгоритм
None
None
None
None
None
None
Алгоритм в pysad Emaad Manzoor, Hemank Lamba, and Leman Akoglu.
Xstream: outlier detection in feature-evolving data streams. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 1963–1972. 2018.
Резюме
Вопросы?