Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Поиск аномалий в потоковых данных
Search
Михаил Васильев
July 22, 2025
Programming
0
6
Поиск аномалий в потоковых данных
Доклад на митапе PythoNN 8 (2025)
Михаил Васильев
July 22, 2025
Tweet
Share
More Decks by Михаил Васильев
See All by Михаил Васильев
Anomaly Detection with Python
slauton1234
0
43
Классификация новостных текстов с присвоением тегов
slauton1234
0
55
Интеллектуальный помощник оператора службы поддержки
slauton1234
0
45
Other Decks in Programming
See All in Programming
20260228_JAWS_Beginner_Kansai
takuyay0ne
5
500
DSPy入門 Pythonで実現する自動プロンプト最適化 〜人手によるプロンプト調整からの卒業〜
seaturt1e
1
700
ベクトル検索のフィルタを用いた機械学習モデルとの統合 / python-meetup-fukuoka-06-vector-attr
monochromegane
2
400
Claude Codeセッション現状確認 2026福岡 / fukuoka-aicoding-00-beacon
monochromegane
4
420
ポーリング処理廃止によるイベント駆動アーキテクチャへの移行
seitarof
3
1.1k
メタプログラミングで実現する「コードを仕様にする」仕組み/nikkei-tech-talk43
nikkei_engineer_recruiting
0
180
AI駆動開発の本音 〜Claude Code並列開発で見えたエンジニアの新しい役割〜
hisuzuya
4
500
株式会社 Sun terras カンパニーデック
sunterras
0
2.1k
RubyとGoでゼロから作る証券システム: 高信頼性が求められるシステムのコードの外側にある設計と運用のリアル
free_world21
0
270
コーディングルールの鮮度を保ちたい / keep-fresh-go-internal-conventions
handlename
0
200
守る「だけ」の優しいEMを抜けて、 事業とチームを両方見る視点を身につけた話
maroon8021
3
820
Go 1.26でのsliceのメモリアロケーション最適化 / Go 1.26 リリースパーティ #go126party
mazrean
1
390
Featured
See All Featured
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
260
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
70
Google's AI Overviews - The New Search
badams
0
930
SEO for Brand Visibility & Recognition
aleyda
0
4.3k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
390
Navigating Weather and Climate Data
rabernat
0
140
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.6k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
200
Thoughts on Productivity
jonyablonski
75
5.1k
Transcript
Аномалии в потоковых данных алгоритмы под капотом
Обо мне • Старший специалист по машинному обучению • deep
learning engineer • NLP, CV, anomaly detection • Open source contributor • Амбассадор Яндекс Практикума
Аномалии
None
попугаи удавы 3.248357 -2.874754 2.930868 -2.826776 3.323844 -3.340012 3.761515 -2.883873
2.882923 -2.853464 2.882932 -3.357176 3.789606 -2.067113 … …
попугаи удавы 3.248357 -2.874754 2.930868 -2.826776 3.323844 -3.340012 3.761515 -2.883873
2.882923 -2.853464 2.882932 -3.357176 3.789606 -2.067113 … … индекс аномальности -0.119150 -0.131275 -0.108670 -0.065472 -0.128972 -0.120056 -0.012170 …
None
Threshold
None
None
None
None
None
Потоковые данные
pip install pysad from pysad.models import IForestASD model = IForestASD()
for x in streaming_data: anomaly_score = model.fit_score_partial(x)
Ансамбли
Делим
Обучаем
Усредняем
None
None
In [1]: import random In [2]: axes = ['попугаи', 'удавы']
In [3]: random.choice(axes) Out[3]: 'удавы' In [4]: random.uniform(df['удавы'].min(), df['удавы'].max()) Out[4]: 3.954197818641566
… In [5]: random.choice(axes) Out[5]: 'попугаи' In [6]: random.uniform(df_b['попугаи'].min(), df_b['попугаи'].max())
Out[6]: -3.7345546743319455
… In [7]: random.choice(axes) Out[7]: 'попугаи' In [8]: random.uniform(df_bl['попугаи'].min(), df_bl['попугаи'].max())
Out[8]: 4.55352143693694
… In [9]: random.choice(axes) Out[9]: 'удавы' In [10]: random.uniform(df_br['удавы'].min(), df_br['удавы'].max())
Out[10]: -0.6572094533790986
iTree
Isolation Forest
Isolation Forest
Алгоритм Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou.
Isolation forest. In Data Mining, 2008. ICDM'08. Eighth IEEE International Conference on, 413–422. IEEE, 2008.
Потоковые данные Zhiguo Ding and Minrui Fei. An anomaly detection
approach based on isolation forest algorithm for streaming data using sliding window. IFAC Proceedings Volumes, 46(20):12–17, 2013.
None
None
None
None
None
None
None
Алгоритм
None
None
None
None
None
None
Алгоритм в pysad Emaad Manzoor, Hemank Lamba, and Leman Akoglu.
Xstream: outlier detection in feature-evolving data streams. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 1963–1972. 2018.
Резюме
Вопросы?