Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Что делать, если данных мало?
Search
Big Data & AI Conference 2020
September 17, 2020
Business
0
65
Что делать, если данных мало?
Наталья Полковникова, генеральный директор, ООО "Институт прикладной математики и информатики"
Big Data & AI Conference 2020
September 17, 2020
Tweet
Share
More Decks by Big Data & AI Conference 2020
See All by Big Data & AI Conference 2020
Как искусственный интеллект помогает снизить вредные выбросы в атмосферу на металлургическом производстве.
aiconforg
0
96
Как сломать рекламную индустрию: повышаем эффективность рекламы с помощью Emotion Recognition
aiconforg
0
58
Цифровой помощник для маневрового диспетчера
aiconforg
0
270
Прогресс ученика: Как анализ больших данных помогает быстрее и дешевле достичь образовательных целей
aiconforg
0
110
Рекомендательная система для увеличения кросс-продаж: опыт инвестиционной компании
aiconforg
0
37
Дополненная аналитика: практический подход к автоматизации внутренней аналитики
aiconforg
1
51
Построение системы realtime-аналитики на ClickHouse
aiconforg
0
160
Как оценить эмоциональную реакцию на рекламу дистанционно, быстро и точно.
aiconforg
0
73
Учет новых слов в языковых моделях классификации
aiconforg
0
44
Other Decks in Business
See All in Business
Sales Marker Culture book
salesmarker
PRO
35
54k
エクセレントグループ採用ピッチ[介護事業]
excare
0
710
Micoworks株式会社 採用Deck
micoworks
PRO
0
73k
c-slide_サービス紹介資料テンプレート
coneinc
0
140
LW_brochure_engineer
lincwellhr
0
34k
プロダクトディスカバリーのためのユーザーインタビュー 200+本ノックの知見
hynym
PRO
0
280
Taiwan Product Conference 2025: Interoperate Integrate Iterate a 10 Year Pm Survival Kit for Traditional Sectors
dwchiang
0
110
メモ帳マニュアル
takamiyata
0
180
_iSM_採用ピッチ資料_改訂版_20250605.pdf
ism_terada
0
280
セーフィー株式会社(Safie Inc.) 会社紹介資料
safie_recruit
6
350k
Micoworks Recruitment Materials
micoworks
PRO
0
2.6k
無意識化を促すチェックリストの作り方
raylucas
0
280
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
780
VelocityConf: Rendering Performance Case Studies
addyosmani
329
24k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
228
22k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Building an army of robots
kneath
306
45k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.2k
Making Projects Easy
brettharned
116
6.2k
Side Projects
sachag
455
42k
Code Review Best Practice
trishagee
68
18k
Transcript
Что делать если данных мало? Наталья Полковникова Институт прикладной математики
и информатики
[email protected]
+7 495 185 58 64
Типичные проблемы цифровой трансформации реального бизнеса ЧТО ДЕЛАТЬ? Данных мало
Типичный пример – лизинговая компания с относительно не большим количеством клиентов Данные есть, но в них мало интересующих нас событий Типичный пример данные по увольнениям х х х х х х х х х х х х х х х х х ✓
Внешние источники • Социальные сети • Спакр • Данные агентства
кредитных историй …….
Проблемы
Что делать если данные все равно не сбалансированы? Oversampling Undersampling
Примеры из реальной жизни Увольнения сотрудников
Данные по клиентам/сотрудникам До SMOTE После SMOTE Имеют некоторое распределение
Целевой показатель
Статистика хорошая. Но что получили? Но мы же хотели поймать
красных! Статистика, описывающая работу моделей в среднем по 2 классам
До SMOTE После SMOTE
Какая модель нам подходит?
Примеры из реальной жизни Лизинг
До обработки данных После чистки и обогащения данных
Главное не переобучиться!
Вопросы? Наталья Полковникова Генеральный директор Институт прикладной математики и информатики
[email protected]
/ +7 495 185 58 64