Въведение в (Machine|Deep) Learning

Introduction to (Machine|Deep) Learning Стефан Кънев http://skanev.com/ @skanev PlovdivConf 13
май 2023 Пловдив

Здравейте, аз съм Стефан

skanev.com @skanev /c/StefanKanev tilde-slash.fm

ChatGPT, ??.??.2023

(machine|deep) learning

интуиция за какво е невронна мрежа 1 2 3 да
се зарибите да пробвате ясни следващи стъпки Цели за днес

disclaimer(s)!

малко hand-waving ще “поопростя” някои неща ще говоря само за
supervised learning ще пропусна ред интересни моменти все пак, ще съм фактологически коректен

уви, има доста математика   линейна алгебра   “calculus”  
статистика   изненадващо, не ви трябва да започнете, но помага

някои автори сравняват невронните мрежи с човешкия мозък, но аз
не харесвам това   безполезна аналогия   никой не знае още как работи човешкия мозък   по-скоро е вдъхновено от това, но се разбира по-добре през математическия модел

machine learning vs deep learning

какво е machine learning?

y = f(x)

алгоритми

y = f(x) знаем търсим знаем

f x y най-голямо число / max a, b a
> b ? a : b сортиране на масив списък от неща подредени неща Д[еиа]йкстра граф най-кратък път Алгоритми

Machine Learning

y = f(x) знаем знаем търсим

m² етаж квартал цена 70 5 Люлин 80,000 90 1
Лозенец 112,000 60 10 Център 140,000 120 10 Център 200,000 x y пример features labels

m² етаж квартал цена 70 5 Люлин 80,000 90 1
Лозенец 112,000 60 10 Център 140,000 120 10 Център 200,000 X y⃗

добре, но как точно търсим f?

правим “предположение” за формата на f   дефинираме “грешка”  
търсим параметри за които грешката е минимална   (на практика ползваме готова библиотека, не го правим ръчно)

линейна регресия

f = a0 + a1x1 + a2x2 + a3x3 +
… + anxn = y features label parameters / weights квадратура етаж квартал цена

the curse of dimensionality

квадратура цена f = a0 + a1x1 = y

квадратура цена

y = f(x) ̂ ̂

a0 грешка

gradient descent

целия този процес се нарича “трениране”

x₁ x₂ x₃ x₄ x₅ + y f = a0
+ a1x1 + a2x2 + a3x3 + … + anxn = y

как изглеждат тези параметри?

y = база + ценакв×кв y = 10,000 + 1,000×кв

какво правим с етажа?

y = база + ценакв×кв + ценаетаж×етаж y = 10,000
+ 1,000×кв + 2,000×етаж

как може да решим този проблем?

етаж първи високо ниско

етаж 2 1 10 5 първи нисък висок 0 1
0 1 0 0 0 0 1 0 0 0 one-hot-encoding + binning (of sorts)

y = база + €кв×кв + €първи×първи + €нисък×нисък +
€висок×висок y = 10,000 + 1,000×кв + -5,000×първи + -2,000×нисък + 10,000×висок

какво правим с квартала?

квартал Лозенец Люлин Център Лозенец квартал 1 2 3 1
indexing няма да работи

квартал Лозенец Люлин Център Лозенец лозенец център люлин 1 0
0 0 0 1 0 1 0 1 0 0 one-hot-encoding (ама наистина)

y = база + €кв×кв + €лоз×лоз + €люл×люл +
€цен×цен y = 10,000 + 1,000×кв + 10,000×лоз + -5,000×люл + 30,000×цен

това ще даде по-добри резултати, но навярно не съвпада с
реалността

по-скоро различните квартали имат различна базова цена на квадрат

квартал кв² Лозенец 70 Люлин 120 Център 60 Лозенец 85
лозенец × кв² център × кв² люлин × кв² 70 0 0 0 0 120 0 60 0 85 0 0 one-hot-encoding (ама наистина)

y = база + €кв×кв + €лоз×кв×лоз×кв + €люл×кв×люл×кв +
€цен×кв×цен×кв y = 10,000 + 1,000×кв + 200×лоз×кв + -100×люл×кв + 500×цен×кв

всичко това се нарича feature engineering и е голяма част
от процеса на (класически) machine learning също така е част от data science заяната (образно казано)

regression vs. classi fi cation “реално” число булева стойност

може да адаптираме линейната регресия до алгоритъм за класификация

f = 𝜎 (a0 + a1x1 + a2x2 + a3x3
+ … + anxn) = y f = a0 + a1x1 + a2x2 + a3x3 + … + anxn = y

x₁ x₂ x₃ x₄ x₅ σ y f = 𝜎
(a0 + a1x1 + a2x2 + a3x3 + … + anxn) = y

объркващо, това се нарича логистична регресия (въпреки, че е класификация)

супер. имаме модел. как знаем дали се справя добре?

какво значи “справя добре”?   прави хубави предвиждания за непознати
данни   ако го натренираме на всички данни, има шанс да научи само тях добре, но да генерализира зле

train/test split All Data Train Test с това тренираме с
това валидираме

train test интерпретация 60% 60% under fi t 99% 65%
over fi t 95% 94% супер* validation

deep learning (a.k.a. какво е невронна мрежа)

x₁ x₂ x₃ x₄ x₅ σ σ σ σ σ
σ σ σ σ σ σ σ σ y

σ σ σ σ σ σ σ σ y layers neuron

ползваме много слоеве всеки слой може да има различен размер
от съседите си обикновено вместо сигмоид ползваме набор от други “активационни функции” gradient descent си работи, но обновяваме теглата на всички слоеве на всяка стъпка (backpropagation) има вариации на типовете слоеве

дълбоки мрежи могат да сложни функции започва да трябва много
желязо започваме да ставаме жертви на fl oating point започва много да over fi t-ва започва да е гладно за много данни, понеже това помага с over fi t-а

convolutional neural networks

друг вид слой, в който вместо “логистична регресия” правим конволюция

LeNet 5

защо това е интересно?

при много данни, по-сложни модели могат да дадат по-добър резултат

“намалява/премахва” feature engineering

има по-интересна визуализация при мрежи за картинки

интересното, е че не “програмираме” мрежата да разпознава ръбове, преходи
и кучета, а тя сама се научава

transfer learning

можем да вземем мрежа натренирана за друг (подобен) проблем на
много данни   и да я fi ne-tune-нем за нашия проблем с много по-малко данни

LeNet 5

σ σ σ σ σ σ σ σ y

numpy pandas matplotlib jupyter scikit-learn ternsor fl ow pytorch

deeplearning.ai

fast.ai

книжки на o’reilly

kaggle.com     huggingface.com

Въведение в (Machine|Deep) Learning

Въведение в (Machine|Deep) Learning

More Decks by Stefan Kanev

Other Decks in Programming

Featured

Transcript