Slide 1

Slide 1 text

ВВЕДЕНИЕ В МАШИННОЕ ОБУЧЕНИЕ ГРИГОРИЙ АРШИНОВ НИУ ВШЭ НН ФАКУЛЬТЕТ ГУМАНИТАРНЫХ НАУК НАПРАВЛЕНИЕ «ФУНДАМЕНТАЛЬНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА»

Slide 2

Slide 2 text

No content

Slide 3

Slide 3 text

ПРИЛОЖЕНИЯ • Распознавание любых объектов на изображении (компьютерное зрение) • OCR(Optical Character Recognition) • Рекомендательные системы • Понимание, генерирование звучащей речи/текста (Siri, Google Assistant, Yandex Alisa etc.) • Классификация текстов (по тональности, тематикам, спам/не спам etc.)

Slide 4

Slide 4 text

ПЛАН • Типы машинного обучения • Постановка задачи • Обучение с учителем: • Восстановление регрессии • k-ближайших соседей • Обучение без учителя • алгоритм k-средних • Python ML frameworks • Sci-Kit learn • Intel PyDaal

Slide 5

Slide 5 text

ЧТО ТАКОЕ МАШИННОЕ ОБУЧЕНИЕ? Говорят, что компьютерная программа обучается на основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E. T.M. Mitchell Machine Learning. McGraw-Hill, 1997.

Slide 6

Slide 6 text

ТИПЫ МАШИННОГО ОБУЧЕНИЯ • Дедуктивное обучение (экспертные системы) • Индуктивное обучение ( ≈ статистическое обучение) • Обучение с учителем: • восстановление регрессии • классификация • Обучение без учителя: • кластеризация

Slide 7

Slide 7 text

ОБУЧЕНИЕ С УЧИТЕЛЕМ X — множество объектов Y — множество меток (ответов). h(x): X→Y {(x(1), y(1)), (x(2), y(2)), …, (x(N), y(N))} – обучающая выборка Цель: научиться по объектам x ∊ X предсказывать объекты y ∊ Y

Slide 8

Slide 8 text

ПРИЗНАКОВОЕ ОПИСАНИЕ x ∊ X= {Q1 ,Q2 ,...,Qj } где Qj ∊ R или Qj - состоит из конечного числа объектов. x = (x1 ,x2 ,..., xj ) ∊ X xj - j-й признак (свойство, атрибут) объекта x. • Если Qj конечно, то j-й признак — номинальный (категориальный). К примеру множество значений признака «уровень знания иностранного языка», Qj = {Elementary, Pre Intermediate, Intermediate, Upper Intermediate, Advanced, Proficiency}. • Если |Qj | = 2, то признак бинарный и можно считать, например, Qj = {0, 1} или Qj = {−1, 1}. • Если Qj ∊ R, то признак количественный. К примеру рост и вес пациента при медицинской диагностике.

Slide 9

Slide 9 text

ПРИЗНАКОВОЕ ОПИСАНИЕ

Slide 10

Slide 10 text

ВОССТАНОВЛЕНИЕ РЕГРЕССИИ Цены на дома (Портланд) Стоимость (тыс. долларов) Площадь (фут2) Задача: предсказать стоимость(число) по площади

Slide 11

Slide 11 text

ФУНКЦИЯ ГИПОТЕЗЫ hΘ (x) = Θ 0 + Θ 1 x Функция потерь:

Slide 12

Slide 12 text

ВИДЫ РЕГРЕССИЙ Полиномиальная регрессия: hΘ (x) = Θ 0 + Θ 1 x + Θ 2 x2 + Θ 3 x3 + ... + Θ n xn NB! склонна к переобучению

Slide 13

Slide 13 text

ПЕРЕОБУЧЕНИЕ

Slide 14

Slide 14 text

МЕТРИКИ КАЧЕСТВА РЕГРЕССИИ MAE (средняя абсолютная ошибка) RMSE (корень из средней квадратической ошибки) Не чувствительна к выбросам Проще интерпретировать Чувствительна к выбросам Сложнее интерпретировать, учитывает дополнительные зависимости

Slide 15

Slide 15 text

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ Дано: Выборка параметров Ирисов • длина чашелистика • ширина чашелистика Задача: На основе данных обучиться определять принадлежность ириса к классу Setosa.

Slide 16

Slide 16 text

ВИДЫ РЕГРЕССИЙ Логистическая регрессия: z = hΘ (x) = Θ 0 + Θ 1 x g(x) = ! !" #$%

Slide 17

Slide 17 text

K NEAREST NEIGHBORS Метрики расстояний: • Евклидово • Манхеттоновское

Slide 18

Slide 18 text

МЕТРИКИ КАЧЕСТВА КЛАССИФИКАЦИИ Condition Positive Condition Negative Predicted Positive True Positive(TP) False Positive(FP) Predicted Negative False Negative(FN) True Negative(TN) • accuracy = !"#!$ !"#%"#%$#!$ • precision = !" !"#%" • recall = !" !"#%$ • f1-score = 2 '()*+,+-.∗()*011 '()*+,+-.#()*011

Slide 19

Slide 19 text

ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ Кластеризация

Slide 20

Slide 20 text

K MEANS

Slide 21

Slide 21 text

КАЧЕСТВО КЛАСТЕРИЗАЦИИ Коэффициент силуэта ! = # − % max(%, #) где a – среднее расстояние между объектом выборки и остальными объектами этого кластера. b – среднее расстояние между объектом выборки и объектами из ближайшего соседнего кластера.

Slide 22

Slide 22 text

БИБЛИОТЕКИ, РЕАЛИЗУЮЩИЕ АЛГОРИТМЫ ML • scikit-learn • INTEL® pyDAAL (Data Analytics Acceleration Library)