Введение в машинное обучение

ВВЕДЕНИЕ В МАШИННОЕ ОБУЧЕНИЕ ГРИГОРИЙ АРШИНОВ НИУ ВШЭ НН ФАКУЛЬТЕТ
ГУМАНИТАРНЫХ НАУК НАПРАВЛЕНИЕ «ФУНДАМЕНТАЛЬНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА»

ПРИЛОЖЕНИЯ • Распознавание любых объектов на изображении (компьютерное зрение) •
OCR(Optical Character Recognition) • Рекомендательные системы • Понимание, генерирование звучащей речи/текста (Siri, Google Assistant, Yandex Alisa etc.) • Классификация текстов (по тональности, тематикам, спам/не спам etc.)

ПЛАН • Типы машинного обучения • Постановка задачи • Обучение
с учителем: • Восстановление регрессии • k-ближайших соседей • Обучение без учителя • алгоритм k-средних • Python ML frameworks • Sci-Kit learn • Intel PyDaal

ЧТО ТАКОЕ МАШИННОЕ ОБУЧЕНИЕ? Говорят, что компьютерная программа обучается на
основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E. T.M. Mitchell Machine Learning. McGraw-Hill, 1997.

ТИПЫ МАШИННОГО ОБУЧЕНИЯ • Дедуктивное обучение (экспертные системы) • Индуктивное
обучение ( ≈ статистическое обучение) • Обучение с учителем: • восстановление регрессии • классификация • Обучение без учителя: • кластеризация

ОБУЧЕНИЕ С УЧИТЕЛЕМ X — множество объектов Y — множество
меток (ответов). h(x): X→Y {(x(1), y(1)), (x(2), y(2)), …, (x(N), y(N))} – обучающая выборка Цель: научиться по объектам x ∊ X предсказывать объекты y ∊ Y

ПРИЗНАКОВОЕ ОПИСАНИЕ x ∊ X= {Q1 ,Q2 ,...,Qj } где
Qj ∊ R или Qj - состоит из конечного числа объектов. x = (x1 ,x2 ,..., xj ) ∊ X xj - j-й признак (свойство, атрибут) объекта x. • Если Qj конечно, то j-й признак — номинальный (категориальный). К примеру множество значений признака «уровень знания иностранного языка», Qj = {Elementary, Pre Intermediate, Intermediate, Upper Intermediate, Advanced, Proficiency}. • Если |Qj | = 2, то признак бинарный и можно считать, например, Qj = {0, 1} или Qj = {−1, 1}. • Если Qj ∊ R, то признак количественный. К примеру рост и вес пациента при медицинской диагностике.

ПРИЗНАКОВОЕ ОПИСАНИЕ

ВОССТАНОВЛЕНИЕ РЕГРЕССИИ Цены на дома (Портланд) Стоимость (тыс. долларов) Площадь
(фут2) Задача: предсказать стоимость(число) по площади

ФУНКЦИЯ ГИПОТЕЗЫ hΘ (x) = Θ 0 + Θ 1
x Функция потерь:

ВИДЫ РЕГРЕССИЙ Полиномиальная регрессия: hΘ (x) = Θ 0 +
Θ 1 x + Θ 2 x2 + Θ 3 x3 + ... + Θ n xn NB! склонна к переобучению

ПЕРЕОБУЧЕНИЕ

МЕТРИКИ КАЧЕСТВА РЕГРЕССИИ MAE (средняя абсолютная ошибка) RMSE (корень из
средней квадратической ошибки) Не чувствительна к выбросам Проще интерпретировать Чувствительна к выбросам Сложнее интерпретировать, учитывает дополнительные зависимости

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ Дано: Выборка параметров Ирисов • длина чашелистика •
ширина чашелистика Задача: На основе данных обучиться определять принадлежность ириса к классу Setosa.

ВИДЫ РЕГРЕССИЙ Логистическая регрессия: z = hΘ (x) = Θ
0 + Θ 1 x g(x) = ! !" #$%

K NEAREST NEIGHBORS Метрики расстояний: • Евклидово • Манхеттоновское

МЕТРИКИ КАЧЕСТВА КЛАССИФИКАЦИИ Condition Positive Condition Negative Predicted Positive True
Positive(TP) False Positive(FP) Predicted Negative False Negative(FN) True Negative(TN) • accuracy = !"#!$ !"#%"#%$#!$ • precision = !" !"#%" • recall = !" !"#%$ • f1-score = 2 '()*+,+-.∗()*011 '()*+,+-.#()*011

ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ Кластеризация

K MEANS

КАЧЕСТВО КЛАСТЕРИЗАЦИИ Коэффициент силуэта ! = # − % max(%,
#) где a – среднее расстояние между объектом выборки и остальными объектами этого кластера. b – среднее расстояние между объектом выборки и объектами из ближайшего соседнего кластера.

БИБЛИОТЕКИ, РЕАЛИЗУЮЩИЕ АЛГОРИТМЫ ML • scikit-learn • INTEL® pyDAAL (Data
Analytics Acceleration Library)

Введение в машинное обучение

Введение в машинное обучение

gregarshinov

Other Decks in Programming

Featured

Transcript