Введение в машинное обучение

Введение в машинное обучение

05528ae0ce750965b089cdc4f5d66e48?s=128

gregarshinov

March 19, 2018
Tweet

Transcript

  1. ВВЕДЕНИЕ В МАШИННОЕ ОБУЧЕНИЕ ГРИГОРИЙ АРШИНОВ НИУ ВШЭ НН ФАКУЛЬТЕТ

    ГУМАНИТАРНЫХ НАУК НАПРАВЛЕНИЕ «ФУНДАМЕНТАЛЬНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА»
  2. None
  3. ПРИЛОЖЕНИЯ • Распознавание любых объектов на изображении (компьютерное зрение) •

    OCR(Optical Character Recognition) • Рекомендательные системы • Понимание, генерирование звучащей речи/текста (Siri, Google Assistant, Yandex Alisa etc.) • Классификация текстов (по тональности, тематикам, спам/не спам etc.)
  4. ПЛАН • Типы машинного обучения • Постановка задачи • Обучение

    с учителем: • Восстановление регрессии • k-ближайших соседей • Обучение без учителя • алгоритм k-средних • Python ML frameworks • Sci-Kit learn • Intel PyDaal
  5. ЧТО ТАКОЕ МАШИННОЕ ОБУЧЕНИЕ? Говорят, что компьютерная программа обучается на

    основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E. T.M. Mitchell Machine Learning. McGraw-Hill, 1997.
  6. ТИПЫ МАШИННОГО ОБУЧЕНИЯ • Дедуктивное обучение (экспертные системы) • Индуктивное

    обучение ( ≈ статистическое обучение) • Обучение с учителем: • восстановление регрессии • классификация • Обучение без учителя: • кластеризация
  7. ОБУЧЕНИЕ С УЧИТЕЛЕМ X — множество объектов Y — множество

    меток (ответов). h(x): X→Y {(x(1), y(1)), (x(2), y(2)), …, (x(N), y(N))} – обучающая выборка Цель: научиться по объектам x ∊ X предсказывать объекты y ∊ Y
  8. ПРИЗНАКОВОЕ ОПИСАНИЕ x ∊ X= {Q1 ,Q2 ,...,Qj } где

    Qj ∊ R или Qj - состоит из конечного числа объектов. x = (x1 ,x2 ,..., xj ) ∊ X xj - j-й признак (свойство, атрибут) объекта x. • Если Qj конечно, то j-й признак — номинальный (категориальный). К примеру множество значений признака «уровень знания иностранного языка», Qj = {Elementary, Pre Intermediate, Intermediate, Upper Intermediate, Advanced, Proficiency}. • Если |Qj | = 2, то признак бинарный и можно считать, например, Qj = {0, 1} или Qj = {−1, 1}. • Если Qj ∊ R, то признак количественный. К примеру рост и вес пациента при медицинской диагностике.
  9. ПРИЗНАКОВОЕ ОПИСАНИЕ

  10. ВОССТАНОВЛЕНИЕ РЕГРЕССИИ Цены на дома (Портланд) Стоимость (тыс. долларов) Площадь

    (фут2) Задача: предсказать стоимость(число) по площади
  11. ФУНКЦИЯ ГИПОТЕЗЫ hΘ (x) = Θ 0 + Θ 1

    x Функция потерь:
  12. ВИДЫ РЕГРЕССИЙ Полиномиальная регрессия: hΘ (x) = Θ 0 +

    Θ 1 x + Θ 2 x2 + Θ 3 x3 + ... + Θ n xn NB! склонна к переобучению
  13. ПЕРЕОБУЧЕНИЕ

  14. МЕТРИКИ КАЧЕСТВА РЕГРЕССИИ MAE (средняя абсолютная ошибка) RMSE (корень из

    средней квадратической ошибки) Не чувствительна к выбросам Проще интерпретировать Чувствительна к выбросам Сложнее интерпретировать, учитывает дополнительные зависимости
  15. ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ Дано: Выборка параметров Ирисов • длина чашелистика •

    ширина чашелистика Задача: На основе данных обучиться определять принадлежность ириса к классу Setosa.
  16. ВИДЫ РЕГРЕССИЙ Логистическая регрессия: z = hΘ (x) = Θ

    0 + Θ 1 x g(x) = ! !" #$%
  17. K NEAREST NEIGHBORS Метрики расстояний: • Евклидово • Манхеттоновское

  18. МЕТРИКИ КАЧЕСТВА КЛАССИФИКАЦИИ Condition Positive Condition Negative Predicted Positive True

    Positive(TP) False Positive(FP) Predicted Negative False Negative(FN) True Negative(TN) • accuracy = !"#!$ !"#%"#%$#!$ • precision = !" !"#%" • recall = !" !"#%$ • f1-score = 2 '()*+,+-.∗()*011 '()*+,+-.#()*011
  19. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ Кластеризация

  20. K MEANS

  21. КАЧЕСТВО КЛАСТЕРИЗАЦИИ Коэффициент силуэта ! = # − % max(%,

    #) где a – среднее расстояние между объектом выборки и остальными объектами этого кластера. b – среднее расстояние между объектом выборки и объектами из ближайшего соседнего кластера.
  22. БИБЛИОТЕКИ, РЕАЛИЗУЮЩИЕ АЛГОРИТМЫ ML • scikit-learn • INTEL® pyDAAL (Data

    Analytics Acceleration Library)