Введение в машинное обучение

Введение в машинное обучение

05528ae0ce750965b089cdc4f5d66e48?s=128

gregarshinov

March 19, 2018
Tweet

Transcript

  1. 1.

    ВВЕДЕНИЕ В МАШИННОЕ ОБУЧЕНИЕ ГРИГОРИЙ АРШИНОВ НИУ ВШЭ НН ФАКУЛЬТЕТ

    ГУМАНИТАРНЫХ НАУК НАПРАВЛЕНИЕ «ФУНДАМЕНТАЛЬНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА»
  2. 2.
  3. 3.

    ПРИЛОЖЕНИЯ • Распознавание любых объектов на изображении (компьютерное зрение) •

    OCR(Optical Character Recognition) • Рекомендательные системы • Понимание, генерирование звучащей речи/текста (Siri, Google Assistant, Yandex Alisa etc.) • Классификация текстов (по тональности, тематикам, спам/не спам etc.)
  4. 4.

    ПЛАН • Типы машинного обучения • Постановка задачи • Обучение

    с учителем: • Восстановление регрессии • k-ближайших соседей • Обучение без учителя • алгоритм k-средних • Python ML frameworks • Sci-Kit learn • Intel PyDaal
  5. 5.

    ЧТО ТАКОЕ МАШИННОЕ ОБУЧЕНИЕ? Говорят, что компьютерная программа обучается на

    основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E. T.M. Mitchell Machine Learning. McGraw-Hill, 1997.
  6. 6.

    ТИПЫ МАШИННОГО ОБУЧЕНИЯ • Дедуктивное обучение (экспертные системы) • Индуктивное

    обучение ( ≈ статистическое обучение) • Обучение с учителем: • восстановление регрессии • классификация • Обучение без учителя: • кластеризация
  7. 7.

    ОБУЧЕНИЕ С УЧИТЕЛЕМ X — множество объектов Y — множество

    меток (ответов). h(x): X→Y {(x(1), y(1)), (x(2), y(2)), …, (x(N), y(N))} – обучающая выборка Цель: научиться по объектам x ∊ X предсказывать объекты y ∊ Y
  8. 8.

    ПРИЗНАКОВОЕ ОПИСАНИЕ x ∊ X= {Q1 ,Q2 ,...,Qj } где

    Qj ∊ R или Qj - состоит из конечного числа объектов. x = (x1 ,x2 ,..., xj ) ∊ X xj - j-й признак (свойство, атрибут) объекта x. • Если Qj конечно, то j-й признак — номинальный (категориальный). К примеру множество значений признака «уровень знания иностранного языка», Qj = {Elementary, Pre Intermediate, Intermediate, Upper Intermediate, Advanced, Proficiency}. • Если |Qj | = 2, то признак бинарный и можно считать, например, Qj = {0, 1} или Qj = {−1, 1}. • Если Qj ∊ R, то признак количественный. К примеру рост и вес пациента при медицинской диагностике.
  9. 10.

    ВОССТАНОВЛЕНИЕ РЕГРЕССИИ Цены на дома (Портланд) Стоимость (тыс. долларов) Площадь

    (фут2) Задача: предсказать стоимость(число) по площади
  10. 11.
  11. 12.

    ВИДЫ РЕГРЕССИЙ Полиномиальная регрессия: hΘ (x) = Θ 0 +

    Θ 1 x + Θ 2 x2 + Θ 3 x3 + ... + Θ n xn NB! склонна к переобучению
  12. 14.

    МЕТРИКИ КАЧЕСТВА РЕГРЕССИИ MAE (средняя абсолютная ошибка) RMSE (корень из

    средней квадратической ошибки) Не чувствительна к выбросам Проще интерпретировать Чувствительна к выбросам Сложнее интерпретировать, учитывает дополнительные зависимости
  13. 15.

    ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ Дано: Выборка параметров Ирисов • длина чашелистика •

    ширина чашелистика Задача: На основе данных обучиться определять принадлежность ириса к классу Setosa.
  14. 18.

    МЕТРИКИ КАЧЕСТВА КЛАССИФИКАЦИИ Condition Positive Condition Negative Predicted Positive True

    Positive(TP) False Positive(FP) Predicted Negative False Negative(FN) True Negative(TN) • accuracy = !"#!$ !"#%"#%$#!$ • precision = !" !"#%" • recall = !" !"#%$ • f1-score = 2 '()*+,+-.∗()*011 '()*+,+-.#()*011
  15. 20.
  16. 21.

    КАЧЕСТВО КЛАСТЕРИЗАЦИИ Коэффициент силуэта ! = # − % max(%,

    #) где a – среднее расстояние между объектом выборки и остальными объектами этого кластера. b – среднее расстояние между объектом выборки и объектами из ближайшего соседнего кластера.