Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Введение в машинное обучение

Введение в машинное обучение

gregarshinov

March 19, 2018
Tweet

Other Decks in Programming

Transcript

  1. ВВЕДЕНИЕ В МАШИННОЕ
    ОБУЧЕНИЕ
    ГРИГОРИЙ АРШИНОВ
    НИУ ВШЭ НН
    ФАКУЛЬТЕТ ГУМАНИТАРНЫХ НАУК
    НАПРАВЛЕНИЕ «ФУНДАМЕНТАЛЬНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА»

    View full-size slide

  2. ПРИЛОЖЕНИЯ
    • Распознавание любых объектов на изображении
    (компьютерное зрение)
    • OCR(Optical Character Recognition)
    • Рекомендательные системы
    • Понимание, генерирование звучащей речи/текста (Siri, Google
    Assistant, Yandex Alisa etc.)
    • Классификация текстов (по тональности, тематикам, спам/не
    спам etc.)

    View full-size slide

  3. ПЛАН
    • Типы машинного обучения
    • Постановка задачи
    • Обучение с учителем:
    • Восстановление регрессии
    • k-ближайших соседей
    • Обучение без учителя
    • алгоритм k-средних
    • Python ML frameworks
    • Sci-Kit learn
    • Intel PyDaal

    View full-size slide

  4. ЧТО ТАКОЕ МАШИННОЕ ОБУЧЕНИЕ?
    Говорят, что компьютерная программа обучается на
    основе опыта E по отношению к некоторому классу задач
    T и меры качества P, если качество решения задач из T,
    измеренное на основе P, улучшается с приобретением
    опыта E.
    T.M. Mitchell Machine Learning. McGraw-Hill, 1997.

    View full-size slide

  5. ТИПЫ МАШИННОГО ОБУЧЕНИЯ
    • Дедуктивное обучение (экспертные системы)
    • Индуктивное обучение ( ≈ статистическое обучение)
    • Обучение с учителем:
    • восстановление регрессии
    • классификация
    • Обучение без учителя:
    • кластеризация

    View full-size slide

  6. ОБУЧЕНИЕ С УЧИТЕЛЕМ
    X — множество объектов
    Y — множество меток (ответов).
    h(x): X→Y
    {(x(1), y(1)), (x(2), y(2)), …, (x(N), y(N))} – обучающая выборка
    Цель: научиться по объектам x ∊ X предсказывать объекты y ∊ Y

    View full-size slide

  7. ПРИЗНАКОВОЕ ОПИСАНИЕ
    x ∊ X= {Q1
    ,Q2
    ,...,Qj
    }
    где Qj
    ∊ R или Qj
    - состоит из конечного числа объектов.
    x = (x1
    ,x2
    ,..., xj
    ) ∊ X
    xj
    - j-й признак (свойство, атрибут) объекта x.
    • Если Qj
    конечно, то j-й признак — номинальный (категориальный). К
    примеру множество значений признака «уровень знания
    иностранного языка», Qj
    = {Elementary, Pre Intermediate, Intermediate,
    Upper Intermediate, Advanced, Proficiency}.
    • Если |Qj
    | = 2, то признак бинарный и можно считать, например, Qj
    =
    {0, 1} или Qj
    = {−1, 1}.
    • Если Qj
    ∊ R, то признак количественный. К примеру рост и вес
    пациента при медицинской диагностике.

    View full-size slide

  8. ПРИЗНАКОВОЕ ОПИСАНИЕ

    View full-size slide

  9. ВОССТАНОВЛЕНИЕ РЕГРЕССИИ
    Цены на дома (Портланд)
    Стоимость
    (тыс.
    долларов)
    Площадь (фут2)
    Задача: предсказать
    стоимость(число) по площади

    View full-size slide

  10. ФУНКЦИЯ ГИПОТЕЗЫ

    (x) = Θ
    0
    + Θ
    1
    x
    Функция потерь:

    View full-size slide

  11. ВИДЫ РЕГРЕССИЙ
    Полиномиальная регрессия:

    (x) = Θ
    0
    + Θ
    1
    x + Θ
    2
    x2 + Θ
    3
    x3 + ... + Θ
    n
    xn
    NB! склонна к переобучению

    View full-size slide

  12. ПЕРЕОБУЧЕНИЕ

    View full-size slide

  13. МЕТРИКИ КАЧЕСТВА РЕГРЕССИИ
    MAE (средняя абсолютная ошибка) RMSE (корень из средней
    квадратической ошибки)
    Не чувствительна к выбросам
    Проще интерпретировать
    Чувствительна к выбросам
    Сложнее интерпретировать, учитывает
    дополнительные зависимости

    View full-size slide

  14. ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ
    Дано:
    Выборка параметров Ирисов
    • длина чашелистика
    • ширина чашелистика
    Задача:
    На основе данных обучиться
    определять принадлежность
    ириса к классу Setosa.

    View full-size slide

  15. ВИДЫ РЕГРЕССИЙ
    Логистическая регрессия:
    z = hΘ
    (x) = Θ
    0
    + Θ
    1
    x
    g(x) = !
    !" #$%

    View full-size slide

  16. K NEAREST NEIGHBORS
    Метрики расстояний:
    • Евклидово
    • Манхеттоновское

    View full-size slide

  17. МЕТРИКИ КАЧЕСТВА КЛАССИФИКАЦИИ
    Condition Positive Condition Negative
    Predicted Positive True Positive(TP) False Positive(FP)
    Predicted
    Negative
    False Negative(FN) True Negative(TN)
    • accuracy = !"#!$
    !"#%"#%$#!$
    • precision = !"
    !"#%"
    • recall = !"
    !"#%$
    • f1-score = 2 '()*+,+-.∗()*011
    '()*+,+-.#()*011

    View full-size slide

  18. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ
    Кластеризация

    View full-size slide

  19. КАЧЕСТВО КЛАСТЕРИЗАЦИИ
    Коэффициент силуэта
    ! =
    # − %
    max(%, #)
    где a – среднее расстояние между
    объектом выборки и остальными
    объектами этого кластера.
    b – среднее расстояние между объектом
    выборки и объектами из ближайшего
    соседнего кластера.

    View full-size slide

  20. БИБЛИОТЕКИ, РЕАЛИЗУЮЩИЕ АЛГОРИТМЫ ML
    • scikit-learn
    • INTEL® pyDAAL
    (Data Analytics Acceleration
    Library)

    View full-size slide