Data Mining #4 / Линейные модели классификации

Задачи классификации. Логистическая регрессия Дмитрий Меркушов TeamLead @ Antispam ML

Задача классификации x y

Задача классификации. Линейная модель x y

Построение разделяющей поверхности • Задача классификации на 2 класса Y={1,-1}
• Обучающая выборка X=(xi,yi), i=1,L • Построить алгоритм классификации a(x,w)=sign f(x,w) f(x,w)=0 – разделяющая поверхность

Отступ • f(x,w)=0 – разделяющая поверхность • Mi (w)=yi f(xi
,w) – отступ объекта I (Margin) • Mi (w) < 0 => ошибка алгоритма a на объекте I

Функционал эмпирического риска • Mi (w) < 0 => ошибка
алгоритма a на объекте I • Эмпирический риск • ! " = ∑ % &[(% " < 0] • Гладкая аппроксимация ! ≤ !′ " = ∑ % & .((% " ) • Q -> min

Аппроксимации

Логистическая регрессия. Эмпирический подход

Аппроксимация логистической регрессии L(M) = log(1+e-x)

Логистическая регрессия на 1 слайде • L = log(1+e-M) •
!′ # = ∑ & ' ()*(1 + exp(−2& )) -> minw • Оптимизация градиентным спуском • a(xi ,wi )=sign (xi ,wi )

!′ # = ∑ & ' ()*(1 + exp(−2& )) -> minw • Оптимизация градиентным спуском • a(xi ,wi )=sign (xi ,wi ) • Какое основание у логарифма ?

Сигмоида • Посмотрим на функцию • ! " = $
$%&'((*+)

Сигмоида x y

Сигмоида x y ! х

Сигмоида x y 1 0.5 ! х

Сигмоида • Посмотрим на функцию • ! " = $
$%&'((*+) • Ассимптоты • ! −∞ = 0 • ! +∞ = 1 • ! " = 0.5 • Looks like вероятность ! • 2 "3 = $ $%&'((*+4) - ’’вероятность правильной классификации объекта I’’

Сигмоида • !" # = − ∑ ' ( )*+(-'
) -> minw • !" # = ∑ ' ( )*+(-' ) -> maxw – максимизируем ’вероятности’ правильных классификаций • a(xi ,wi )=sign (xi ,wi ) <-> a(xi ,wi ) = sign( . ./012(3(45,#5 )) - 0.5) • Можем даже уточнить алгоритм • a(xi ,wi ) = sign( . ./012(3(45,#5 )) - th)

Логистическая регрессия • Другая формализация – Y = {0,1} •
!" # = − ∑ ' ( )' *+, -' + (1 − )' ) *+, 1 − -' • Чаще всего это называют log-loss

Логистическая регрессия • На этом вроде бы и все •
Сформировали лосс • Умеем оптимизировать • Умеем принимать решение • Но слишком много мы просто приняли на веру • Почему и откуда именно? • L = log(1+e-M) • ! " = $ $%&'((*+)

Вероятностный подход

Math Recap: Метод Максимального Правдоподобия • Пусть Х – вероятностное
пространство с плотностью !(#|%) • % – параметры распределения • Примеры • p # = ( ) *+ , (-./)0 01 ; %1 =u; %2 = 2 • p # = ,345; %=6 • Имеем выборку X iid реализаций из Х • Задача – оценить параметры % по выборке • ММП – наиболее правдоподобные ;)

Math Recap: Метод Максимального Правдоподобия • Введем функцию правдоподобия •
!(#) = ∏ ' ( ) *' |, • Cовместная вероятность наблюдать каждый из элементов I • Перемножаем, т.к. iid • Метод максимального правдоподобия • ,- = arg max3 !(#) • Вероятность выпадения орла методом ММП?

ММП для нашей задачи • Веса признаков – параметры нашей
задачи • 6(8|:) –> 6 8 < • Оценить наиболее вероятные веса по выборке • Решение – методом ММП • <= = arg maxD E(F) • E(F) = ∏H I 6 8H |< → KL8 • E F → max => log E 8 → max

ММП для нашей задачи • ! " → max =>
log ! , → max • log ∏ . / 0 ,. |2 = ∑ . / log 0 ,. |2 → max • Ничего не напоминает ?

Recap: Метрическая логика • !" # = − ∑ '
( )*+(-' ) -> minw • !" # = ∑ ' ( )*+(-' ) -> maxw – максимизируем вероятности правильных классификаций • a(xi ,wi )=sign (xi ,wi ) <-> a(xi ,wi ) = sign( . ./012(3(45,#5 )) - 0.5) • Можем даже уточнить алгоритм • a(xi ,wi ) = sign( . ./012(3(45,#5 )) - th)

ММП для нашей задачи • ! " → max =>
log ! , → max • log ∏ . / 0 ,. |2 = ∑ . / log 0 ,. |2 → max • Ничего не напоминает ? • Обосновали log-Loss !

Порождающая модель p(x) Осталось определить p(xi |w) • В данной
постановке xi – пара объект-ответ (xi ,yi ) • Пусть признаки – только бинарные {0,1} • Тогда порождающее распределение – Бернулли • Можно доказать, что для Бернулли • !(#,%&'(|*) !(#,%&,(|*) = exp(1, 2) • Доказательство (beyond the scope)

Порождающая модель p(x) Осталось определить p(xi |w) • !(#,%&'(|*) !(#,%&,(|*)
= exp(1, 2) • Из полной вероятности • 3 2, 4 = +1 1 + 3 2, 4 = +1 1 = 1 • 3 2, 4 = +1 1 = ( ('789{ ,(*,#)} ; 3 2, 4 = −1 1 = ( ('789{(*,#)}

= exp(1, 2) • Из полной вероятности • 3 2, 4 = +1 1 + 3 2, 4 = +1 1 = 1 • 3 2, 4 = +1 1 = ( ('789{ ,(*,#)} ; 3 2, 4 = −1 1 = ( ('789{(*,#)} • Ничего не напоминает ? • 3 2, 4 1 = ( ('789{ ,=}

Сигмоида x y 1 0.5 ! х

= exp(1, 2) • Из полной вероятности • 3 2, 4 = +1 1 + 3 2, 4 = +1 1 = 1 • 3 2, 4 = +1 1 = ( ('789{ ,(*,#)} ; 3 2, 4 = −1 1 = ( ('789{(*,#)} • Ничего не напоминает ? Обосновали сигмоиду! • 3 2, 4 1 = ( ('789{ ,=}

Логистическая регрессия • ∑ " # log ' (" |*
= ∑ " # log , - → max • - ∑ " # log(1 + exp(−-)) → max • ∑ " # log(1 + exp(−-)) → min

!′ # = ∑ & ' ()*(1 + exp(−2& )) -> minw • Оптимизация градиентным спуском • a(xi ,wi )=sign [4(xi ,wi ) - th]

Recap • Логистическая регрессия – алгоритм линейной классификации • Аппроксимирует
эмпирический риск лог-лоссом • ИЛИ порождает признаки из вероятностного пространства • Показали для Бернулли – бинарных признаков • Но не для всех – сигмоиду нельзя трактовать как чистую вероятность. Но можно применять =) • Оптимизирует лог-лосс • Или решает задачу ММП • Удобна для задач скоринга, спама • Важен не только аутпут, но и мера принадлежности

Recap • Think empirically • ИЛИ • Think probabilistically

Метрики классификации

Метрики оценки true positive false positive true negative false negative
y_pred 1 y_true 1

y_pred 1 1 y_true 1 0

y_pred 1 1 0 y_true 1 0 0

y_pred 1 1 0 0 y_true 1 0 0 1

Метрики оценки: точность [precision] precision = tp tp+ fp

Метрики оценки: полнота [recall] precision = tp tp+ fn

Метрики оценки: f1-мера • По сути – среднее гармоническое !1
= 2 1 %&'()*)+, + 1 &'(.//

Метрики оценки: f1-мера

Метрики оценки: F-мера !" = 1 + "& 1 '()*+,+-.
+ "& ()*/00

Метрики оценки: f1-мера

Метрики оценки: ROC AUC • ROC AUC – площадь под
кривой • ROC = Receiver Operator Characteristics • AUC = Area Under Curve • 0 < ROC AUC < 1 • Random Classifier: ROC AUC = 0.5

Метрики оценки: Алгоритм ROC AUC • Упорядочим нашу выборку по
убыванию предсказания

убыванию предсказания • Разбиваем квадрат 1х1 на • M (число нулей) вертикальных линий • N (число единиц) горизонтальных линий

убыванию предсказания • Разбиваем квадрат 1х1 на • M (число нулей) вертикальных линий • N (число единиц) горизонтальных линий • Идем сверху вниз • Встретили 1 – идем вверх • Встретили 0 – идем вправо

убыванию предсказания • Разбиваем квадрат 1х1 на • M (число нулей) вертикальных линий • N (число единиц) горизонтальных линий • Идем сверху вниз • Встретили 1 – идем вверх • Встретили 0 – идем вправо • Встретили несколько одинаковых предсказаний • m нулей и n единиц • Идем на m вправо и n вверх

Метрики оценки: ROC AUC • Внутри квадрата – все пары
точек 1 и 0 из выборки • ROC отделяет верно упорядоченные алгоритмом пары точек • ROC AUC – число верно отранжированных пар • Исчерпывающая интерпретация: • Вероятность, что алгоритм верно упорядочит случайно выбранную пару (1,0)

Как подобрать порог • Оптимизация F1 кросс-валидацией • Подбор на
ROC кривой исходя из целевых • FPR • TPR

Data Mining #4 / Линейные модели классификации

Data Mining #4 / Линейные модели классификации

More Decks by Технострим Mail.ru Group

Featured

Transcript