View of Objects from the Neural Network Perspective

5206c19df417b8876825b5561344c1a0?s=47 Exactpro
April 23, 2020

View of Objects from the Neural Network Perspective

View of Objects from the Neural Network Perspective (RU)

Alan Savushkin, Data Scientist, Kaspersky
Nikita Benkovich, Leading Data Scientist, Kaspersky

Online Dev Meetup
23 April 2020

Video (RU): https://youtu.be/EB5M84MyM9E

Alan and Nikita will speak about ways to measure object similarity using a pre-trained neural network and to save more data inside a network for transferring the acquired knowledge to other tasks.

To learn more about Exactpro, visit our website https://exactpro.com/

Follow us on
LinkedIn https://www.linkedin.com/company/exactpro-systems-llc
Twitter https://twitter.com/exactpro
Facebook https://www.facebook.com/exactpro/
Instagram https://www.instagram.com/exactpro/

Subscribe to Exactpro YouTube channel https://www.youtube.com/c/exactprosystems

5206c19df417b8876825b5561344c1a0?s=128

Exactpro

April 23, 2020
Tweet

Transcript

  1. Взгляд на объекты с точки зрения нейронной сети Алан Савушкин

    Никита Бенкович Kaspersky Апрель 2020 Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 1 / 26
  2. Содержание 1 Введение и постановка задачи 2 Обзор возможных подходов

    3 Эксперимент 4 Основные проблемы 5 Способы решения проблем 6 Сравнительный анализ 7 Выводы 8 Вопросы 9 Список литературы Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 2 / 26
  3. Введение Сложная структура данных Алан Савушкин Никита Бенкович ( Kaspersky

    ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 3 / 26
  4. Введение Более сложная структура данных Message-ID <h5ced853647da4fd3689a26db- 412fa4c1@foo.com> HeaderSeq subject:from:to:date:message-

    id:content-type: X-Mailer Microsoft Windows Live Mail 14.0.8117.416 Как сравнивать и группировать объекты такой структуры? Экспертные знания + создание признаков Занимает много времени + зависимость от эксперта Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 4 / 26
  5. Введение Более сложная структура данных Модель DeepQuarantine[1]: Решает задачу классификации

    спама Агрегирует то же самое множество признаков Предложение: использовать обученную модель для группировки рассылок Архитекутра DeepQuarantine Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 5 / 26
  6. Цель и задача Цель: Использовать обученную модель для анализа схожести

    объектов Задача: Исследовать возможность использования готовой модели для перехода от общей задачи к частной. Необходимость исследования: Есть возможность решать общую задачу, но нет разметки для решения частной задачи (ее сложно, а зачастую невозможно получить). Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 6 / 26
  7. Обзор возможных подходов Input Similarity from the Neural Network Perspective

    В работе[2] 2019г. был предложен способ для определения схожести входных данных, основанный на вычислении градиента нейронной сети. Определение Пусть fθ(x) ∈ R - параметрическая функция, в частности нейронная сеть, x и x - входные объекты, θ ∈ Rn - параметры функции. kc θ (x, x ) = ∇θfθ(x )∇θfθ(x) ||∇θfθ(x )|| ||∇θfθ(x)|| kc θ (x, x ) ∈ [−1, 1] - следует из неравенства Коши-Буняковского. Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 7 / 26
  8. Обзор возможных подходов Input Similarity from the Neural Network Perspective

    Отметим достоинства выше описанного метода: Строго обоснован Действительно работает Несложно реализовать Но есть и недостатки: Большая размерность векторов (обычно dim∇θfθ(x) ≥ 105) Требования к вычислительным ресурсам и к памяти (вычисление и хранение градиента) Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 8 / 26
  9. Обзор возможных подходов Last hidden layer embedding Предложение: Рассмотреть векторы

    с последенго скрытого слоя Почему с последнего? Размерность во много раз меньше исходной Теоретически данные на последнем скрытом слое линейно разделимы, следовательно будет учитываться и семантика Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 9 / 26
  10. Эксперимент Цель эксперимента: зная, что набор данных MNIST хорошо структурирован,

    сравнить как изменяется схожесть объектов. Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 10 / 26
  11. Эксперимент Методика: 1 Решается задача бинарной классификации на наборе данных

    MNIST. В данном случае нейронная сеть обучается по изображению определять четность представленной цифры. 2 Из тестового набора данных случайным образом извлекается выборка размером 1000 без возвращения. 3 Из полученной выборки для каждой из возможных пар вычисляется: a. Косинусное расстояние в исходном пространстве b. kc θ (x, x ), где градиент считается по всем параметрам сети. c. Косинусное расстояние между векторами последнего скрытого слоя 4 Сравниваются распределения по полученным метрикам Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 11 / 26
  12. Эксперимент Распределение схожести между всеми парами Градиент Последний скрытый слой

    Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 12 / 26
  13. Эксперимент Примеры пар при значении метрики больше 0.95 Алан Савушкин

    Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 13 / 26
  14. Эксперимент Заключение: 1 Вычисление схожести на основе градиента задает более

    жесткие условия на схожесть объектов. 2 Вычисление схожести с последнего скрытого слоя больше учитывает семантику задачи, но это может приводить к ложным результатам, как с точки зрения решаемой задачи классификации (цифры 8 и 1 оказались очень похожими), так и с точки зрения решения задачи данного исследования. Гипотеза Данные очень сильно сжимаются, вследствие чего происходит значительная потеря информации об исходном виде объектов Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 14 / 26
  15. Потеря информации Причины Две основные причины потери информации: Сжатие данных

    (ограниченная функция активации) Корреляция внутри сети Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 15 / 26
  16. Потеря информации Сжатие данных Принцип Information Bottleneck[6] Алан Савушкин Никита

    Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 16 / 26
  17. Потеря информации Сжатие данных Неограниченная функция активации: φ(h) = sin(kh)

    + h если 0 < k < 1, то функция активации строго монотонная, сходимость лучше. Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 17 / 26
  18. Потеря информации Корреляция Пусть Σx = (σx + σε)In×n -

    матрица ковариации вектора x = x + ε, W - матрица весов. Тогда если W T W = I, то Σh = E[hT h] = E[W T x T x W ] = (σx + σε)Im×m L (D|W ) = L(D|W ) + λ L l=1 (Wl )T Wl − Iml ×ml F , где L(D|W ) - функция правдоподобия, || ∗ ||F - норма Фробениуса, λ - множитель Лагранжа. I(X, Tl ) = ml 2 log 1 + σx σε - величина взаимной информации между входным слоем и слоем l, при ml ≤ ml−1 Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 18 / 26
  19. Декорреляция FullBatchNorm В работаx[3, 4] был предложен подход, который можно

    назвать Full-BacthNorm Пусть x ∈ Rn − вектор-строка, Nb - размер батча BatchNorm[5]: ˆ xi = γi xi −µi √ σ2 i + + βi , i ∈ {1, . . . , n} µi = 1 Nb Nb j=1 xij σ2 i = 1 Nb−1 Nb j=1 (xij − µi )2 γi , βi - обучаемые параметры Full-BatchNorm: ˆ x = γ(x − µ)Σ− 1 2 + β µ = αµ − (1 − α)µb µb = 1 Nb Nb j=1 xj Σ = αΣ − (1 − α)Σb Σb = 1 Nb−1 Nb j=1 (x − µb)T (x − µb) γ, β - обучаемые параметры Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 19 / 26
  20. Декорреляция Dropout Dropout уменьшает корреляцию ˆ hil = gi hil

    σˆ hil = √ pσhil ˆ cij = 1 σˆ hil σˆ hjl E [gi hil gj hjl ] = p2 σˆ hil σˆ hjl E [gi hil gj hjl ] = pcij При этом нужно сохранять сеть постоянной ширины. Будем равновероятно отключать ровно k нейронов. Тогда: q = k ml +k k = ml q 1−q ˆ cij = 1 − k n 1 − k−1 n−1 cij , где n = ml + k Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 20 / 26
  21. Результаты Проверка ложных пар для различных архитектур сети Алан Савушкин

    Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 21 / 26
  22. Результаты Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на

    объекты с точки зрения нейронной сети Апрель 2020 22 / 26
  23. Результаты Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на

    объекты с точки зрения нейронной сети Апрель 2020 23 / 26
  24. Результаты Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на

    объекты с точки зрения нейронной сети Апрель 2020 24 / 26
  25. Выводы Обученную сеть действительно можно использовать для измерения схожести входных

    данных. Декорреляция и неограниченная функция активации позволяют сохранять больше информации Можно использовать последний скрытый слой и учитывать больше семантики Сократили время векторизации Сократили время обучения Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 25 / 26
  26. Список литературы Benkovich N., Dedenok R., Golubev D. DeepQuarantine for

    Suspicious Mail //arXiv preprint arXiv:2001.04168. – 2020. Charpiat G. et al. Input Similarity from the Neural Network Perspective //Advances in Neural Information Processing Systems. – 2019. – С. 5343-5352. Blanchette J., Lagani` ere R. On Batch Orthogonalization Layers. Huang L. et al. Decorrelated batch normalization //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. – 2018. – С. 791-800. Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift //arXiv preprint arXiv:1502.03167. – 2015. Saxe A. M. et al. On the information bottleneck theory of deep learning //Journal of Statistical Mechanics: Theory and Experiment. – 2019. – Т. 2019. – №. 12. – С. 124020. Алан Савушкин Никита Бенкович ( Kaspersky ) Взгляд на объекты с точки зрения нейронной сети Апрель 2020 26 / 26