. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ядерный трюк Есть объекты X, которые плохо разделимы линейной моделью. Переведём объекты X в пространство φ(X), где они хорошо разделяются линейной моделью. Для обучения линейной модели нужно уметь считать только функцию k ”ядро” [4]: k(z, x) = ⟨φ(z), φ(x)⟩ Винниченко М.Ю. Ядерные методы 2/29
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Связь с нейронными сетями Есть связь между широкими нейронными сетями и ядерными методами [3]. Обучение бесконечно широкой сети – это обучение ядерной модели с ядром NTK [2]: k(z, x) = Eθ⟨∇θ f(z, θ), ∇θ f(x, θ)⟩. Обучение нейросетевого гауссовского процесса – это обучение ядерной модели с ядром NNGP: k(z, x) = Eθ f(z, θ) · f(x, θ) Винниченко М.Ю. Ядерные методы 6/29
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Neural Kernels without Tangents Что делают? Предобработка данных с помощью ZCA. Вводят операции для расчёта ядер на многомерных массивов. Строят ядро, опираясь на архитектуру MyrtleCNN. Показывают, что их ядро лучше остальных ядер на CIFAR-10 Винниченко М.Ю. Ядерные методы 10/29
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Проблемы Плохо масштабируются на большие обучающие выборки. Пусть N – размер обучающей выборки, P – число пикселей в изображении, тогда: сложность вычисления ядра аналитически O(N2P2) сложность обращения ядра O(N3) Винниченко М.Ю. Ядерные методы 12/29
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Моё исследование: цели и задачи Цель: улучшить масштабируемость нейросетевых ядерных методов. Задачи: Научиться работать с необратимой матрицей ядра Избавиться от кубической сложности работы с матрицей ядра Построить приближение аналитического ядра Винниченко М.Ю. Ядерные методы 13/29
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Выводы Теория о нейросетевых гауссовских процессах из статьи Wide Neural Networks of Any Depth [3] применима на практике. Разработан метод машинного обучения с меньшей вычислительной сложностью. Приближение ядра превосходит аналитическое ядро на небольших обучающих выборках. Однако, приближение не даёт ту же точность на всём CIFAR-10 и нуждается в дальнейшей доработке. Винниченко М.Ю. Ядерные методы 28/29
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Список литературы I Jerome H Friedman. “Stochastic gradient boosting”. В: Computational statistics & data analysis 38.4 (2002), с. 367—378. Arthur Jacot, Franck Gabriel и Clément Hongler. “Neural tangent kernel: Convergence and generalization in neural networks”. В: Advances in neural information processing systems. 2018, с. 8571—8580. Jaehoon Lee и др. “Wide neural networks of any depth evolve as linear models under gradient descent”. В: Advances in neural information processing systems. 2019, с. 8570—8581. Craig Saunders, Alexander Gammerman и Volodya Vovk. “Ridge regression learning algorithm in dual variables”. В: (1998). Vaishaal Shankar и др. “Neural Kernels Without Tangents”. В: arXiv preprint arXiv:2003.02237 (2020). Винниченко М.Ю. Ядерные методы 29/29