Machine Learning for iOS

Машинное обучение для iOS Александр Сосновщенко  14.11.2015

Машинное обучение это … • когда непонятно, как написать алгоритм,
но есть много/достаточно данных. • автоматическое создание программы из данных. • другие формулировки: открытие закона природы, создание мат. модели, оптимизация функции… 2

Где применяется Здоровье Компьютерное зрение Распознавание речи Общение с людьми
http://thenextweb.com/wp-content/blogs.dir/1/ﬁles/2015/02/Screen- Shot-2015-02-09-at-2.22.45-PM.png http://www.wiseyak.com/wp-content/uploads/2015/06/internet-of-things-for-health-art.png http://s.appleinsider.ru/2015/04/siri.jpg

Виды машинного обучения 4 • С учителем (Supervised Learning): классификация,
регрессия • Без учителя (Unsupervised Learning): кластеризация • С подкреплением (Reinforcement Learning): поиск стратегии http://totallydogtraining.com/wp-content/uploads/2013/09/ positive-reinforcement.jpg http:// www.interiorcommunityservices.bc.ca/ clients/25/assets/320/Supervised %20Access.bmp https://cutelypoisoned.ﬁles.wordpress.com/2011/08/ bad-kid-ﬁre.jpg

Классификация 1. Обучение 2. Классификация ML ML

Кластеризация ML

Практические примеры 7

Новый стартап в сфере wearables ремешки-ошейники для Apple Watch http://www.justawatch.com/these-cats-have-the-apple-watch-even-if-you-dont/
8

Задача 1 По данным гироскопа и акселерометра определить тип физической
активности пользователя (например: стоит, идет, бежит, трясет телефон, прыгает, поднимается по ступенькам, спускается по ступенькам и т.д.). 9

Данные Сигнал с акселерометра и гироскопа. Фиксированный набор типов активности
с привязкой ко времени. Вход алгоритма: Два трехмерных временных ряда фиксированной длинны. Выход алгоритма: Тип активности в каждый из этих отрезков времени. 10

Выделение признаков из временного ряда 1. Делим временной ряд на
отрезки одинаковой длинны. 2. Для каждого отрезка считаем магнитуду колебаний (3D →1D). 3. Считаем среднее, среднеквадратическое отклонение, максимум, минимум, медиану, спектр Фурье ... 4. На полученных признаках обучаем классификатор. 11 1 2 3 4

Дерево решений 12

Дерево решений http://habrahabr.ru/post/215453/

Дерево решений • Точность ок. 50% 14

Random Forest • Случайный лес - это ансамбль деревьев решений,
построенных на случайных подпространствах признаков. • Конечный результат определяется методом усреднения. 15 http://www.rai77.ru/images/smilies/zmeia.jpg https://en.wikipedia.org/wiki/Bootstrap_aggregating

Случайный лес • Точность ок. 75% 16

17 Недо- и переобучение http://www.researchgate.net/post/How_to_Avoid_Overﬁtting

Попытка №2: kNN + DTW • Данные для обучения: Короткие
временные ряды и метки типов активностей к ним. • Обучаем kNN, используя DTW как функцию расстояния. • Точность ок. 90% 18 nbviewer.ipython.org/github/markdregan/K-Nearest-Neighbors-with-Dynamic-Time-Warping/blob/master/K_Nearest_Neighbor_Dynamic_Time_Warping.ipynb

Метрики точности 19 nbviewer.ipython.org/github/markdregan/K-Nearest-Neighbors-with-Dynamic-Time-Warping/blob/master/K_Nearest_Neighbor_Dynamic_Time_Warping.ipynb

Задача 2 20 Написать чат-бота для игры в ассоциации. •
Вход алгоритма: Слово. • Выход алгоритма: Слова близкие по смыслу и степень близости. http://sociation.org/static/img/associations.png

Модель: Word2Vec • Корпус текстов -> векторное пространство. • Вектор
= слово или понятие • cos = семантическая близость слов (или степень их смысловой непохожести). 21 http://www.programering.com/a/MTNxIzMwATk.html

Интересные свойства языковых векторных пространств • Iraq - Violence =
Jordan • Human - Animal = Ethics • President - Power = Prime Minister • Library - Books = Hall • Rome - Italy = Beijing - China • king - queen = man - woman http://deeplearning4j.org/word2vec.html

Word2Vec http://deeplearning4j.org/word2vec.html 23

Проблемы 1. Хороший корпус 2. Словоформы русского 3. Омонимы 4.
Скорость обучения 5. Память Решения 1. … 2. … 3. Word2Phrase 4. Обучать на компьютере 5. Отсечь редкие слова

Будущее здесь: Deep Learning 25

[4] Visual-Semantic Embeddings 26

Deep Dream

https://github.com/jcjohnson/neural-style

Deep Learning • Библиотеки, “совместимые” с iOS: • Torch, Caffe,
TensorFlow, ConvNetJS • Ускорение на видеокартах Nvidia CUDA. • Big Data. • Model Zoo: • Torch • Caffe 30 http://devblogs.nvidia.com/parallelforall/wp-content/uploads/sites/3/2014/09/nn_example-624x218.png

Цикл разработки 1. Подготовительный этап. 2. Создание прототипа. 3. "Полевые
испытания". 4. Портирование под мобильную платформу. 31

1. Подготовительный этап 0. Если можете не использовать машинное обучение
- не используйте его. 1. Поищите готовое решение, работающее на устройстве. 2. Поищите готовое решение, работающее на сервере. 3. Если 0..2 не устраивают, нужно писать свое решение. 4. Обзор публикаций. 5. Поиск или создание обучающего набора данных. 32

2. Создание прототипа 0. TDD. 1. Начните с простых классических
моделей. Часто простые модели работают лучше сложных. 2. Обучающая, тестовая и проверочная выборки. Переобучение. Data augmentation. Метрики. 4. Прототипирование: R, Python (SciPy, scikit-learn), Matlab. 5. Если точность сразу > 90%, вы точно что-то делаете неправильно. 6. Ансамбли моделей могут работать лучше, чем каждая из моделей по-отдельности. Однако, чем сложнее модель, тем она более ресурсоемка. 33

3. "Полевые испытания" 1. Протестируйте работу вашей модели в максимально
разнообразных условиях. 2. Бенчмарки. 34

4. Портирование прототипа под мобильную платформу 1. Ускорение работы: •
C/C++ • GPGPU (CUDA, OpenGL ES, Render Script, OpenCL, Metal). 2. Используйте готовые библиотеки с большим сообществом (OpenCV, Shark, … ). 35

Спасибо за внимание. Вопросы?

Если вы решили освоить машинное обучение • Python, R, Matlab/Octave,
C++, Java/Scala, Lua. • Статистика, теорвер, линейная алгебра, ЦОС. • alexsosn.github.io: Список библиотек и API. • Курсы: ШАД “Машинное обучение”, ВШЭ “Эконометрика”, MIT: The Analytics Edge. 37

Книги • Программируем коллективный разум. Тоби Сегаран • Machine Learning:
An Algorithmic Perspective. Stephen Marsland • Наглядная статистика. Используем R!

Machine Learning for iOS

Machine Learning for iOS

Other Decks in Programming

Featured

Transcript