Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Александр Сербул - Нейросети и инверсный индекс для чатботов

gdg_rnd
September 17, 2017

Александр Сербул - Нейросети и инверсный индекс для чатботов

Много говорят об AI, нейронных сетях, больших данных, машинном обучении. Но мало кто знает, что в реальности их очень сложно эффективно применить на практике для решения прикладных задач. Алгоритмы красивы... но, часто, мертвы. В докладе мы расскажем о собственном опыте прикладного применения нейросетей и машинного обучения для чатботов и техподдержки в кейсах, которые принесли реальную пользу и оказались востребованными

GDG South DevFest 2017

gdg_rnd

September 17, 2017
Tweet

More Decks by gdg_rnd

Other Decks in Programming

Transcript

  1. Карл… Карл, я специалист по BigData…. Это очень круто, пап!

    Но для создания нейронок нужно очень хорошо знать и любить математику. Со школы, всем сердцем и душой ☺
  2. темы доклада •Закончил технический лицей при ДГТУ •Закончил ДГТУ в

    1998 •Кодил, кодил, кодил… •Закончил смотреть сериал «Молодой Папа» вчера Кратко о себе
  3. темы доклада Бигдата и нейронки – созданы друг для друга

    •Машины опорных векторов •Факторизация слоев •Нелинейность
  4. темы доклада Подтянулись GPU и железо •Универсальные GPU •CUDA •Работа

    с тензорами •Диски, кластера: Spark, Hadoop/HDFS, Amazon s3 •Языки: Scala
  5. темы доклада Вендоры скупают ученых Facebook (Yann LeCun) Baidu (Andrew

    Ng, уже правда уходит, достали тупить ☺ ) Google (Ian Goodfellow) SalesForce (Richard Socher) openai.com …
  6. темы доклада Как работает нейронка? Все просто – почти как

    наш мозг ☺ Вспомните школьные годы – и все станет понятно
  7. темы доклада Рассмотрим кусочек нейронки - нейрон • Линейная регрессия

    • Логистическая регрессия • Сигмоид • Здравствуй, линейная алгебра! Чмоки чмоки
  8. темы доклада Вектор, косинус угла между векторами • Вектор –

    «точка» в N- мерном пространстве. Размер вектора. • Косинус угла между векторами
  9. темы доклада Уравнение плоскости через точку и нормаль • Плоскость:

    косинус угла между нормалью и MP = 0 • Если угол меньше 90, косинус >0, иначе – косинус <0.
  10. темы доклада Возможности нейросетей Наши эксперименты: Ф.М. Достоевский, "Преступление и

    наказание“ Число слоев сети: 2 Число нейронов в каждом слое: 400 Коэффициент встряхивания "мозгов" (dropout): чуть больше единицы Память сети: 50 символов назад Число параметров, которые мы учим - меньше миллиона.
  11. темы доклада Возможности нейросетей Наши эксперименты: Л.Н. Толстой, "Война и

    мир" Число слоев сети: 3 Число нейронов в каждом слое: 400 Коэффициент встряхивания "мозгов" (dropout): чуть больше единицы Память сети: 150 символов назад Число параметров, которые мы учим - несколько миллионов
  12. темы доклада Возможности нейросетей Наши эксперименты: Код ядра Битрикс 3-х

    слойная сеть, размер слоя: 400 нейронов, несколько миллионов параметров, память: 150 символов назад, обучение - ночь
  13. темы доклада 1D свертка для классификации текстов •Глубокий аналог ngrams,

    очень быстрое обучение на GPU •Word/char-based 1D convolution •Пилотная сеть для техподдержки в Битрикс. Увеличение качества на 30%.
  14. темы доклада Чатботы – технологии «попроще» •Регулярные выражения •Примитивные «движки»

    с правилами •Заполнение цепочки форм •Вычленение фактов из теста и выполнение действий •api.ai – простой движок на веб-хуках
  15. темы доклада Чатботы – фреймворки, элементы paraphraser.ru Google Cloud Natural

    Language API Анализ тональности текста (ML) Анализ тональности упоминаний (ML) Вычленение ряда фактов (личности, места, и т.п.)
  16. темы доклада Чатботы –элементы Морфологический словарь? Словарь синонимов? Семантический граф?

    Гипонимы/гиперонимы Устранение неоднозначностей… Национальный корпус русского языка…
  17. темы доклада Чатботы – подводные камни Нужна платформа (окошки, кнопочки,

    API) Нужно писать много правил Отдельные правила для каждого языка Нужно много данных для обучения нейросетей
  18. темы доклада Чатботы – кейсы применения Узкая специализация: пиццерия, магазин,

    справка (ИНН), база знаний, распознавание изображений Сбор фактов и выполнение действия (заказ пиццы, билета) «Точечное» машинное обучение: анализ тональности, классификация, вычленение фактов
  19. темы доклада Чатботы – кейсы на Битрикс24 Можно использовать в

    открытых линиях в >100к компаний Битрикс24 Можно использовать в CRM Можно использовать в мессенджере Современная, удобная платформа для интеграции
  20. темы доклада Бот плафторма Битрикс24 Можно писать на любом языке

    Неплохая документация с примерами Есть заготовка на PHP Веб-хуки
  21. темы доклада «Открытые линии» •У вас есть какой-нибудь интернет- магазин

    •Нужно скоммуницировать экспертов интернет-магазина с покупателями из разных каналов… •Люди начинают задавать вопросы… •Ваши сотрудники начинают им отвечать…
  22. темы доклада Суть архитектуры на пальцах… •3 (N)-граммы, tfidf •Сжатие

    размерности (нелинейное) •Метрика похожести какая «НИТЬ», например скалярное произведение векторов: arxiv (1508.01585v2)
  23. темы доклада Метрики похожести, страшные и ужасные… •Многое зависит от

    ваших данных •Их объема, структуры •Фазы Луны •Года по китайскому календарю •Дня и месяца рождения руководителя проекта!