Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Как технология serverless при создании data science проектов может повысить утилизацию ресурсов

SECR 2018
October 13, 2018

Как технология serverless при создании data science проектов может повысить утилизацию ресурсов

SECR 2018
Игорь Хапов
Руководитель разработки средств виртуализации, Научно-технический центр, IBM

Докладчик опишет основные концепции технологии serverless, расскажет основные сценарии и свой опыт использования serverless для построения data science проектов. В докладе докладчик раскроет преимущества использования serverless технологии и за счет чего можно увеличить использование текущих ресурсов. Докладчик так же расскажет о своем опыте построения крупной аналитической платформы корпоративного уровня. Основное содержание доклада:
1) Описание технологии и приемнимости
2) Обзор существующих решений
3) Применимость на нашем рынке и примеры использования
4) Построение аналитических систем с использование FaaS
5) Ускорение Data Science аналитики с использованием GPU

SECR 2018

October 13, 2018
Tweet

More Decks by SECR 2018

Other Decks in Programming

Transcript

  1. Как технология serverless при создании data science проектов может повысить

    утилизацию ресурсов Игорь Хапов Владимир Алексеев IBM Software Engineering Conference Russia 2018 October 12-13 Moscow
  2. Содержание • мы вообще о чем • а что есть?

    • зачем нам это надо? • опыты: скрещиваем аналитику и FaaS • GPU + FaaS = смотрим в будущее
  3. Кто мы Владимир Алексеев #ibm #архитектор #работасклиентом #банкинг #всеновое #хочувсезнать

    Игорь Хапов #ibm #лаборатория #менеджер #разработчик #kubernetes #давайпортирую
  4. Что слышно с рынка • У нас spark-кластер на 50

    узлов. Уже на 100! Ой, а можно его оптимизировать? • Data Science помешательство – нужна единая среда работы • Мне бы jupyter, а еще Rstudio, да и TensorFlow не помешали бы, а кстати почему только TF..? • Сколько-сколько за GPU? Это грабеж! • А как этим управлять то теперь?
  5. Хорошо, вот вам Machine Learning Runtimes Deep Learning Runtimes Инструментарий

    Инструментарий инфраструктуры Decision OptimizationCognos Dashboards
  6. Контейнеры – ок, serverless – збс. Serverless architectures are application

    designs that incorporate third-party “Backend as a Service” (BaaS) services, and/or that include custom code run in managed, ephemeral containers on a “Functions as a Service” (FaaS) platform. https://martinfowler.com/articles/serverless.html
  7. Преимущества и недостатки использования serverless для data science проектов •

    Возможность использования одних и тех же экзекьюторов для разных приложений и пользователей • Возможность сохранения промежуточного результата удаленно • Использование встроенных scheduler-ов увеличивает latency запуска executors • Использование встроенных scheduler-ов для запуска заданий • Экзекьюторы взаимодействуют с scheduler для записи данных удаленно - +
  8. Быстренько про OpenWhisk Причины выбора: • возможность работы и в

    облаке, и on-premise • наличие интеграции с другими сервисами в рамках единой платформы (IBM Cloud) • Мы из IBM ;)
  9. «Проба пера» Cloudant trigger FakeNews detection Rule Actions Training Dataset

    Model Deploym ent End point Source probability Задача – определение фейковых новостей для медиа-портала