Введение в ML и BigData разработку

Введение в ML и BigData разработку

Transcript

  1. Введение в ML и BigData разработку.

  2. None
  3. Данные

  4. Сколько данных? 1) Несколько сотен записей или терабайты 2) Сколько

    полезной информации в данных? 3) Достаточно ли ноута или нужен кластер
  5. Где будем хранить? 1) Реляционная база данных (MySQL, SQLite, PostgreSQL,

    … ) 2) Нереляционная база данных aka NoSQL (Cassandra, HBase) 3) Может будет достаточно Pandas DataFrame? 4) Как их мы будем анализировать? Нужен ли online?
  6. Примеры данных 1) Изображения 2) Временные ряды 3) Текст 4)

    Графы
  7. Примеры задач 1) Нам нужно по фотографии определить марку машины

    2) Мы должны предсказать рыночную цену квартиры по адресу, числу комнат, общей площади, этажу 3) Нужно подобрать рекламу пользователю, чтобы оптимизировать вероятность клика
  8. Так что же такое данные?

  9. Шкалы

  10. None
  11. Типы данных

  12. Описание данных

  13. Визуализация https://habr.com/company/ods/blog/323210/

  14. https://habr.com/company/ods/blog/323210/

  15. Лямбда архитектура

  16. None
  17. None
  18. None
  19. MapReduce

  20. Спасибо!