Big Data: миф или информационная революция?

37db8786289a842faf670d629ff9c6e9?s=47 CUSTIS
October 09, 2014

Big Data: миф или информационная революция?

Открытый семинар для студентов в компании CUSTIS (9 октября 2014 года).
Лектор: Дмитрий Морозов, ведущий системный инженер.

37db8786289a842faf670d629ff9c6e9?s=128

CUSTIS

October 09, 2014
Tweet

Transcript

  1. 9 октября 2014 года Big Data: миф или информационная революция?

    Дмитрий Морозов Ведущий системный инженер
  2. О себе  В CUSTIS с 2007 года  Образование:

    СУНЦ МГУ, МФТИ, к. ф.-м. н.  Специализация: виртуализация, облачные технологии, Big Data  Сертифицированный специалист Microsoft, Veeam 2/37
  3. Почему я работаю в CUSTIS  Нравится принимать решения и

    нести ответственность за них в проектах  Нравится искать решения проблем, а не работать по шаблонам  Нравится человеческий подход к сотрудникам (удобный офис, командировки, обучение, конференции)  Нравятся люди, с которыми интересно работать… и не только работать 3/37
  4. Почему я работаю в CUSTIS  Нравится принимать решения и

    нести ответственность за них в проектах  Нравится искать решения проблем, а не работать по шаблонам  Нравится человеческий подход к сотрудникам (удобный офис, командировки, обучение, конференции)  Нравятся люди, с которыми интересно работать… и не только работать 4/37
  5. Brazil 2014 5/37

  6. 6/37

  7. «Традиционный тренер» Стандартные инструменты футбольного тренера 7/37

  8. SAP Football Match Insights Инструмент тренера чемпионов мира – 2014

    8/37
  9. План  Big Data – новый способ мышления?  Практическая

    реализация технологий больших данных  Примеры «из жизни» 9/37
  10. Big Data – новый способ мышления? 10/37

  11. Предпосылки появления  Развитие средств хранения и обработки информации 

    Откуда берутся «большие данные»? 11/37
  12. Что такое Big Data  Volume  Variety  Velocity

    12/37
  13. Новый образ мышления  Способность анализировать все данные  Работа

    с неупорядоченными данными  Отказ от причинности 13/37
  14. Обработка всех данных Иногда требуется обработать всю имеющуюся информацию 14/37

  15. Big Data помогает найти мужа! Лекция TED 15/37

  16. Работа с неупорядоченными данными Только 5–10% информации в мире упорядочены

    16/37
  17. Скорость обработки данных Информация устаревает прежде, чем ее успевают обработать

    17/37
  18. Пример: Билайн и продажа смартфонов Билайн рекламирует смартфоны тем, кто

    уже готов их купить 18/37
  19. Корреляция Причины? Не нужны! Big Data позволяет выявлять и даже

    прогнозировать явления еще до понимания их причин 19/37
  20. Пример: прогноз объема денежной массы в банкоматах С помощью больших

    данных банки прогнозируют время и объем пополнения банкоматов 20/37
  21. Пример: Amazon и таргетированные рекомендации Существенной долей успеха Amazon обязан

    персональным рекомендациям 21/37
  22. Пример: Big Data вместо анализов Страховая компания Aviva использует данные,

    полученные с помощью Big Data, вместо медицинских анализов 22/37
  23. Как оценить стоимость данных? Капитализация Facebook при IPO – $

    110 млрд, а бухгалтерская стоимость – $ 6 млрд 23/37
  24. Технологии работы с Big Data 24/37

  25. MapReduce 25/37

  26. Выполнение MapReduce 26/37

  27. Реализации MapReduce  Сотни и тысячи узлов  ОС Linux

     Стандартное сетевое оборудование 1 Гбит/с  Дешевые локальные диски  Распределенная файловая система Дешево, масштабируемо… 27/37
  28. Отказоустойчивость в MapReduce …и отказоустойчиво 28/37

  29. HDFS 29/37

  30. Hadoop  Hadoop MapReduce  HDFS  Hadoop Common 

    YARN Самая массовая экосистема для работы с Big Data 30/37
  31. Экосистема Hadoop  Ambari  Avro  Cassandra  Chukwa

     HBase  Hive  Mahout  Pig  Spark  Tez  ZooKeeper  Sqoop  Flume  Oozie  Cascading  Cascalog …и это еще не все  31/37
  32. Экосистема Hadoop 32/37

  33. Как установить Hadoop? На «Хабре» есть подробная инструкция С Cloudera

    Hadoop это просто! 33/37
  34. Big Data – это не только Hadoop! 34/37

  35. Аппаратные решения  АПК:  Teradata Aster MapReduce appliance 

    Oracle Big Data appliance  EMC Greenplum  In-memory АПК:  SAP HANA  Oracle Exalytics И не забываем про облака! 35/37
  36. Миф или информационная революция? Эволюция! 36/37

  37. Сессия вопросов и ответов Дмитрий Морозов morozov@custis.ru 37/37