Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Большие данные - лекция-1 - введение

3a855e4e8dd144b8942da2463831a067?s=47 Anton
February 13, 2019

Большие данные - лекция-1 - введение

Введение в курс Большие данные и машинное обучение

Обновлено: 03.02.2020

3a855e4e8dd144b8942da2463831a067?s=128

Anton

February 13, 2019
Tweet

Transcript

  1. 1 бит данных + действие = стрекательная клетка

  2. Врожденный опыт поколений: геном

  3. Жизненный опыт одной особи: условные рефлексы

  4. Передача опыта учитель → ученик

  5. Культура: язык, традиции, легенды

  6. Опыт цивилизации: книги и библиотеки

  7. Цифровая эпоха • Все знания мира — оцифровать и в

    интернет • 2014 год: Google обрабатывает 20 петабайт (1 петабайт = 1024 терабайт) информации в день [1] • Все письменные работы, созданные человечеством с начала известной истории, занимают ~50 петабайт [1]
  8. Цифровая эпоха (на самом деле) • Сколько там ценного внутри

    этих 20 ежедневных петабайт — большой вопрос • В одной библиотеке РГБ («Ленинка») ~18 млн книг [2] • Из них оцифровано около миллиона, план по программе оцифровки — 1 тыс книг в месяц [3] • Размер самой большой общедоступной цифровой библиотеки LibGen по состоянию на 2019 год — 2.3 млн научных книг, 2.2 млн художественных книг, 76 млн статей из научных журналов [4]
  9. Цифровая эпоха (на самом деле) • Всего в мире (по

    оценкам инженеров Гугл) около 130 млн книг • В рамках проекта Google Books было всего оцифровано 25 млн книг, на 2010 год в базе было доступно 15 млн, 1 млн — в общественном достоянии [5] • Проект Google Books заморожен (и даже если бы он не был заморожен, о общедоступности всей базы там речи не идет) • И это еще вполне неплохо, если сравнить с проблемой оцифровки исторических документальных архивов • Короче, до цифрового эльдорадо на ваш век еще хватит поработать
  10. Госфильмофонд + YouTube (весна 2019) [6]

  11. Поиск информации внутри книги • Содержание • Номера страниц •

    Примерное место по памяти • Прочитать все целиком
  12. Поиск книги внутри библиотеки • Библиографии и каталоги (по темам,

    названиям, авторам) • Картотека • Списки источников в других книгах • Совет учителя или библиотекаря
  13. Гугл, Яндекс, Википедия: полнотекстовый поиск по ВСЕМУ* *(что попало в

    поисковый индекс Гугла, Яндекса или Википедии)
  14. доцифровая эпоха: ГДЕ искать? КАК искать? (здесь имеется ввиду, что

    до данных нужно, вообще, как-то добраться буквально географически)
  15. цифровая эпоха: ЧТО искать? (здесь имеется ввиду, что все данные

    вроде под рукой, но их очень много, нужно заранее знать, что искать)
  16. Ваша ценность — умения • связывать и структурировать информацию, •

    составлять путевую карту обучения, • фильтровать информационный шум, • выделять ключевые события, • отличать факты от фейков, • ранжировать источники, • выстраивать внешне несвязанные события в логические цепочки • определять неочевидные закономерности среди огромных потоков информации
  17. Ваша ценность, как инженера • Проектировать системы, которые будут выполнять

    эти задачи автоматически
  18. Инструменты

  19. Хранение, обработка, структурирование, анализ электронных данных • Текстовые файлы •

    Электронные таблицы • Реляционные базы данных (SQL) • Нереляционные базы данных (NoSQL — Not Only SQL) • Большие данные (Big data)
  20. Семестр-1: SQL+NoSQL • Интересно, востребовано • Можно встретить интересные небанальные

    задачи для раскрытия инженерных талантов • Во много предсказуемо: больше конструирование и инженерное творчество, чем наука • Любой проект можно просчитать и сделать по ТЗ (техническому заданию)
  21. Семестр-2: Машинное обучение и Большие данные • Поиск полезных закономерностей

    в океанах информации (реф: «Области тьмы» с Брэдли Купером) • Предсказательный эффект приносит деньги • Во многом ближе к науке, чем к инженерии • Ценность имеет инженер (data scientist), владеющий техническими методами работы с массивами информации и целевой предметной областью одновременно
  22. Семестр-2: Машинное обучение и Большие данные • Нет датасета —

    нет проекта • ТЗ не поможет: в общем случае решения может вообще не быть • История Big Data неразрывно связана с ИИ (искусственный интеллект, artificial intelligence — AI) и машинным обучением (machine learning — ML) • Баззвордз: big data, data mining, data science, machine learning (ML), artificial intelligence (AI) • Слова для поиска: большие данные, добыча данных — датамайнинг, наука о данных, машинное обучение, искусственный интеллект
  23. Области применения • Мобильные операторы, банки, торговые площадки • Реклама,

    интернет-сервисы с большой аудиторией • Медицина • Спецслужбы, корпорации • … • Любой, кто может накопить и накопил достаточное количество данных
  24. Инструменты • Python + библиотеки: numpy, pandas, matplotlib, scikitlearn и

    т. п. • R — язык программирования • Scala + Apache Spark • … • В основном, конечно, Python • По форме: манипулирование таблицами (похоже на эксель, только без мышки)
  25. Основные этапы • Сырые данные → озеро данных (data lake)

    • Предварительная обработка: структурирование, чистка и т. п. • Визуализация, отбор признаков • Нормализация признаков (любое значение → [0, 1]) • Гипотеза, обучение на обучающей выборке, проверка на тестовой выборке, итеративно • Научная статья • Обученная модель → продакшен
  26. Планы на семестр • Работа с табличными данными: Pandas +

    Титаник • Визуализация данных с pandas и matplotlib • Работа с текстом: категории, мешок слов, tf-idf, предварительная обработка текста, работа с ЕЯ — естественными языками (NLP), NLTK • Регрессия, регрессионная модель — модель предсказания целевой переменной на непрерывной шкале. • Обучение без учителя (работа с немаркированными данными), кластеризация • Градиентный спуск, двоичная классификация, адаптивный линейный нейрон • Логистическая регрессия: градиентный спуск с сигмоидой • Обучение нейронной сети: обратное распространение ошибки, дифференцирование сложной функции
  27. Ресурсы • archive.ics.uci.edu/ml/ — наборы данных • kaggle.com — соревнования

    плюс наборы данных • Хабра — разрозненные статьи • Книги по ключевым словам: большие данные, машинное обучение, Python и большие данные, Python и машинное обучение и т. п. • Курсы ML: Google, Microsoft, ... • coursera.com, stanford.edu, universarium.ru (в т.ч. есть курсы от МФТИ и ВШЭ) • «Открытые данные» • ...
  28. Книги на русском • Себастьян Рашка, «Python и машинное обучение»

    • С. Николенко, А. Кадурин, Е. Архангельская, «Глубокое обучение. Погружение в мир нейронных сетей» • Я. Гудфеллоу, И. Бенджио, А. Курвилль, «Глубокое обучение» • Тарик Рашид, «Создаем нейронную сеть» • Джош Паттерсон, Адам Гибсон, «Глубокое обучение с точки зрения практика» • ...
  29. Кулстори-1 • Союзникам было важно понять, сколько Германия делает танков

    в месяц. Задачу поставили перед математиками и перед разведчиками. • Разведка вела наблюдение с воздуха, засылала шпионов и сказала свою цифру. • Математики просто предложили посчитать серийные номера подбитых танков. Если предположить, что танки подбиваются в случайном порядке, отсюда будет понятно и общее их число, и величина пополнения. Посчитали. Назвали цифру – 245 танков в месяц. После войны истинную цифру узнали уже в Германии, математики ошиблись всего на несколько штук. Я не помню цифру разведчиков, но они ошиблись в несколько раз. metasilaev.livejournal.com/139651.html
  30. Кулстори-2 • В каком-то университете психологи изучали крепость брака. Пытались

    прогнозировать, разведется ли пара и когда. Одна группа пошла по сложному пути. Придумали длинный опросник, вела долгие задушевные интервью. На их основе давали прогноз. • Психолог, склонный к математике, поступил проще. Он просил у пары сказать только две цифры. Как часто вы ругаетесь и как часто занимаетесь сексом. Прогнозы, данные из этих двух цифр, оказались точнее. Это к вопросу, может ли информация оказаться лишней… metasilaev.livejournal.com/139651.html
  31. None
  32. Внутри отборная математика

  33. None
  34. None
  35. Ссылки • [1] The Data Explosion in 2014 Minute by

    Minute – Infographic, Susan Gunelius, July 12, 2014, http://aci.info/2014/07/12/the-data-explosion-in- 2014-minute-by-minute-infographic/ • [2] TODO • [3] TODO • [4] https://en.wikipedia.org/wiki/Library_Genesis • [5] TODO • [6] Михаил Лизурчик, научрук Антон Моисеев, НИР «Кинематографическое наследие СССР в современном информационном пространстве», весна 2019