Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Большие данные - лекция-1 - введение

Anton
February 13, 2019

Большие данные - лекция-1 - введение

Введение в курс Большие данные и машинное обучение

Обновлено: 03.02.2020

Anton

February 13, 2019
Tweet

More Decks by Anton

Other Decks in Education

Transcript

  1. Цифровая эпоха • Все знания мира — оцифровать и в

    интернет • 2014 год: Google обрабатывает 20 петабайт (1 петабайт = 1024 терабайт) информации в день [1] • Все письменные работы, созданные человечеством с начала известной истории, занимают ~50 петабайт [1]
  2. Цифровая эпоха (на самом деле) • Сколько там ценного внутри

    этих 20 ежедневных петабайт — большой вопрос • В одной библиотеке РГБ («Ленинка») ~18 млн книг [2] • Из них оцифровано около миллиона, план по программе оцифровки — 1 тыс книг в месяц [3] • Размер самой большой общедоступной цифровой библиотеки LibGen по состоянию на 2019 год — 2.3 млн научных книг, 2.2 млн художественных книг, 76 млн статей из научных журналов [4]
  3. Цифровая эпоха (на самом деле) • Всего в мире (по

    оценкам инженеров Гугл) около 130 млн книг • В рамках проекта Google Books было всего оцифровано 25 млн книг, на 2010 год в базе было доступно 15 млн, 1 млн — в общественном достоянии [5] • Проект Google Books заморожен (и даже если бы он не был заморожен, о общедоступности всей базы там речи не идет) • И это еще вполне неплохо, если сравнить с проблемой оцифровки исторических документальных архивов • Короче, до цифрового эльдорадо на ваш век еще хватит поработать
  4. Поиск информации внутри книги • Содержание • Номера страниц •

    Примерное место по памяти • Прочитать все целиком
  5. Поиск книги внутри библиотеки • Библиографии и каталоги (по темам,

    названиям, авторам) • Картотека • Списки источников в других книгах • Совет учителя или библиотекаря
  6. Гугл, Яндекс, Википедия: полнотекстовый поиск по ВСЕМУ* *(что попало в

    поисковый индекс Гугла, Яндекса или Википедии)
  7. доцифровая эпоха: ГДЕ искать? КАК искать? (здесь имеется ввиду, что

    до данных нужно, вообще, как-то добраться буквально географически)
  8. цифровая эпоха: ЧТО искать? (здесь имеется ввиду, что все данные

    вроде под рукой, но их очень много, нужно заранее знать, что искать)
  9. Ваша ценность — умения • связывать и структурировать информацию, •

    составлять путевую карту обучения, • фильтровать информационный шум, • выделять ключевые события, • отличать факты от фейков, • ранжировать источники, • выстраивать внешне несвязанные события в логические цепочки • определять неочевидные закономерности среди огромных потоков информации
  10. Хранение, обработка, структурирование, анализ электронных данных • Текстовые файлы •

    Электронные таблицы • Реляционные базы данных (SQL) • Нереляционные базы данных (NoSQL — Not Only SQL) • Большие данные (Big data)
  11. Семестр-1: SQL+NoSQL • Интересно, востребовано • Можно встретить интересные небанальные

    задачи для раскрытия инженерных талантов • Во много предсказуемо: больше конструирование и инженерное творчество, чем наука • Любой проект можно просчитать и сделать по ТЗ (техническому заданию)
  12. Семестр-2: Машинное обучение и Большие данные • Поиск полезных закономерностей

    в океанах информации (реф: «Области тьмы» с Брэдли Купером) • Предсказательный эффект приносит деньги • Во многом ближе к науке, чем к инженерии • Ценность имеет инженер (data scientist), владеющий техническими методами работы с массивами информации и целевой предметной областью одновременно
  13. Семестр-2: Машинное обучение и Большие данные • Нет датасета —

    нет проекта • ТЗ не поможет: в общем случае решения может вообще не быть • История Big Data неразрывно связана с ИИ (искусственный интеллект, artificial intelligence — AI) и машинным обучением (machine learning — ML) • Баззвордз: big data, data mining, data science, machine learning (ML), artificial intelligence (AI) • Слова для поиска: большие данные, добыча данных — датамайнинг, наука о данных, машинное обучение, искусственный интеллект
  14. Области применения • Мобильные операторы, банки, торговые площадки • Реклама,

    интернет-сервисы с большой аудиторией • Медицина • Спецслужбы, корпорации • … • Любой, кто может накопить и накопил достаточное количество данных
  15. Инструменты • Python + библиотеки: numpy, pandas, matplotlib, scikitlearn и

    т. п. • R — язык программирования • Scala + Apache Spark • … • В основном, конечно, Python • По форме: манипулирование таблицами (похоже на эксель, только без мышки)
  16. Основные этапы • Сырые данные → озеро данных (data lake)

    • Предварительная обработка: структурирование, чистка и т. п. • Визуализация, отбор признаков • Нормализация признаков (любое значение → [0, 1]) • Гипотеза, обучение на обучающей выборке, проверка на тестовой выборке, итеративно • Научная статья • Обученная модель → продакшен
  17. Планы на семестр • Работа с табличными данными: Pandas +

    Титаник • Визуализация данных с pandas и matplotlib • Работа с текстом: категории, мешок слов, tf-idf, предварительная обработка текста, работа с ЕЯ — естественными языками (NLP), NLTK • Регрессия, регрессионная модель — модель предсказания целевой переменной на непрерывной шкале. • Обучение без учителя (работа с немаркированными данными), кластеризация • Градиентный спуск, двоичная классификация, адаптивный линейный нейрон • Логистическая регрессия: градиентный спуск с сигмоидой • Обучение нейронной сети: обратное распространение ошибки, дифференцирование сложной функции
  18. Ресурсы • archive.ics.uci.edu/ml/ — наборы данных • kaggle.com — соревнования

    плюс наборы данных • Хабра — разрозненные статьи • Книги по ключевым словам: большие данные, машинное обучение, Python и большие данные, Python и машинное обучение и т. п. • Курсы ML: Google, Microsoft, ... • coursera.com, stanford.edu, universarium.ru (в т.ч. есть курсы от МФТИ и ВШЭ) • «Открытые данные» • ...
  19. Книги на русском • Себастьян Рашка, «Python и машинное обучение»

    • С. Николенко, А. Кадурин, Е. Архангельская, «Глубокое обучение. Погружение в мир нейронных сетей» • Я. Гудфеллоу, И. Бенджио, А. Курвилль, «Глубокое обучение» • Тарик Рашид, «Создаем нейронную сеть» • Джош Паттерсон, Адам Гибсон, «Глубокое обучение с точки зрения практика» • ...
  20. Кулстори-1 • Союзникам было важно понять, сколько Германия делает танков

    в месяц. Задачу поставили перед математиками и перед разведчиками. • Разведка вела наблюдение с воздуха, засылала шпионов и сказала свою цифру. • Математики просто предложили посчитать серийные номера подбитых танков. Если предположить, что танки подбиваются в случайном порядке, отсюда будет понятно и общее их число, и величина пополнения. Посчитали. Назвали цифру – 245 танков в месяц. После войны истинную цифру узнали уже в Германии, математики ошиблись всего на несколько штук. Я не помню цифру разведчиков, но они ошиблись в несколько раз. metasilaev.livejournal.com/139651.html
  21. Кулстори-2 • В каком-то университете психологи изучали крепость брака. Пытались

    прогнозировать, разведется ли пара и когда. Одна группа пошла по сложному пути. Придумали длинный опросник, вела долгие задушевные интервью. На их основе давали прогноз. • Психолог, склонный к математике, поступил проще. Он просил у пары сказать только две цифры. Как часто вы ругаетесь и как часто занимаетесь сексом. Прогнозы, данные из этих двух цифр, оказались точнее. Это к вопросу, может ли информация оказаться лишней… metasilaev.livejournal.com/139651.html
  22. Ссылки • [1] The Data Explosion in 2014 Minute by

    Minute – Infographic, Susan Gunelius, July 12, 2014, http://aci.info/2014/07/12/the-data-explosion-in- 2014-minute-by-minute-infographic/ • [2] TODO • [3] TODO • [4] https://en.wikipedia.org/wiki/Library_Genesis • [5] TODO • [6] Михаил Лизурчик, научрук Антон Моисеев, НИР «Кинематографическое наследие СССР в современном информационном пространстве», весна 2019