Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Большие данные и машинне обучение (v2) - лекция...

Anton
December 10, 2024

Большие данные и машинне обучение (v2) - лекция-1: введение

Лекция курса "Большие данные и машинное обучение" (v2.0-МОТ)
Лекция-1: введение (предсказания на основе данных)
- Немного истории
- От опыта особи к опыту цивилизации
- Библиотеки
- Инструменты хранения и поиска информации в доцифровую (аналоговую) эпоху
- Инструменты хранения и поиска информации в цифровую эпоху
- Ценность специалиста по работе с данными в цифровую эпоху
- Поиск полезных закономерностей в океанах информации
- Предсказание будущего на основе знания о прошлом
- Логика скрытая внутри массива данных
- Формы предсказательных моделей
- Проект в области больших данных и ML vs классический проект в области разработки ПО
- Важность данных
- Инструменты
- Этапы разработки проекта в области ML
- Где брать данные
- Виды продуктов: обработанный датасет, аналитика без предсказания, предсказательная модель

Большие данные и машинное обучение, лекция-1: правильный настрой, введение в предмет
https://www.youtube.com/watch?v=TYvrZA9ozDM

Anton

December 10, 2024
Tweet

More Decks by Anton

Other Decks in Education

Transcript

  1. Внешний мир → информация о внешнем мире→ анализ на основе

    знания → действие Информация о внешнем мире: никого нет (0), что-то проплыло рядом (1) Знание о внешнем мире: если что-то проплыло рядом, скорее всего это можно съесть
  2. Сиюминутная информация о внешнем мире поступает непосредственно через органы чувств,

    механизм анализа и выбор стратегии действия «прописаны» в форме безусловных рефлексов (и то и другое прошито в ДНК) (можно сказать, что в ДНК представлено знание об окружающем мире, переработанное опытом поколений: какие нужны органы чувств, какие нужны актуаторы, каким образом включать те или иные актуаторы в зависимости от того, что поступает через органы чувств)
  3. «Это можно съесть?» • днк, гидра: если проплыло рядом, это

    можно съесть • днк, особи посложнее: если проплыло рядом и уместится в рот, это можно съесть • условный рефлекс: я это как-то раз попробовал пару лет назад, на вкус норм, я живой, можно есть • знание из книги: можно ли есть бледные поганки (волчьи ягоды)? ... а откуда вы знаете, сами пробовали?
  4. Знания в книгах • В той или иной форме всё

    так же содержат информацию об окружающей действительности (в т. ч. в художественной форме) • Могут содержать описания стратегий поведения в тех или иных внешних обстоятельствах (в том числе неудачные: неудачный опыт — тоже опыт) • Т.е. содержат знания: информация о внешнем мире + что с этой информацией делать
  5. Знания в книгах • Знание о мире больше не в

    ДНК (не только в ДНК) и не ограничено опытом единственной особи • При этом схема: «внешний мир → информация → представление и анализ → действие» всё так же работает • Человек всё так же ищет оптимальную стратегию существования в материальном мире, опираясь на опыт
  6. Знания в книгах • Наиболее полное знание о мире даёт

    осознанный контроль над обстоятельствами, является основой свободного поведения • В настоящий момент развитие общества невозможно без механизмов накопления и передачи знаний посредством внешних носителей (т. е. в книгах — в расширенном смысле) • (Однако, идея становится материальной силой, т. е. позволяет создать блага, улучшить положение людей в обществе, только в том случае, если она загружена в головы достаточно большого количества людей)
  7. Цифровая эпоха • Все знания мира — оцифровать и в

    интернет • 2014 год: Google обрабатывает 20 петабайт (1 петабайт = 1024 терабайт) информации в день [1] • Все письменные работы, созданные человечеством с начала известной истории, занимают ~50 петабайт [1] [1] The Data Explosion in 2014 Minute by Minute – Infographic, Susan Gunelius, July 12, 2014, aci.info/2014/07/12/the-data- explosion-in-2014-minute-by-minute-infographic/
  8. Цифровая эпоха (на самом деле) • Сколько там ценного внутри

    этих 20 ежедневных петабайт — большой вопрос • В одной библиотеке РГБ («Ленинка») ~18 млн книг • Из них оцифровано около миллиона, план по программе оцифровки — 1 тыс книг в месяц • Размер самой большой общедоступной цифровой библиотеки LibGen по состоянию на 2019 год — 2.3 млн научных книг, 2.2 млн художественных книг, 76 млн статей из научных журналов en.wikipedia.org/wiki/Library_Genesis
  9. Цифровая эпоха (на самом деле) • Всего в мире (по

    оценкам инженеров Гугл) около 130 млн книг • В рамках проекта Google Books было всего оцифровано 25 млн книг, на 2010 год в базе было доступно 15 млн, 1 млн — в общественном достоянии • Проект Google Books заморожен (и даже если бы он не был заморожен, о общедоступности всей базы там речи не идет) • И это еще вполне неплохо, если сравнить с проблемой оцифровки исторических документальных архивов • Короче, до цифрового эльдорадо на ваш век еще хватит поработать
  10. Поиск информации внутри книги • Содержание • Номера страниц •

    Алфавитный указатель • Примерное место по памяти • Прочитать все целиком
  11. Поиск книги внутри библиотеки • Библиографии и каталоги (по темам,

    названиям, авторам) • Картотека • Списки источников в других книгах • Совет учителя или библиотекаря
  12. Гугл, Яндекс, Википедия: полнотекстовый поиск по ВСЕМУ* *(что попало в

    поисковый индекс Гугла, Яндекса или Википедии)
  13. Хранение, обработка, структурирование, анализ электронных данных • Текстовые файлы •

    Электронные таблицы • Реляционные базы данных (SQL) • Нереляционные базы данных (NoSQL — Not Only SQL) • Большие данные (Big data)
  14. Семестр-1: SQL+NoSQL • Интересно, востребовано • Можно встретить интересные небанальные

    задачи для раскрытия инженерных талантов • Во многом предсказуемо: больше конструирование и инженерное творчество, чем наука • Любой проект можно просчитать и сделать по ТЗ (техническому заданию)
  15. доцифровая эпоха: ГДЕ искать? КАК искать? (здесь имеется в виду,

    что до данных нужно, вообще, как-то добраться буквально географически)
  16. Библиотеки — центры цивилизаций • Чтобы получить знания, к ним

    нужно переместиться физически (возможно, в другую часть мира) • Организация библиотеки (здание, полки, картотеки и т. п.) — ресурсы • Поиск информации внутри библиотеки — не совсем тривиальная задача реф (иллюстрации): • «Ученик Авиценны» («The Physician», «Лекарь»), 2013 • «Агора» (Александрийская библиотека), 2009
  17. цифровая эпоха: ЧТО искать? (здесь имеется в виду, что все

    данные вроде под рукой, но их очень много, нужно заранее знать, что искать)
  18. Есть интернет • За данными не обязательно ехать на другую

    часть света, фактор географии уходит на второй план* • Старые данные оцифровываются • Новые данные появляются сразу в цифровом виде • Данных много • Накапливается еще больше • С ними как-то нужно уметь работать** * на деле не всё так радужно, но сейчас не об этом ** собственно, как и раньше, просто большие и растущие объемы требуют новые рабочие головы (и руки)
  19. Ваша ценность — умения • связывать и структурировать информацию, •

    составлять путевую карту обучения (выбирать первоисточники, документы, гениальные, а не просто хорошие книги), • фильтровать информационный шум, • выделять ключевые события, • отличать факты от фейков, • ранжировать источники, • выстраивать внешне несвязанные события в логические цепочки • определять неочевидные закономерности среди бурных потоков информации
  20. Семестр-1: SQL+NoSQL • Технологии сбора, хранения и извлечения информации •

    Технологии помогают копить знания об окружающем мире • На вопросы «что будет дальше» и «что делать» отвечает сам человек
  21. Семестр-2: Большие данные и машинное обучение • Поиск полезных закономерностей

    в океанах информации • Технологии помогают отвечать на вопрос «что будет дальше?» • (Принимает решение, т. е. отвечает на вопрос «что делать», в любом случае сам человек… хотя элементы автоматизации есть и здесь) • (реф: «Области тьмы» с Брэдли Купером и Робертом Де Ниро, 2011)
  22. • Фильм — вымысел, но хорошая иллюстрация: • Имея на

    руках данные, можно выявить и проследить их внутреннюю логику • И получить новые знания о прошлом или настоящем, которые явным образом в этих данных не были сформулированы • Равным образом этой же логикой можно строить рассуждения о будущем (делать предсказания), т. е. извлекать из данных информацию, которая явным образом в принципе не могла там появиться
  23. Предсказание — это любое высказывание о будущем • Будущее —

    результат развития прошлого • Владея знаниями о прошлом, можно говорить о том, куда мы попадем в будущем • В какой форме у нас есть знания о прошлом и в какой форме мы выводим законы движения прошлого в будущее — это отдельный вопрос
  24. Природная интуиция • Траектория движения хищника должна пересечь траекторию движения

    добычи (хищник будет предсказывать движение добычи) • Стратегия добычи: предсказать траекторию движения хищника и построить свою траекторию движения так, чтобы избежать пересечения
  25. Формы предсказаний • Озарения и божественные откровения (оракулы и т.

    п.), гадания на кофейной гуще и т. п., • Природная интуиция, прошитая в ДНК, • Наблюдения повторяющихся событий: огонь+палец=боль, народные приметы, исторические аналогии • Естественнонаучный метод — законы природы в форме математических формул • Предопределенность vs свобода воли • Диалектический материализм vs теории математических вселенных • и т. п.
  26. Естественнонаучный метод • Законы природы в форме математических формул (движение

    идеализированной материи в идеализированных условиях) • Математическая модель: законы логики + математика • Эксперимент — верификация модели на соответствие с действительностью: взаимодействие с реальной материей + логика + математика • Интерпретация — постижение в понятиях: движение мысли от модели к модели, от эксперимента к эксперименту
  27. • Так или иначе, мы знаем, что по крайней мере

    часть закономерностей окружающей нас действительности описывается языком математики (см. курс школьной физики) • Распространить эти законы (т. е. получить с их помощью предсказательный эффект) на более сложные явления (общество или экономика) довольно сложно (даже если верить, что это возможно) Просчет математикой
  28. • Но можно попробовать найти другие математические закономерности • Наука

    «бигдаты» (data science) ищет такого рода математические закономерности, опираясь на оцифрованные данные, интуицию и знания о предметной области ученого, работающего с данными («дата-саентиста»)
  29. Большие данные и машинное обучение • Набор подходов и инструментов

    для предсказания будущего, вычисляемого из знаний о прошлом • Знание о прошлом и настоящем выражено в данных • Надежда: найти среди этих данных связи и закономерности, преобразующие данные прошлого в достоверные знания о будущем • (технически: т. к. дело с оцифрованными данными, это всегда будет математическая формула)
  30. • Предсказательный эффект даёт осознанный контроль над обстоятельствами • В

    простом случае: приносит деньги • Во многом ближе к науке, чем к инженерии • Ценность имеет инженер (data scientist), владеющий техническими методами работы с массивами информации и целевой предметной областью одновременно
  31. Информация — прогноз — действие • Информация: оцифрованные данные об

    окружающем мире - окружающий мир многогранен, данные ограничены (на лугу пасутся козы, спит собачка, дует ветерок, течет ручеек, а мы замеряем только температуру воздуха) - могут быть недостаточные - могут быть избыточные • Прогноз: модель ИИ (ML), выбранная аналитиком, с параметрами, подогнанными на данных • Действие: может потребоваться ресурс (например, финансовое плечо или рычаги управления государством)
  32. Большие данные и машинное обучение • Нет датасета — нет

    проекта • ТЗ не поможет: в общем случае решения может вообще не быть • История Big Data неразрывно связана с ИИ (искусственный интеллект, artificial intelligence — AI) и машинным обучением (machine learning — ML) • Баззвордз: big data, data mining, data science, machine learning (ML), artificial intelligence (AI) • Слова для поиска: большие данные, добыча данных — датамайнинг, наука о данных, машинное обучение, искусственный интеллект
  33. Области применения • Научные исследования, медицина • Планирование экономики •

    Поведенческое исследование общества • Мобильные операторы, банки, торговые площадки • Реклама, интернет-сервисы с большой аудиторией • Финансовые и фондовые рынки • Спецслужбы, корпорации • … • Любой, кто может накопить и накопил достаточное количество данных
  34. Инструменты • Python + библиотеки: numpy, pandas, matplotlib, scikitlearn и

    т. п. • R — язык программирования • Scala + Apache Spark • … • В основном, конечно, Python • По форме: манипулирование таблицами (похоже на эксель, только без мышки)
  35. Основные этапы проекта ML • Сырые данные → озеро данных

    (data lake) • Предварительная обработка: структурирование, чистка, заполнение пропусков и т. п. • Изучение: визуализация, отбор признаков • Гипотеза, обучение на обучающей выборке, проверка на тестовой выборке, итеративно • Научная статья • Обученная модель → продакшн
  36. Где брать данные? • Вопрос вопросов • Алгоритмы известны в

    виде статей и математических формул • И реализации доступны в виде программных библиотек • Тестовые данные тоже есть и их много (нам на семестр хватит) • Но они все изучены вдоль и поперек • Новизну проекта определяет новизна датасета
  37. Где брать данные? • Они уже есть там, где вы

    работаете • Купить • Собрать из открытых источников
  38. Предварительная обработка данных • Тестовые данные вылизаны и размечены •

    Новые данные — не вылизаны и не размечены • Могут иметь разную структуру, пропуски, некорректные значения и т. п. • Разметка данных (например, объектов на изображениях)
  39. Предварительная обработка данных • Трудоёмкий процесс • И не очень

    творческий • И дорогостоящий • Операции простые, но данных много • Если данных мало, то это плохой датасет • С другой стороны: если ваш датасет требует трудоемкой обработки, значит, скорее всего, его больше ни у кого нет
  40. Аналитика без предсказания • Визуализация • Группировка • Ответ на

    вопросы: сколько того-другого в среднем, по медиане, по шкале времени, в разных разрезах и т.п • И т. п. • Выводы делает человек Продукты (часто не дешевые): • Аналитические отчеты, исследования рынка • Тематические базы собранных и обработанных данных
  41. Предсказательная (прогнозная) модель • У вас есть данные («события») и

    метки («исходы») — это ваша модель прошлого • Вы подбираете некоторую математическую функцию так, чтобы она на старых данных давала известные исходы («предсказывала» прошлое) • Вы даёте подобранной функции новые данные в надежде на то, что ответные исходы (предсказания) начнут волшебным образом совпадать с событиями в будущем • Известный термин: экстраполяция
  42. Предсказательная модель • Технически: вы всегда сможете подобрать функцию, которая

    будет «предсказывать» прошлое (подгонка под известный ответ) • Проблема: она скорее всего не будет [с достаточной точностью] предсказывать будущее
  43. Предсказательная модель • Ваш труд: сформулировать гипотезу — о том,

    что на основе данных можно строить достоверные предположения о будущем (хорошо понимать предметную область) • Ваш труд: выбрать (распознать) форму предсказательной функции (владеть инструментами математики) • Ваш труд: реализовать предсказательную модель в ПО и проверить на данных (владеть программными инструментами)
  44. Планы на семестр • Дальше мы увидим, что за этими

    пространными рассуждениями скрываются вполне конкретные и не всегда сложные математические модели и программные инструменты
  45. Планы на семестр • Работа с табличными данными: Numpy, Pandas

    • Визуализация данных с Pandas и Matplotlib • Работа с текстом: категории, мешок слов, tf-idf, предварительная обработка текста, работа с ЕЯ — естественными языками (NLP), NLTK • Регрессия, регрессионная модель — модель предсказания целевой переменной на непрерывной шкале. • Разведочный анализ, корреляция • Обучение без учителя (работа с немаркированными данными), кластеризация
  46. Планы на семестр • Градиентный спуск, двоичная классификация, адаптивный линейный

    нейрон • Логистическая регрессия: градиентный спуск с сигмоидой • Обучение нейронной сети: обратное распространение ошибки, дифференцирование сложной функции • Библиотеки автомарического дифференцировани: TensorFlow, PyTorch
  47. Ресурсы • Хабра, интернет — разрозненные статьи, иногда хорошие •

    Книги по ключевым словам: большие данные, машинное обучение, Python и большие данные, Python и машинное обучение и т. п. • Курсы ML: Google, Microsoft, Amazon … • Онлайн-курсы coursera.com, stanford.edu, universarium.ru (в т.ч. есть курсы от МФТИ и ВШЭ) • kaggle.com — соревнования плюс наборы данных • ...
  48. Книги на русском • Себастьян Рашка, «Python и машинное обучение»

    • С. Николенко, А. Кадурин, Е. Архангельская, «Глубокое обучение. Погружение в мир нейронных сетей» • Я. Гудфеллоу, И. Бенджио, А. Курвилль, «Глубокое обучение» • Тарик Рашид, «Создаем нейронную сеть» • Джош Паттерсон, Адам Гибсон, «Глубокое обучение с точки зрения практика» • ...
  49. Кулстори-1 • «Союзникам было важно понять, сколько Германия делает танков

    в месяц. Задачу поставили перед математиками и перед разведчиками. • Разведка вела наблюдение с воздуха, засылала шпионов и сказала свою цифру. • Математики просто предложили посчитать серийные номера подбитых танков. Если предположить, что танки подбиваются в случайном порядке, отсюда будет понятно и общее их число, и величина пополнения. Посчитали. Назвали цифру – 245 танков в месяц. • После войны истинную цифру узнали уже в Германии, математики ошиблись всего на несколько штук. Я не помню цифру разведчиков, но они ошиблись в несколько раз.» • metasilaev.livejournal.com/139651.html
  50. Кулстори-2 • «В каком-то университете психологи изучали крепость брака. Пытались

    прогнозировать, разведется ли пара и когда. Одна группа пошла по сложному пути. Придумали длинный опросник, вела долгие задушевные интервью. На их основе давали прогноз. • Психолог, склонный к математике, поступил проще. Он просил у пары сказать только две цифры. Как часто вы ругаетесь и как часто занимаетесь сексом. • Прогнозы, данные из этих двух цифр, оказались точнее. • Это к вопросу, может ли информация оказаться лишней…» metasilaev.livejournal.com/139651.html