Лекция курса "Большие данные и машинное обучение" (v2.0-МОТ)
Лекция-3: табличные данные в Python, библиотека Pandas
- Python + NumPy + Pandas + CSV: «эксель» без мышки (работа с табличными данными)
- Табличные данные и массивы в Python: Pandas и Numpy
- Качаем данные: датасет ILO (МОТ - Международная организация труда) ilostat.ilo.org
- Таблица для анализа: средня зарплата по видам деятельности, полу, странам и годам
- Формат хранения табличных данных в тексте CSV - comma separated values, RFC-4180
- Загружаем данные из файла CSV
- Pandas DataFrame - таблица, с которой можно делать что угодно (она же 2д-массив NumPy)
- Произвольный доступ к данным: диапазон строк, диапазон колонок, доступ к отдельный ячейке
- Оператор "квадратные скобки" DataFrame[] vs DataFrame.iloc[]
- Pandas Series - отдельная колонка таблицы (она же 1д-массив NumPy)
- Доступ к колонкам: через квадратные скобки по имени vs ООП-стиль через точку
- Запросы к данным: фильтр строк по значениям, больше волшебства оператора "квадратные скобки"
- Фильтр данных по значениям строковых значений
- Фильтр данных по диапазонам числовых значений
- Составные фильтры: средняя зарплата в стране за выбранный диапазон лет
- Разоблачение волшебства запросов через квадратные скобки: фильтрация данных массивом булевых значений
- Поэлементные логические операторы NumPy
- Статистические операции: минимум (min), максимум (max), среднее (mean), медиана (median)
- Среднее vs медиана (cредняя зарплата vs медианная зарплата)
- Проверка данных на правдоподобность, дополнительная проверка в сторонних источниках: откуда бы ни пришел датасет, всегда ожидайте подвох
- Больше загрузки данных: переименование колонок для приведения к удобному для использования в программе виду
- Склеивание таблиц по ключу: DataFrame.join
- Подключаем к таблице колонку с полным названием страны в дополнение к колонке с трехбуквенным кодом
- Итоги лекции: извлечение знаний из массивов данных
- Задания на самостоятельную работу
Большие данные и машинное обучение, лекция-2: предварительная подготовка, платформа Python
https://www.youtube.com/watch?v=GXbBDaKCiD8 (вторая половина)
Большие данные и машинное обучение, лекция-3: табличные данные в Python, библиотека Pandas
https://www.youtube.com/watch?v=ODFwEwMe8X0