Лекция курса "Большие данные и машинное обучение" (v2.0-МОТ)
Лекция-4: визуализация данных Python+Pandas+Matplotlib
Часть-1
- Обзор библиотек визуализации данных: Matplotlib, Seaborn, Mayavi
- 3д: Matplotlib axis-3d vs Mayavi
- Matplotlib pyplot + NumPy: математика над вектором значений, график по точкам
- Pandas + Matplotlib: DataFrame.plot
- Данные: датасет ILO (МОТ - Международная организация труда) ilostat.ilo.org
- Таблица для анализа: средня зарплата по видам деятельности, полу, странам и годам
- Этапы решения задачи по визуализации: задать вопрос, на который ответит график, выбрать подходящий типовой график, подготовить данные - фильтрация, группировка, прочие преобразования
- Строим график: столбчатая диаграмма (bar chart) средней зарплаты в России по годам в долларах США (CUR_TYPE_USD)
- Подготовка данных: фильтрация данных, выбор колонок для столбиков, группировка значений по горизонтаельной оси - DataFrame.set_index
- Заголовок и легенда
- Несколько стобликов внутри групп, рубли и доллары на одном графике: простой set_index не подойдет, необходимо перегруппировать данные
- Сводная таблица DataFrame.pivot_table: превратить повторяющиеся категории в колонки
- Несколько стобликов внутри групп, рубли и доллары на одном графике: после перегруппировки сводной таблицей получилось ок
- Галопирующая инфляция и деноминация: несопоставимый масштаб данных на одном графике
- Логарифмическая шкала, подводные камни логарифма
- Несколько графиков в одном окне (subplots=True)
- Ручное масштабирование данных: ретроспективная деноминация
- Номинальная зарплата, реальное содержание заработной платы, индекс потребительских цен (инфляция)
- Данные по индексам потребильских цен: МОТ, Росстат
Часть-2
- Номинальная зарплата, реальное содержание заработной платы, индекс потребительских цен (ИПЦ),
- Изменение ИПЦ в % (инфляция)
- Данные: датасет ILO (МОТ - Международная организация труда) ilostat.ilo.org
- Таблица для анализа: средня зарплата по видам деятельности, полу, странам и годам
- Данные по индексам потребильских цен: МОТ, Росстат
- График инфляции по годам
- Мультииндекс, объединение таблиц средней зарплаты и ИПЦ по мультииндексу
- График: зарплата vs инфляция
- Номинальное значение заработной платы vs реальное содержание заработной платы в ценах 1992 года
- Группировка данных, групповые операции DataFrame → GroupBy → DataFrame
- Кумулятивное (накопленное) произведение GroupBy.cumprod
- Корректировка значения средней заработной платы на значения инфляции по годам в группах по странам
- График: реальное содержание заработной платы vs номинальная заработная плата в ценах 1992 года по годам в России
- Графики: реальное содержание заработной платы в ценах 1992 года vs номинальная заработная плата по годам, страны: США, КНР, Польша, Япония и т.п.
- Ретроспективное приведение зарплаты к ценам 2019 года
- Сдвиг данных внутри группы: GroupBy.shift
- Графики: номинальная зарплата vs реальное содержание зарплаты в ценах 2019 года по годам, страны: Россия, США, КНР
- Заключение:
-- Визуализация данных - еще один инструмент извлечения знаний из данных.
-- Значительную часть работы составляет подготовка (преобразование) данных для построения графика. Если данные подготовлены, построение графика технически не вызывает проблем.
Большие данные и машинное обучение, лекция-4: визуализация данных Python+Pandas+Matplotlib, часть-1
https://www.youtube.com/watch?v=STedHqTtCHg
Большие данные и машинное обучение, лекция-5: визуализация данных Python+Pandas+Matplotlib, часть-2
https://www.youtube.com/watch?v=99qSuwRyrzE