Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Получение, обработка и визуализация открытых да...

Получение, обработка и визуализация открытых данных

Мы переходим в эпоху четвертой технической революции: мира где основой экономики становится не нефть, а информация. Общемировым трендом становится открытие информации, мы наконец-то получаем доступ к внутренним процессам государственных органов или сервисов. Журналисты исторически занимались поиском и обработкой информации, теперь важной составляющей работы становятся навыки обработки больших объемов информации, поиска трендов и визуализации в понятном для читателей виде.

Mikhail Kashkin

December 15, 2016
Tweet

More Decks by Mikhail Kashkin

Other Decks in Education

Transcript

  1. Журналистика данных, как один из основных инструментов демократизации общества Получение,

    обработка и визуализация открытых данных Неожурналистика периода цифровой эпохи 2016 год
  2. Получение, обработка и визуализация открытых данных Неожурналистика периода цифровой эпохи

    2016 год Эксперт по работе с открытыми данными Михаил Кашкин o Основатель проекта по обработке данных госреестров Papir (www.askpapir.com) o Работал в Google o Работал в компании по анализу данных в сфере Healthcare в США o Руководил исследовательским проектом для ГИБДД Москвы и области o Возглавлял украинский офис Mamba
  3. Что такое открытые данные: определение из Wikipedia Неожурналистика периода цифровой

    эпохи 2016 год Відкриті дані — це концепція, за якою певні дані мають бути вільними для використання та розповсюдження будь-якою особою, за умов дотримання правил атрибуції та/або share-alike ліцензії. При цьому, під вільністю розуміють умови прийнятні для широкого загалу. Так, наприклад, дані можуть бути доступні за невелику плату, що покриває витрати на їх створення та розповсюдження. Концепція відкритості даних загалом не нова, але її активне поширення почалось з розвитком інформаційних технологій та Інтернету, зокрема. Треба зазначити, що серед множини відкритих даних окрема увага приділяється відкритим державним даним, як інструменту оцінки та контролю роботи влади та держави, що входить до моделі електронного уряду.
  4. Что такое открытые данные: реальность Неожурналистика периода цифровой эпохи 2016

    год Важные аспекты открытых данных государством Украина • Права и лицензия — кому принадлежат права на использование данных и как разрешается ими пользоваться. Данные это товар и продавец товара может запретить вам пользоваться данными или производными на их основе.
 • Данные которые открывает государство часто имеют задачу формального открытия. Самая важная часть данных может быть скрыта и не доступна. 
 • Очень часто на данных строится бизнес самими чиновниками. Создаются карманные проекты которые используют эти данные.
 • Пытаясь получить данные напрямую вы можете попасть в «неприятную» ситуацию.

  5. Что такое открытые данные: позитивные моменты Неожурналистика периода цифровой эпохи

    2016 год Данные все таки открываются • Есть сайт data.gov.ua не понятно сколько он будет существовать, но там есть некоторая полезная информация.
 • Не весь «фарш можно провернуть назад». 
 • Есть данные казначейства, Prozorro.
 • Самое главное — не всегда данные можно получить только от государства.

  6. Как собираются данные: пример реестра Минюста Неожурналистика периода цифровой эпохи

    2016 год История открытия данных Минюста • На data.gov.ua опубликовали дамп (файл с данными) в формате CSV (столбцы разделенные запятыми). • Периодичность публикаций была 4 раза в месяц. Постепенно упала до 2х раз. Последний раз данные обновлялись в начале октября. • Формат поменялся на broken XML. • Где-то в процессе переехали на собственный сайт, но заявляют что обновляются раз в 5 дней. • Есть официальный сайт где можно делать запросы через ввод CAPCHA, там публикуется 46 полей, в публичном дампе всего 7. Нет данных об учредителях. • Стоимость одноразовой скачки полного профайла $2500 если оплачивать разбор CAPCHA
  7. Как собираются данные: Prozorro Неожурналистика периода цифровой эпохи 2016 год

    Как собираются данные из базы Prozorro • Есть публичный программный интерфейс API. Он не самый простой, но есть примеры и описание всех полей. 
 • API надежен на его основе работает больше десятка торговых площадок.
  8. Как собираются данные: во всех остальных случаях Неожурналистика периода цифровой

    эпохи 2016 год Есть несколько вариантов (везде нужны навыки программирования или хотя бы работы с таблицами) • Данные сразу отдаются в виде дампов (архив с описанной структурой, IMDB) • Данные отдаются в виде потока (Github, Twitter) • У сервиса есть API (Facebook, почти все крупные сервисы) • У сервиса есть API с ограничениями (или платный) • Плевать на то есть у сервиса API или нет, собираем данные сами (будет пример) • Сервис сопротивляется, но мы все равно собираем данные как бы он не сопротивлялся (будет пример номер два)
 • Бонус: Нафиг нам нужны эти данные, возьмем из другого места
  9. Как собираются данные: страшный код Неожурналистика периода цифровой эпохи 2016

    год Сделали список всех карточек в базе Адрес страницы: https://www.tourdom.ru/birga/pd2/companyformview.php? companyid=12345
  10. Получаем данные: Карточка компании Неожурналистика периода цифровой эпохи 2016 год

    Количество записей: 21463 Email’ов: 5782 Сайтов: 7265 Время работы скрипта: 10-15 минут Время написания скрипта: 1 час
  11. Получаем данные: открытые данные не значит удобные данные Неожурналистика периода

    цифровой эпохи 2016 год Цель создания askpapir.com как раз в том чтобы сделать открытые данные удобными • Мы дали доступ к карточкам компаний
 • Будут подключаться другие реестры
 • Нам интересен контакт с журналистами
 • Как вы бы хотели использовать данные, какие реестры есть у вас
  12. Извлечение данных: обработка Неожурналистика периода цифровой эпохи 2016 год Самая

    сложная часть • Обычно данные которые вы получаете требуют дополнительной обработки. Например удалить дубликаты, или ошибочные данные, аномалии. Много ручной работы.
  13. Извлечение данных: качество данных Неожурналистика периода цифровой эпохи 2016 год

    Люди ошибаются • Гос реестры получаются в результате оцифровки ручного труда • Кто-то тренировался, но запись почему-то осталась в базе? Но почему так упорно менялись данные последние пол года?
  14. Извлечение данных: сверка Неожурналистика периода цифровой эпохи 2016 год Обычно

    данные можно сравнить с другими источниками • Госстат публикует отчеты каждый месяц по новым/закрытым компаниями
 • Сравниваем список новых кодов ЕГРПОУ между дампами
 • В официальной статистике по Днепру 608 новых компаний
 • Кто врет?
  15. Визуализация: основные понятия Неожурналистика периода цифровой эпохи 2016 год Люди

    устроены по разному • Есть люди которые видят картинку: визуалы • Есть те кому важны цифры и тексты: дигиталы • Есть те кому обязательно нужно попробовать, дотронуться, почувствовать: кинестеты Визуализация должна учитывать особенности всех этих людей сразу, но готовят графику обычно визуалы • Пропорции должны быть соблюдены • Обязательно подписаны цифры • Не нужно подгонять данные под красивую картинку
  16. Визуализация: пример когда ужас-ужас Неожурналистика периода цифровой эпохи 2016 год

    Тут сравниваются два периода: - разные цвета - цифры надо 
 искать - невозможно 
 сравнить - работа с 
 данными 
 напоминает
 квест
  17. Визуализация: когда получается Неожурналистика периода цифровой эпохи 2016 год Все

    сделаем правильно: • Соберем открытые данные из Twitter или Instagram
 • Извлечем геоданные и метаданные
 • Проанализируем профайлы пользователей и определим откуда они: местные или туристы
 • Наложим на карту (инструмент MapBox)