Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Большие данные - лекция-13 - источники данных

3a855e4e8dd144b8942da2463831a067?s=47 Anton
April 24, 2019

Большие данные - лекция-13 - источники данных

Источники информации, источники данных

Обновлено: 20.04.2020
https://vk.com/video53223390_456239458

3a855e4e8dd144b8942da2463831a067?s=128

Anton

April 24, 2019
Tweet

Transcript

  1. Источники информации, источники данных

  2. Направления и темы • Экономика • Наука • Социология •

    История • Культура • Финансы • Компьютерное зрение (изображения) • Естественные языки (текст) • ...
  3. Готовые датасеты с разметкой для тестовых задач • kaggle.com •

    archive.ics.uci.edu/ml/index.php • www.nltk.org/nltk_data/ Отдельные датасеты: • MNIST: yann.lecun.com/exdb/mnist/index.html • Fashion-MNIST: github.com/zalandoresearch/fashion-mnist/blob/master/README.md • IMDB: ai.stanford.edu/ > ai.stanford.edu/~amaas/data/ > ai.stanford.edu/~amaas/data/sentiment/ • Топливо для ИИ: подборка открытых датасетов для машинного обучения habr.com/ru/company/mailru/blog/339496/ • ...
  4. Самому: собрать и разметить; норм, если: • Если вы аналитическая

    компания с представительствами и контрактами по всему миру (как Рейтер) • Если организации присылают вам ежегодные финансовые отчеты, иначе их штрафуют (как Росстат) • Если у вас есть сервис с >= млн. активных пользователей, которые сами по себе являются источником информации для анализа и продажи (как Фейсбук) или которых можно заставить размечать данные (как Гугл: рекапча, сфетофоры) • Фрилансеры в странах 3-го мира за невысокую зарплату • Финских заключенных наняли обучать алгоритмы hightech.plus/2019/03/29/finskih-zekov-nanyali-obuchat-algoritmi
  5. Google Recaptcha

  6. Внутрикорпоративные базы данных • Скорее всего бизнес-процессы организации уже автоматизированы

    в рамках какой-то системы ERP (Enterprise resource planning) • Данные хранятся централизованно в СУБД системы ERP • Обычно система ERP уже содержит модули простой или продвинутой аналитики и работы с данными • Возможно, в некоторых случаях придется поработать над разбором и объединением данных из разных хранилищ (разные эпохи автоматизации, отдельные бизнес-процессы со своими инструментами автоматизации, разные отделы и т.п.) • Скорее всего вы работаете в этой корпорации
  7. • Агрегаторы данных: cначала факты, потом аналитика • Проводят исследования,

    генерируют отчеты, продают дорого • Кое-что выкладывают в открытый доступ (аннотация, отчет частично или целиком для имиджа и рекламы) • Консалтинг, аудит • Государственное планирование капиталистических экономик • Обычно выкладывают результат, но не исходные данные • Но вы можете устроиться к ним на работу, в таком случае эти отчеты будете создавать вы из сырых данных Коммерческая аналитика
  8. Коммерческая аналитика • Ernst and Young (консалтинг, аудит) www.ey.com -

    всего сотрудников 230 тыс. человек, выручка в 2015 $28,7 млрд - есть офис в Москве • IDC (ИТ и коммуникации) idc.com • Gartner (рынок ИТ) www.gartner.com - капитализация $3.2 млрд на начало 2011 • Reuters (новости и финансовая информация, существуют с середины XIX в.) www.reuters.com • PWC (консалтинг и аудит) www.pwc.com, www.pwc.ru - есть офис в Москве - программа набора сотрудников из регионов: www.pwc.ru/ru/careers/regions/v-moskve-kak-doma.html
  9. Карьера в PwC > Вакансии для выпускников и студентов •

    www.pwc.ru/ru/careers/graduate-job-search.html • Регионы: Москва, Казань • Например: Junior Data Scientist in Data Analytics group (Moscow) - Unfinished/finished higher degree (preferred Math, Computer Science, Physics, Operational Research or related) - Good knowledge of SQL - Experience with analysis of large data sets (in particular a good knowledge of machine learning algorithms) www.pwc.ru/ru/careers/graduate-job-search/description.html? wdjobreqid=35633WD&wdcountry=RUS&wdjobsite=Global_Campus_Caree rs
  10. Коммерческая аналитика • IBS Group (группа компаний, разработка ПО, ИТ-консалтинг)

    www.ibs.ru, www.luxoft.ru - штаб-квартира в Москве, 7200 сотрудников по миру - магистратура в МФТИ, МИСиС • АЦ при правительстве РФ ac.gov.ru - информационно-аналитическое сопровождение и экспертная поддержка деятельности Правительства России - исторический наследник Главного вычислительного центра Госплана СССР - Кадровый резерв ac.gov.ru/vacancy/: […] опыт работы с большим количеством информации
  11. Кадровый резерв Обязанности: • подготовка экспертных заключений и аналитических записок;

    • участие в организации и проведении экспертных мероприятий; • разработка предложений по реализации научно-исследовательских и консультационных проектов. Требования: • профильное высшее образование (наличие ученой степени приветствуется); • представление о системе государственной власти в России, знакомство с ключевыми направлениями деятельности правительства; • опыт проведения научно-исследовательских и консультационных работ, в том числе для органов государственной власти; • опыт работы с большим количеством информации.
  12. Коммерческая аналитика • Dow Jones • Bloomberg • KPMG •

    … • Deloitte • Руссофт • TAdviser • Fitch Ratings • Forester • ...
  13. Коммерческая аналитика • Русбейз (новостной портал — технологии, бизнес): каталог

    разных отчетов по рынку технологий от 3х лиц и за собственным авторством rb.ru/reports/ rb.ru/services/ — сойдет в качестве примеров финальных продуктов • И так далее • ...
  14. Государственная статистика • Росстат www.gks.ru/ • Исходники: скорее нет, чем

    да (иначе бы все сразу пересчитывали медиану вместо среднего) • Но может попасться какая-нибудь таблица, по которой можно будет сделать свою группировку или разбивку
  15. Открытые данные • Информация собрана за государственный счет: госорганы или

    за государственные деньги • Опубликована под свободной лицензией (Creative Commons, Общественное достояние — Public Domain, ...) • Читается машиной (XML, JSON, CSV, ...)
  16. Государственные органы или на государственные деньги • data.gov — портал

    открытых данных США (вчера открывался только через VPN) • data.europa.eu — открытые данные ЕС • govinfo.nlc.gov.cn — Китай (не работает) • data.go.jp — Япония • data.gov.in - Индия • data.gov.ru — портал открытых данных России • все страны на карте: data.gov.ru/od-map
  17. None
  18. Открытые данные в России • Государственные органы (федеральные и региональные)

    выкладывают информацию на портал • Иногда ее же удобнее найти на сайте министерств • Информация собрана в одном месте • Рассортирована по рубрикам • В основном обрезки и мусор • Но можно поискать жемчужины
  19. data.gov.ru

  20. Региональные порталы data.gov.ru/od-map

  21. Правительство Нижегородской области / Открытые данные • government-nnov.ru/opendata • Реестр

    данных со ссылками — в файле pdf (или в csv — на выбор) :) • government-nnov.ru/?id=189555 • (качаем pdf, ищем блок данных, ctrl+c/ctrl+v ссылка из pdf в адресную строку браузера) • Большинство ссылок (но не все!) ведут на data.gov.ru
  22. Городской портал Нижнего Новгорода • Статистика обращений граждан (осенью 2018

    работала, сейчас [весна 2019] уже нет): нижнийновгород.рф/priemnaya/pravila/
  23. Порталы министерств • минобрнауки.рф/министерство/статистика — Министерство образования и науки России,

    статистика • opendata.mon.gov.ru — Министерство образования и науки России, открытые данные • ...
  24. Информационно-поисковые системы, финансы, экономика • Гис промышленность gisp.gov.ru/gisplk/ • Финансовые

    отчеты компаний • Курсы валют, биржевые индексы, котировки акций • Что-то должно быть в открытом доступе (TODO) • Коммерческие базы по подписке (базы Рейтерз)
  25. Центральный банк России www.cbr.ru • ru.wikipedia.org/wiki/Банк_России • Статьей 75 Конституции

    Российской Федерации установлен особый конституционно-правовой статус Центрального банка России, определено его исключительное право на осуществление денежной эмиссии (часть 1) и в качестве основной функции — защита и обеспечение устойчивости рубля, независимо от других органов государственной власти (часть 2). • Эти функции, как указал Конституционный суд Российской Федерации «по своей природе относятся к функциям государственной власти, поскольку их реализация предполагает применение мер государственного принуждения». • Статус, цели деятельности, функции и полномочия Банка России определяются также Федеральным законом 10 июля 2002 года № 86-ФЗ «О Центральном банке Российской Федерации (Банке России)» и другими федеральными законами.
  26. Центробанк • Не подчиняется ни исполнительной, ни законодательной веткам власти,

    поэтому на портале Открытых данных не присутствует • Но выкладывает информацию на своем сайте
  27. Перечень изданий Банка России на 2017 год • Вестник Банка

    России Еженедельно (100 номеров в год) На бумажном носителе (1000 экз.) / электронная версия* • Статистический бюллетень Банка России (на рус. яз.) Ежемесячно На бумажном носителе (730 экз.) / электронная версия* • ...
  28. Базы данных • Сведения по сделкам «валютный своп» по фиксированной

    ставке • Задолженность кредитных организаций перед Банком России по сделкам «валютный своп» • Ставка RUONIA • Параметры аукционов РЕПО в рублях и валютный своп по покупке долларов США и евро за рубли • Данные об остатках денежных средств кредитных организаций на депозитных счетах в Банке России • …
  29. Справочно-правовая система • ru.wikipedia.org/wiki/Справочно-правовая_система • Справочно-правовые системы (информационно-правовые системы) —

    класс компьютерных баз данных, содержащих тексты указов, постановлений и решений различных государственных органов. • Подкрепленные нормативными документами, они также содержат консультации специалистов по праву, бухгалтерскому и налоговому учету, судебные решения, типовые формы деловых документов и др. • Повышают производительность юристов, бухгалтеров, аудиторов, руководителей организаций при решении правовых вопросов.
  30. Справочно-правовые системы: коммерческие большая тройка • Гарант • КонсультантПлюс •

    Кодекс еще • Техэксперт • Открытая база ГОСТов • РосПравосудие
  31. Государственные • Точка входа ко всем: gov.ru • Законодательство (Парламент):

    проекты законов, публикация принятых законов, исторические документы (законы СССР, Российской Империи) pravo.gov.ru • Документы, приказы исполнительной власти • Судебные решения • Обычно есть интерфейс для онлайн-поиска и возможность скачивать отдельные документы
  32. Сбербанк ИИ vs юристы • Январь 2017: Сбербанк передаст работу

    3 тыс. сотрудников роботам-юристам www.rbc.ru/rbcfreenews/5877b2979a79478752358fb9 • 10 ноября 2018: Внедрение ИИ в Сбербанке привело к сокращению 70% менеджеров среднего звена 1prime.ru/telecommunications_and_technologies/20181110/8294 24797.html • 26 февраля 2019: Греф признал потерю миллиардов рублей из-за искусственного интеллекта www.rbc.ru/finances/26/02/2019/5c74f4839a7947501397823f
  33. НКО, международные организации • Международный валютный фонд (МВФ): www.imf.org -

    (в основном текстовые отчеты, но можно поискать статистику) • SWIFT (Общество всемирных межбанковских финансовых каналов связи): www.swift.com/news-events/publications • Международная организация труда (МОТ/ILO): ilo.org • Организация экономического сотрудничества и развития (ОЭСР/OECD) en.wikipedia.org/wiki/OECD oecd.org - (много таблиц онлайн) - статистика по России: oecdru.org/statistic.html
  34. Народная статистика: numbeo.com • www.numbeo.com/ • Стоимость жизни (Cost of

    living) • Цены на собственность (Property prices) • Преступность (Crime) • Здравоохранение (Healthcare) • Загрязнение (Pollution) • Транспорт (Traffic) • Качество жизни (Quality of life) • Путешествия (Travel)
  35. Открытые научные данные • data.gov/research/ - Раздел Science and Research

    на data.gov • science.gov — поисковик по научным базам США: searches over 60 databases and over 2,200 scientific websites • opendata.cern.ch — портал ЦЕРН (Большой адронный коллайдер): Explore more than 1 petabyte of open data from particle physics! • На российском портале специального раздела «Наука» пока нет, но можно отфильтровать научные организации
  36. Научные публикации • Киберленинка cyberleninka.ru (~1.5 млн научных статей —

    выложены с согласия правообладателей) • Скайхаб sci-hub.se/ (65.5 млн. научных статей, недавно выложили базу в открытый доступ, ~60терабайт) • Академия Гугл scholar.google.ru • ...
  37. Патенты • Google patents patents.google.com • Роспатент: www.rupto.ru • Информационно-поисковые

    системы: new.fips.ru/iiss/ • ...
  38. Библиотеки • Российская государственная библиотека (РГБ — Ленинка, Москва) •

    Российская национальная библиотека (РНБ, Санкт-Петербург) • Библиотека Конгресса США • ... • Все книги мира (фонд РГБ ~17 млн, всего книг по оценке инженеров Гугл ~120млн) • Оцифрована малая часть • Еще меньше в открытом доступе
  39. Оцифровка фондов библиотек • «Закон об электронном экземпляре»: электронные копии

    всех новых книг направляются в РГБ, РНБ (и еще несколько организаций) • Старые бумажные книги оцифровываются по программе оцифровки • Доступны в читальных залах на спец компьютерах или через интернет через специальный плагин • Электронные книги могут продаваться в книжных онлайн- магазинах • Старые произведения (классика, автор раньше, чем 70 лет назад) могут быть выложены в открытый доступ (общественное достояние)
  40. Российская государственная библиотека • Объем фондов — 45,5 миллионов единиц

    хранения, • из них 300 тысяч редких книг и 500 тысяч рукописей. • Оцифровано около миллиона изданий, • из них 150 тысяч — это рукописи и редкие книги. • После вступления в силу поправок к Гражданскому кодексу РГБ запланировала оцифровать 50 тысяч изданий, по тысяче книг в месяц.
  41. Национальная электронная библиотека (НЭБ) • Проект возник в 2004 году.

    • В 2014-м портал НЭБ объединил ресурсы шести федеральных и 27 региональных библиотек. • Также в 2014 году были оцифрованы около 10 тысяч книг. • Сейчас на сайте НЭБ доступны около 1 миллиона 700 тысяч книг. (начало 2015)
  42. Общественные онлайн-библиотеки • Либген libgen.io (~2.7 млн. книг, 58 млн.

    научных статей, можно скачать базу на торентах) • Скайхаб sci-hub.se • Рутрекер rutracker.org • Буктрекер booktracker.org • … • [домены после точки могут со временем меняться]
  43. None
  44. None
  45. Еврокомиссия назвала главных распространителей пиратского контента и контрафакта в России

    hitech.newsru.com/article/11dec2018/ec_report www.kommersant.ru/doc/3826739 • См список ресурсов в отчете: trade.ec.europa.eu/doclib/docs/2018/december/ tradoc_157564.pdf
  46. Архивы • Федеральное архивное агентство rusarchives.ru • Хорошо оцифрован индекс

    (названия) • Содержимого оцифровано еще меньше, чем книг • То, что оцифровано, в основном не распознано (картинки)
  47. Архивы • Отдельные проекты по оцифровке тематических подборок архивов •

    Некоторые книги (которые могут находиться в библиотеке) представляют собой подборки архивных документов • Цифровая история • В открытом доступе обращаются продукты вторичной и n- ричной переработки фактов, которые можно проверить в архивах • Оцифрованные архивы: ссылка на источник => конец дискуссии
  48. None
  49. None
  50. None
  51. СМИ, блоги, форумы • Медиалогия: парсят интернет, создают аналитический продукт

    • Рейтерз • …
  52. Медиалогия • База данных: 30 730 источников (по данным на

    17.03.2016). • Применяется контекстный и объектный поиск по 30 000 объектов: компаний, персон и брендов. • При обработке сообщений оценивается позитив/негатив, влиятельность СМИ, наличие прямой речи, главная или второстепенная роль и другие показатели. • Доступен количественный и качественный анализ данных в графическом виде.
  53. Интегрум • ru.wikipedia.org/wiki/Интегрум • База данных: 27 000[6] источников, включая

    СМИ, информацию официальных учреждений, адресно- справочные базы данных, законодательство, каталоги промышленной продукции, статистическую информацию, библиотеку мировой литературы и др. • Применяется контекстный поиск при помощи собственной поисковой системы «Артефакт». • Доступен анализ количества публикаций по категориям СМИ.
  54. Яндекс.Новости • База данных: 6 637 СМИ (только интернет- источники),

    по состоянию на 24 июня 2015 г. • Применяется контекстный поиск без анализа данных.
  55. Архивы газет • NY Times • British newspapers archive •

    Newspapers.com • И т.п. • Картинки + полнотекстовый поиск (не везде) • Доступны по подписк • Можно качать, но отдельные файлы
  56. New York Times • Оцифрованный архив всех номеров timesmachine.nytimes.com/timesmachine •

    Доступен онлайн по подписке
  57. None
  58. British newspaper archive www.britishnewspaperarchive.co.uk • Доступен через интернет по подписке

    • Можно скачивать отдельные страницы номера целиком в pdf • Страницы оцифрованы в картинки • Полнотекстовый поиск (слой OCR) если и есть, то не для всего
  59. None
  60. None
  61. Newspapers.com www.newspapers.com/ • The largest online newspaper archive • 16,600+

    newspapers from the 1700s–2000s • Millions of additional pages added every month • Полнотекстовый поиск
  62. None
  63. Archive.org archive.org web.archive.org • The Internet Archive, a non-profit, is

    building a digital library of Internet sites and other cultural artifacts in digital form. Our mission is to provide Universal Access to All Knowledge. • 330 billion web pages • 20 million books and texts • 4.5 million audio recordings (including 180,000 live concerts) • 4 million videos (including 1.6 million Television News programs) • 3 million images • 200,000 software programs
  64. None
  65. None
  66. Википедия • В IBM Watson загрузили весь текст Википедии и

    он выиграл всех в Jeopardy (Своя игра) • Но рак предсказывать так и не научился
  67. Национальный корпус русского языка www.ruscorpora.ru/new/ • На этом сайте помещен

    корпус современного русского языка общим объемом более 600 млн слов. • Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме. • Развивается и пополняется профессиональными исследователями, энтузиастами • Хостит Яндекс — на общественных началах
  68. Национальный корпус русского языка • ru.wikipedia.org/wiki/Word2vec • Вычисляет «семантическое расстояние»

    между словами, основываясь на контекстной близости этих слов. • Обучается на больших массивах текстов • Реализация на Python: radimrehurek.com/gensim/models/word2vec.html • Обученная модель для русского языка (обучена на Википедии и Национальном корпусе русского языка): rusvectores.org/ru/# github.com/akutuzov/webvectors/blob/master/preprocessing/rusvectores _tutorial.ipynb
  69. Например: Google word2vec • ru.wikipedia.org/wiki/Word2vec • Вычисляет «семантическое расстояние» между

    словами, основываясь на контекстной близости этих слов. • Обучается на больших массивах текстов • Реализация на Python: radimrehurek.com/gensim/models/word2vec.html • Обученная модель для русского языка (обучена на Википедии и Национальном корпусе русского языка): rusvectores.org/ru/# github.com/akutuzov/webvectors/blob/master/preprocessing/rusvectores _tutorial.ipynb
  70. None
  71. OpenStreetMap www.openstreetmap.org • Как Википедия, только для карт • Дороги,

    проезды, тропинки • Объекты на карте
  72. Берестяные грамоты gramoty.ru/birchbark/ • Все собраны на сайте • И

    оцифрованы в текст
  73. None
  74. Викиликс file.wikileaks.org/file/ • Много файлов в одном каталоге • Посмотреть,

    что есть, • Поискать таблицы
  75. КОВИД-19 • Найдите сами

  76. Еще датасеты: история • Летчики-асы Первой мировой www.airwar.ru/history/aces/ace1ww/skyknight.html • Именной

    список потерь на фронтах в личном составе рабоче-крестьянской Красной армии за время гражданской войны istmat.info/node/32420 vk.com/rkka_spisok
  77. Где брать данные? • Парсить интернет (сми, соцсети, блоги, форумы,

    сервисы с отзывами и т. п.) — берите всё, что есть в интернете, современный интернет генерят пользователи • Копирайт распространяется на • Википедия (регулярно применяется: IBM Watson + Jeopardy, Rusvectores и т. п.) • Онлайн-библиотеки: libgen.io (~2.7 млн. книг, 58 млн. научных статей, можно скачать базу на торентах) • Научные статьи: Sci-Hub (65.5 млн. научных статей, недавно выложили базу в открытый доступ, ~60терабайт), КиберЛенинка (~1.5 млн научных статей — выложены легально) • Патенты, Архивы, ... • ...
  78. Датамайнинг: парсить интернет • Берите все, что есть в интернете,

    современный интернет генерят пользователи • Копирайт регулирует распространение исходных произведений, но не запрещают вам использовать данные для создания производных продуктов • Персональные данные — отдельная история
  79. Датамайнинг: парсить интернет • Поисковики: Гугл, Яндекс • Медиалогия (СМИ)

    • «Яндекс» запустил сервис Yandex Vision с технологиями компьютерного зрения для сторонних разработчиков: - определение лиц, - распознавание текста на картинках
  80. Кембридж аналитика • Собирали данные пользователей фейсбука (доступные публично) •

    Американским властям это не понравилось (в Сенат вызывали Цукерберга) • В итоге обанкротилась
  81. Суд США разрешил скраппинг сайтов habr.com/ru/company/globalsign/blog/466911/ • Апелляционный суд 9-го

    округа США принял решение (pdf), что скрапинг публичных сайтов не противоречит закону CFAA (Computer Fraud and Abuse Act). • Суд не только легализовал эту практику, но запретил мешать конкурентам снимать информацию с вашего сайта в автоматическом режиме, если сайт является общедоступным. • Суд подтвердил понятную логику, что заход бота-скрапера юридически не отличается от захода браузера. • В обоих случаях «пользователь» запрашивает открытые данные — и что-то делает с ними на своей стороне. • Решение принято в ходе судебного процесса LinkedIn (принадлежит Microsoft) против небольшой компании по анализу данных под названием hiQ Labs.
  82. Кто-то что-то постоянно оцифровывает • Смитсоновский музей открыл 2.8 миллиона

    изображений и видео www.si.edu/openaccess • Нотный архив старой музыки imslp.org/wiki/Main_Page • Коллекция бесплатных книг проект Гутенберг www.gutenberg.org/ • Парижские музеи сделали 60 тысяч исторических фото общественным достоянием habr.com/ru/news/t/486366/ • И т.п.
  83. Задание — курсовая • Взять любой источник, выбрать данные •

    Привести в машиночитаемый вид • Провести разведочный анализ: построить графики, посчитать корреляции, другие коэффициенты
  84. Примеры заданий • Динамика цен на товары, жилье, услуги, образование:

    инфляция в США, инфляция в России (порталы открытых данных, numbeo.com, другие источники) • TF-IDF для корпуса законодательных актов • TF-IDF для корпуса художественных произведений • TF-IDF для корпуса научных публикаций • TF-IDF для корпуса текстов берестяных грамот • Word2vec на корпусе художественных произведений • Найти большую таблицу на Викиликс, провести разведочный анализ
  85. Примеры заданий • Структура экономики Нижегородской области: где у нас

    занято людей больше — в производстве продуктов или в сфере услуг • Отчеты Центробанка о выводе капитала (кто куда выводит, по каким статьям: проценты кредиты, импорт, дивиденды?) (если есть дивиденды, значит были и инвестиции) • Отчет МВФ: в каких валютах страны держат резервы (найти отчет, проверить, есть ли исходники, провести разведочный анализ) • Отчет SWIFT: доля иностранных валют в международных расчетах (найти отчет, проверить, есть ли исходники, провести разведочный анализ) • Отчет ЦБ РФ: Обзоры деятельности Банка России по управлению активами в иностранной валюте и золоте (найти отчет, проверить, есть ли исходники, провести разведочный анализ) • Отчет МВФ: ВВП по странам (найти данные, проверить, есть ли исходники, видно ли структуру, доля реального и фиктивного капитала, провести разведочный анализ)
  86. Примеры заданий • Все деньги мира (All of the World’s

    Money and Markets in One Visualization) money.visualcapitalist.com/worlds-money- markets-one-visualization-2017/ (проверить данные — отдельные позиции по источникам)