Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Технологии Big Data/Data Lake в цифровой ортодо...

Технологии Big Data/Data Lake в цифровой ортодонтии

Все больше компаний в тренде и готовы анализировать все доступные источники информации, отвечать на насущные вопросы бизнеса, находить закономерности и планировать изменения продукта. Теперь это касается не только корпораций, но и малых/средних предприятий, которые не могут позволить себе длительный time to market и большой штат разработчиков big data решений. Когда масштабы данных не столь грандиозные как в проектах Google и Яндекс, на помощь в обработке больших данных приходит популярный язык запросов SQL. В докладе мы рассмотрим, как существующие SaaS и open source решения AWS Redshift, CitusDB, Dremio, OpenQuestDB помогут упростить вашу работу. Я расскажу, как наш отдел трансформирует и обрабатывает большие объемы данных об ортодонтическом лечении используя инфраструктуру Amazon Web Service. Как результат этой работы data science специалисты становятся счастливее и улыбаются чаще😉

Igor Suhorukov

October 23, 2019
Tweet

More Decks by Igor Suhorukov

Other Decks in Programming

Transcript

  1. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Информация в

    этом докладе является моим субъективным мнением и основана на моем опыте, знаниях и заблуждениях ;-) Личное мнение 10/22/2019 2010 DB Blue template 2
  2. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Наша команда

    10/23/2019 2010 DB Blue template 3 Data science: • Анна • Виктория • Андрей • Виктория • Арсений Data engineering: • Тимофей • Юлия • Игорь BA: • Семен CloudOps: • Александр
  3. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Обработку “петабайтных”

    массивов «сырых» данных: 3D сканов, результатов обработки данных в CAD системе и журналов операций этой системы. Трансформируем геометрию 3D моделей в количественные клинические показатели. Обогащаем клинические данные дополнительной информацией. Данные служат для анализа процессов производства, планирования и результатов лечения пациентов. Основные потребители данных - группа Data Science и группа Business Intelligence. BigData в ортодонтии. 10/22/2019 2010 DB Blue template 4
  4. Сухоруков Игорь Big data/data lake в цифровой ортодонтии https://habr.com/company/aligntechnology/blog/283470/ Какие

    данные мы обрабатываем 10/23/2019 2010 DB Blue template 5 3D сканер iTero – один из источников данных о геометрии.
  5. Сухоруков Игорь Big data/data lake в цифровой ортодонтии https://habr.com/company/aligntechnology/blog/283470/ Какие

    данные мы обрабатываем 10/22/2019 2010 DB Blue template 6 • CAD система • Алайнеры (капы) и CAM/MES (manufacturing execution system)
  6. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Хранилище данных:

    Amazon Redshift/Spectrum Используем S3, SQS, EC2, RDS PostgreSQL Языки в проекте: Java, XQuery, SQL Фреймворки: Spring Framework/Boot, AspectJ, Cucumber, SchemaSpy, BaseX Как мы обрабатываем данные? 10/22/2019 2010 DB Blue template 7 http://basex.org
  7. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Java в

    тренде? 10/23/2019 2010 DB Blue template 8 https://madnight.github.io/githut/#/pull_requests/2019/3
  8. Сухоруков Игорь Big data/data lake в цифровой ортодонтии JSON Query

    Language(JSONiq) vs XQuery Импорт из CSV файлов в Redshift Слабоструктурированные данные 10/22/2019 2010 DB Blue template 9 https://habr.com/post/352810/ https://habr.com/ru/post/446380/
  9. Сухоруков Игорь Big data/data lake в цифровой ортодонтии https://www.dbvis.com/ http://schemaspy.org

    Визуализация/документирование схемы БД 10/22/2019 2010 DB Blue template 10
  10. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Маркетинг –

    враг разработчику 10/22/2019 2010 DB Blue template 11 https://habr.com/ru/post/444472/
  11. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Привязка к

    поставщику (англ. vendor lock-in, proprietary lock-in, customer lock-in, «барьер для смены поставщика») — бизнес-модель, в которой устанавливается зависимость потребителя от продуктов и услуг одного поставщика, намеренно создаются осложнения для смены поставщика из-за высоких затрат на переход. https://goo.gl/pEbnWR Маркетинг – враг разработчику 10/22/2019 2010 DB Blue template 12
  12. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Обзор БД

    для аналитики 10/22/2019 2010 DB Blue template 13 Column-oriented DBMS Data Lake Operation Row-oriented Column-oriented Aggregate operations slow fast Insert/Update fast slow Select single record fast slow Select few columns skip unnecessary data fast Compression low high
  13. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Реляционные БД

    Телеметрия ПО и аппаратного обеспечения Слабоструктурированные данные Двоичные данные – изображения КТ, 3D геометрия, Озера данных: источники 10/22/2019 2010 DB Blue template 14
  14. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Слои данных:

    • Raw • Curated • Anonymized test data Озера данных: слои 10/23/2019 2010 DB Blue template 15
  15. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Озера данных:

    языки запросов и типы данных 10/22/2019 2010 DB Blue template 16 Модель данных Язык запросов Реляционная SQL Внешние реляционные таблицы(CSV,Parquet,ORC,Avro) SQL Слабоструктурированная (JSON, XML, YAML) xQuery(XPath), JSONiq(JsonPath) Графовая Cypher QL, Gremlin, SPARQL Двоичные данные Программы,скрипты ETL/MR
  16. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Основан на

    Postgresql 8.0.2 форке (ParAccel MPP) v8.0.2 – 2005-04-07 + интеграция с AWS сервисами, AWS hosted/managed + привычные JOIN и SQL, поддержка оконных функций - Ограничения целостности не применяются - Аскетичный набор функций, типов данных - Время простоя при добавлении узла - Импорт данных только из S3 - «Морально устарела», не доступна установка локально Обзор БД для аналитики: Redshift/Spectrum 10/22/2019 2010 DB Blue template 17
  17. Сухоруков Игорь Big data/data lake в цифровой ортодонтии На основе

    Postgresql 11 (не форк!) v11.0 – 2018-10-18 + Open source расширение PG – безопасность и производительность последних версий PostgreSQL. + Распределенные транзакции + Добавление узлов без простоя в обслуживании - Отсутствие поддержки пользовательских функций для агрегации данных Обзор БД для аналитики: CitusDB 10/22/2019 2010 DB Blue template 18
  18. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Postgresql 11

    wire protocol + Аналитика на данных в памяти, анализ временных рядов (kdb+, TimescaleDB) + Привычные JOIN и SQL, оконные функций + Возможно встраивание в приложение на JVM, без IPC - Малое сообщество OSS Обзор БД для аналитики: OpenQuestDB 10/22/2019 2010 DB Blue template 19
  19. Сухоруков Игорь Big data/data lake в цифровой ортодонтии + Источники

    данных: S3, Redshift, ElasticSearch, PostgreSQL, MySQL, Oracle, MSSQL + Apache Arrow «под капотом» - Малое сообщество OSS версии(адаптеры к РСУБД проприетарные) - Секционирование данных в Data Reflections - Не поддерживает параметры в JDBC драйвере - Малое сообщество OSS Обзор БД для аналитики: Dremio 10/23/2019 2010 DB Blue template 20
  20. Сухоруков Игорь Big data/data lake в цифровой ортодонтии Обзор БД

    10/23/2019 2010 DB Blue template 21 База данных Основан на JOIN любых таблиц Разнородные источники данных Полнотекстовый поиск, геопоиск Redshift PostgreSQL 8.0.2 Да Через Redshift Spectrum Нет CitusDB Расширение PostgreSQL 11 Да Через PostgreSQL FDW Да Dremio Arrow, JVM Да Да Нет OpenQuestDB Postgresql 11 wire protocol, JVM Да Да Нет https://github.com/dremio/dremio-oss https://github.com/citusdata/citus https://github.com/questdb/OpenQuestDB
  21. Сухоруков Игорь Big data/data lake в цифровой ортодонтии 10/23/2019 2010

    DB Blue template 22 Senior Data Scientist https://hh.ru/vacancy/31737569 Senior Big Data Engineer https://hh.ru/vacancy/34216485