Slide 1

Slide 1 text

Big Data/Data Lake в цифровой ортодонтии

Slide 2

Slide 2 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Информация в этом докладе является моим субъективным мнением и основана на моем опыте, знаниях и заблуждениях ;-) Личное мнение 10/22/2019 2010 DB Blue template 2

Slide 3

Slide 3 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Наша команда 10/23/2019 2010 DB Blue template 3 Data science: ● Анна ● Виктория ● Андрей ● Виктория ● Арсений Data engineering: ● Тимофей ● Юлия ● Игорь BA: ● Семен CloudOps: ● Александр

Slide 4

Slide 4 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Обработку “петабайтных” массивов «сырых» данных: 3D сканов, результатов обработки данных в CAD системе и журналов операций этой системы. Трансформируем геометрию 3D моделей в количественные клинические показатели. Обогащаем клинические данные дополнительной информацией. Данные служат для анализа процессов производства, планирования и результатов лечения пациентов. Основные потребители данных - группа Data Science и группа Business Intelligence. BigData в ортодонтии. 10/22/2019 2010 DB Blue template 4

Slide 5

Slide 5 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии https://habr.com/company/aligntechnology/blog/283470/ Какие данные мы обрабатываем 10/23/2019 2010 DB Blue template 5 3D сканер iTero – один из источников данных о геометрии.

Slide 6

Slide 6 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии https://habr.com/company/aligntechnology/blog/283470/ Какие данные мы обрабатываем 10/22/2019 2010 DB Blue template 6 ● CAD система ● Алайнеры (капы) и CAM/MES (manufacturing execution system)

Slide 7

Slide 7 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Хранилище данных: Amazon Redshift/Spectrum Используем S3, SQS, EC2, RDS PostgreSQL Языки в проекте: Java, XQuery, SQL Фреймворки: Spring Framework/Boot, AspectJ, Cucumber, SchemaSpy, BaseX Как мы обрабатываем данные? 10/22/2019 2010 DB Blue template 7 http://basex.org

Slide 8

Slide 8 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Java в тренде? 10/23/2019 2010 DB Blue template 8 https://madnight.github.io/githut/#/pull_requests/2019/3

Slide 9

Slide 9 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии JSON Query Language(JSONiq) vs XQuery Импорт из CSV файлов в Redshift Слабоструктурированные данные 10/22/2019 2010 DB Blue template 9 https://habr.com/post/352810/ https://habr.com/ru/post/446380/

Slide 10

Slide 10 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии https://www.dbvis.com/ http://schemaspy.org Визуализация/документирование схемы БД 10/22/2019 2010 DB Blue template 10

Slide 11

Slide 11 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Маркетинг – враг разработчику 10/22/2019 2010 DB Blue template 11 https://habr.com/ru/post/444472/

Slide 12

Slide 12 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Привязка к поставщику (англ. vendor lock-in, proprietary lock-in, customer lock-in, «барьер для смены поставщика») — бизнес-модель, в которой устанавливается зависимость потребителя от продуктов и услуг одного поставщика, намеренно создаются осложнения для смены поставщика из-за высоких затрат на переход. https://goo.gl/pEbnWR Маркетинг – враг разработчику 10/22/2019 2010 DB Blue template 12

Slide 13

Slide 13 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Обзор БД для аналитики 10/22/2019 2010 DB Blue template 13 Column-oriented DBMS Data Lake Operation Row-oriented Column-oriented Aggregate operations slow fast Insert/Update fast slow Select single record fast slow Select few columns skip unnecessary data fast Compression low high

Slide 14

Slide 14 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Реляционные БД Телеметрия ПО и аппаратного обеспечения Слабоструктурированные данные Двоичные данные – изображения КТ, 3D геометрия, Озера данных: источники 10/22/2019 2010 DB Blue template 14

Slide 15

Slide 15 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Слои данных: ● Raw ● Curated ● Anonymized test data Озера данных: слои 10/23/2019 2010 DB Blue template 15

Slide 16

Slide 16 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Озера данных: языки запросов и типы данных 10/22/2019 2010 DB Blue template 16 Модель данных Язык запросов Реляционная SQL Внешние реляционные таблицы(CSV,Parquet,ORC,Avro) SQL Слабоструктурированная (JSON, XML, YAML) xQuery(XPath), JSONiq(JsonPath) Графовая Cypher QL, Gremlin, SPARQL Двоичные данные Программы,скрипты ETL/MR

Slide 17

Slide 17 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Основан на Postgresql 8.0.2 форке (ParAccel MPP) v8.0.2 – 2005-04-07 + интеграция с AWS сервисами, AWS hosted/managed + привычные JOIN и SQL, поддержка оконных функций - Ограничения целостности не применяются - Аскетичный набор функций, типов данных - Время простоя при добавлении узла - Импорт данных только из S3 - «Морально устарела», не доступна установка локально Обзор БД для аналитики: Redshift/Spectrum 10/22/2019 2010 DB Blue template 17

Slide 18

Slide 18 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии На основе Postgresql 11 (не форк!) v11.0 – 2018-10-18 + Open source расширение PG – безопасность и производительность последних версий PostgreSQL. + Распределенные транзакции + Добавление узлов без простоя в обслуживании - Отсутствие поддержки пользовательских функций для агрегации данных Обзор БД для аналитики: CitusDB 10/22/2019 2010 DB Blue template 18

Slide 19

Slide 19 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Postgresql 11 wire protocol + Аналитика на данных в памяти, анализ временных рядов (kdb+, TimescaleDB) + Привычные JOIN и SQL, оконные функций + Возможно встраивание в приложение на JVM, без IPC - Малое сообщество OSS Обзор БД для аналитики: OpenQuestDB 10/22/2019 2010 DB Blue template 19

Slide 20

Slide 20 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии + Источники данных: S3, Redshift, ElasticSearch, PostgreSQL, MySQL, Oracle, MSSQL + Apache Arrow «под капотом» - Малое сообщество OSS версии(адаптеры к РСУБД проприетарные) - Секционирование данных в Data Reflections - Не поддерживает параметры в JDBC драйвере - Малое сообщество OSS Обзор БД для аналитики: Dremio 10/23/2019 2010 DB Blue template 20

Slide 21

Slide 21 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии Обзор БД 10/23/2019 2010 DB Blue template 21 База данных Основан на JOIN любых таблиц Разнородные источники данных Полнотекстовый поиск, геопоиск Redshift PostgreSQL 8.0.2 Да Через Redshift Spectrum Нет CitusDB Расширение PostgreSQL 11 Да Через PostgreSQL FDW Да Dremio Arrow, JVM Да Да Нет OpenQuestDB Postgresql 11 wire protocol, JVM Да Да Нет https://github.com/dremio/dremio-oss https://github.com/citusdata/citus https://github.com/questdb/OpenQuestDB

Slide 22

Slide 22 text

Сухоруков Игорь Big data/data lake в цифровой ортодонтии 10/23/2019 2010 DB Blue template 22 Senior Data Scientist https://hh.ru/vacancy/31737569 Senior Big Data Engineer https://hh.ru/vacancy/34216485

Slide 23

Slide 23 text

Спасибо! [email protected] linkedin.com/in/suhorukov github.com/igor-suhorukov