Доклад на Big Data Days 2020
Возможность предоставить данные data science коллегам для клинических исследований в цифровой ортодонтии и улучшения производства может быть непростой задачей, если в компании множество систем, созданных и интегрированных за более чем 20-летнюю историю работы компании. Предоставить учёным по данным, аналитикам и конечным пользователям необходимую информацию из множества источников нужно с сохранением всех удобств существующей облачной базы данных с массивно-параллельной архитектурой, хранящей клинические данные/измерения 3D геометрии и телеметрию САПР Treat. Поскольку компания движется по пути работы с несколькими облачными провайдерами, то и решение должно быть переносимое и работать как в облаке, так и в собственном ЦОД компании. В докладе сконцентрируюсь на реляционных источниках данных, так как они составляют основной объем данных и дают наибольшую пользу сегодня. Dremio Open Source на основе Apache Arrow инструмент будущего для аналитики Больших Данных, который приносит нам ежедневную пользу сейчас, как система реплицирующая данные из различных источников в S3 хранилище в формате Apache Parquet. Пользователи выполняют запросы к этим данным унифицированно через Redshift Spectrum из Python, Jupyter Notebook, psql, ODBC/JDBC клиентов и Power BI.