Slide 1

Slide 1 text

CI/CD Pytest для тестирования качества данны х здравоохранения в Великобритании Артур Зиннуров -Swansea University Прагматический обзор фреймворков непрерывного тестирования для платформ медицинских данных, ориентированный на интеграцию с конвейерами CI/CD для обеспечения надежности и соответствия требованиям.

Slide 2

Slide 2 text

Артур Зиннуров Swansea University - SeRP • Django Fullstack-разработчик • Data scientist • Работа с медицинскими организациями и университетами для разработки веб- приложений

Slide 3

Slide 3 text

Наш проект - Concept Library Зачем это нужно? • Помогает стандартизировать определения медицинских состояний • Позволяет получать статистику заболеваний • Часть совместной работы по созданию TRE(Trusted Reserach Enviroment) • Необходим для последовательных исследований в разных учреждениях • Создание Open source платформы Наша платформа содержит около 300 тысяч медицинских кодовых списков, которые помогают исследователям проводить медицинские исследования по всей Великобритании.

Slide 4

Slide 4 text

Что такое данные о здоровье в Великобритании? Данные о здоровье в Великобритании часто включают стандартизированные коды для диагнозов и процедур. Одним из распространенных стандартов является Международная классификация болезней, (ICD-10). Категория Первый символ, буква от A до Z, обозначает главу или основную категорию диагноза или процедуры. Например S - Повреждения отдельны х областей тела (раны, переломы, вывихи) Этиология, анатомическая локализация, тяжесть Следующие две цифры определяют причину, локализацию или тяжесть состояния. Например 86 - где 8 это нижняя часть тела, а 6 конкретизация: мышцы и сухожилия голени Разделитель подкатегорий Десятичная точка отделяет категорию от более конкретных деталей. Конкретное заболевание, клиническая картина или локализация До трех цифр после десятичной точки предоставляют дополнительные сведения о конкретном заболевании, клинической картине или локализации.

Slide 5

Slide 5 text

Пример кода - S86 - ICD10

Slide 6

Slide 6 text

Наш проект - Concept Library

Slide 7

Slide 7 text

Наш проект - Concept Library

Slide 8

Slide 8 text

В чем проблема? • Бюрократия при получении одобрения кодового списка • Ошибки со стороны аналитиков при внесения кода • Соответствие нормативным требованиям (GDPR, безопасность данных NHS) • Высокий риск раскрытия конфиденциальной информации • Общее пренебрежение тестированием PR перед выпуском

Slide 9

Slide 9 text

Решения? 1. Комплексное покрытие тестами всех путей передачи данных 2. Автоматизированное Unit/Functional testing 3. Использование синтетических данных, чтобы избежать длительного времени утверждения файлов

Slide 10

Slide 10 text

Синтетические данные Синтетические данные в здравоохранении — это искусственные данные о пациентах без информации о пациентах, которые содержат только анонимизированную информацию из медицинских записей. Типы синтетических данных: • Low-fidelity — идеально подходит для создания представления о том, как данные будут структуированы в качестве основы • High-Fidelity— будет иметь взаимосвязь между закономерностями каждого набора данных.

Slide 11

Slide 11 text

Текущая инфраструктура Текущий стек: • R • Trino • Sqlalchemy • Python • Pandas • Numpy

Slide 12

Slide 12 text

Решение - CI/CD pipeline CI/CD Pipeline stack: • PostgresSQL • GithubActions • Selenium • Allure • Pytest • Act • Python

Slide 13

Slide 13 text

Результаты

Slide 14

Slide 14 text

До После

Slide 15

Slide 15 text

Выводы 1. Понимание правил управления, специфичных для тестирования программного обеспечения для здравоохранения Великобритании. 2. Каковы другие границы тестирования медицинского программного обеспечения в других странах или организациях? 3. Какие еще существуют передовые методы внедрения среды тестирования в такой области, как здравоохранение, и понимание важности этого? 4. Юридические аспекты использования синтетических данных

Slide 16

Slide 16 text

Спасибо за внимание : )