Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Вячеслав Котрачев «Data Science в Life Sciences»

DotNetRu
December 06, 2018

Вячеслав Котрачев «Data Science в Life Sciences»

В настоящее время life sciences (науки о жизни) - одна из самых бурно развивающихся прикладных научных областей. Data science (наука о данных) с начала 2010-х годов тоже стала очень популярной - во многом благодаря росту вычислительной мощности машин, с одной стороны, и росту количества данных в цифровом виде, с другой.

Вячеслав расскажет как наука о данных помогает наукам о жизни делать мир лучше:
- что такое life sciences и что они изучают;
- что такое data science и чем она занимается;
- как data science работает в life sciences — а если не работает, то почему;
- какие проблемы life sciences решают в Аркадии при помощи data science.

DotNetRu

December 06, 2018
Tweet

More Decks by DotNetRu

Other Decks in Programming

Transcript

  1. О себе • 18 лет в IT • Frontend, backend,

    DB – MS stack • C++ -> .NET -> R/Python
  2. Machine Learning Train neural network Predict Training set X, Y

    Trained neural network New data X Y Train linear model Predict Training set X, Y Trained linear model New data X Y
  3. Life sciences • Agriculture, Fisheries & Food • Anatomy &

    Morphology • Behavioral Sciences • Biology, Biochemistry and Biotechnology • Biophysics • Ecology, Evolution & Environment • Entomology • Forestry • Genetics & Heredity • Immunology • Mycology • Paleontology • Parasitology • Pharmacology & Pharmacy • Physiology • Plant Sciences • Toxicology • Veterinary Sciences • Virology • Zoology • …
  4. Модель нейрона x1 x2 x3 w1 w2 w3 y Веса

    (weights) Алгоритм настраивает
  5. Пример – компьютерная диагностика • Сегментирование: на что именно смотрим?

    • Извлечение признаков: как представляем? • Классификация: к какому классу относится представление?
  6. Пример – компьютерная диагностика • Сегментирование: на что именно смотрим?

    • Извлечение признаков: как представляем? • Классификация: к какому классу относится представление?
  7. Пример – компьютерная диагностика • Сегментирование: на что именно смотрим?

    • Извлечение признаков: как представляем? • Классификация: к какому классу относится представление? 0.1 0.1 0.8
  8. Пример – компьютерная диагностика • Сегментирование: на что именно смотрим?

    • Извлечение признаков: как представляем? • Классификация: к какому классу относится представление? 0.1 0.1 0.8 X Y NN SVM GBM logit model
  9. Пример – компьютерная диагностика • Более простая форма – триаж

    • Классы – степени критичности • До поступления к эксперту 0.8 0.2 Помочь ASAP Подождет
  10. Пример – компьютерная диагностика (2004) T Cells Cause Lung Damage

    in Emphysema. PLoS Med 1(1): e25. https://doi.org/10.1371/journal.pmed.0010025 0.1 0.1 0.8 0.1 0.2 0.7 0.2 0.7 0.1
  11. Пример – разработка лекарств • Найти действующее вещество с нужными

    свойствами • Связывается с правильным белком • Не связывается с неправильными • Перебирать все – слишком долго и дорого (1060 веществ)
  12. Пример – разработка лекарств • Предсказать результат до эксперимента •

    Отбросить обречённые вещества • Сосредоточиться на перспективных Virtual Screening Candidates Good Bad
  13. Пример – разработка лекарств • Biosignature Based Drug Design •

    Известна способность некоторых веществ связываться с некоторыми белками • Предсказать эту способность для других комбинаций вещество-белок Белок 1 Белок 2 … Белок m Вещество 1 Модель 1 Модель 2 … Модель m Вещество 2 … Вещество n
  14. Пример – разработка лекарств • Biosignature Based Drug Design •

    Известна способность некоторых веществ связываться с некоторыми белками • Предсказать эту способность для других комбинаций вещество-белок
  15. Интеллектуальный анализ текста (Text mining) • Классификация документов • Кластеризация

    документов • Извлечение именованных сущностей • Анализ тональности • Суммаризация текста • Извлечение отношений
  16. IBM Watson for Oncology Истории болезни Медицинские журналы Учебники Исследования

    Данные нового пациента Диагноз Рекомендации по лечению
  17. IBM Watson for Oncology Истории болезни Медицинские журналы Учебники Исследования

    Данные нового пациента Диагноз Рекомендации по лечению Из одного медцентра. Предвзятость.
  18. Инструмент - NumPy, SciPy, Pandas - StatsModels - Matplotlib, Seaborn,

    Plotly, Bokeh - Scikit-learn - XGBoost, LightGBM - TensorFlow, Keras - dplyr, readr, data.table, xts - ggplot2, plotly - caret - gbm, XGBoost, randomForest - TensorFlow, Keras
  19. Инструмент - ML.NET - https://github.com/dotnet/machinelearning/ - Microsoft Cognitive Toolkit -

    https://www.microsoft.com/en-us/cognitive-toolkit/ - Microsoft Cognitive Services - https://azure.microsoft.com/en-us/services/cognitive-services/ - Accord.NET - https://github.com/accord-net/framework - Encog - https://github.com/encog/encog-dotnet-core - numl - https://github.com/sethjuarez/numl - SharpLearning - https://github.com/mdabros/SharpLearning
  20. Инструмент - Линейная алгебра - Математическая статистика - Методы оптимизации

    - Структуры данных - Теория вероятностей - Многомерный анализ - machinelearning.ru - Курс «Машинное обучение» 2014 – К.В. Воронцов. - https://www.youtube.com/results?search_query=машинное+обучение