Presented at Bio"Pack"athon 2024 #7 on July 10, 2024, at 17:00
https://biopackathon.connpass.com/event/320217/
## Presented Analyses
- Single-cell RNA-seq with Snowpark Container Service
- Storage and annotation of VCF data for variant analysis
- In silico drug discovery using Snowflake Notebooks and Streamlit
## Results
- Successfully hosted Rstudio on SPCS to analyze single-cell RNA-seq, loading Seurat Data into SeuratObject and drawing UMAP plots.
- Demonstrated the capability of hosting shiny applications on SPCS, enabling the use of many life sciences tools on Snowflake.
- Showed the integration of open data from DRAGEN 1000-Genomes and ClinVar from the Registry of Open Data on AWS using Snowflake external stages.
- Screened the top 10 compounds similar to the neuraminidase inhibitor "Laninamivir" on Snowflake Notebooks and visualized molecular structures with Streamlit.
- Highlighted the ease of setting up environments for multi-omics analysis.
## Benefits of Variant Analysis with VCF Files on Snowflake
- Managing Filtering Workflows: Unlike traditional methods which generate numerous intermediate files (e.g., CSV or VCF), Snowflake stores everything in tables.
- Easy Data Filtering with SQL: Compared to tools like Snpsift, Snowflake allows for filtering conditions to be easily saved in SQL.
- Storage Compression Benefits: Snowflake supports unstructured data, including VCF files, and automatically compresses storage upon ingestion.
## Benefits of In Silico Drug Discovery on Snowflake
- Access to Snowflake’s Machine Learning Frameworks: Use frameworks like Snowpark ML without the need for data transfer, complex infrastructure setup, or local environment setup, enabling rapid and efficient machine learning execution.
- Efficient Storage of Large Compound Datasets: Centralized management of large compound and biological datasets needed for the drug discovery process, facilitating quick screening of promising compounds.
- End-to-End High-Computing Resource Analysis: SPCS enables end-to-end analysis for high-computing resource-demanding tasks like molecular dynamics (MD) or docking simulations.
## Data Clean Room
- On-demand data anonymization
- Sharing of regulated patient data with pharmaceutical companies (increasing the number of patient samples)
- Enriching data to analyze and identify patterns in patient outcomes across clinical trials
## Handling Life Sciences Data with Cortex LLM
- Ability to handle unstructured data such as medical data PDFs and build LLM models that understand biomedical terms
- The abundance of publicly available data in the bio domain can be used to construct LLMs
- Use cases include models that query relevant patient datasets
----------------------------------------------------------------------------------
2024年7月10日 17:00 Bio"Pack"athon 2024 #7 にて登壇した資料になります。
https://biopackathon.connpass.com/event/320217/
■紹介した解析
・Snowpark Container ServiceでシングルセルRNA-seq
・VCFデータの格納とアノテーション情報をつけてバリアント解析
・Snowflake NotebooksとStreamlitを用いたIn silico創薬
■結果
・SPCS上にRstudioをホストしてシングルセルRNA-seq解析することでSeurat DataからSeuratObjectをロードして解析をしてUMAPプロットの描画に成功。
・shiny-applicationがSPCSに問題なくホスト可能なため、多くの生命科学系ツールのsnowflakeでの利用が可能
・snowflakeの外部ステージを利用してRegistry of Open Data on AWSのDRAGEN 1000-GenomesやClinVarのオープンデータを取り込むことができる。
・Snowflake Notebooks上でノイラミニダーゼ阻害薬「ラニナミビル」に類似した化合物Top10をスクリーニングし、Streamlitで分子構造を可視化した
・マルチオミクスを行う環境が簡単にセットアップ可能
■SnowflakeでVCFファイルのバリアント解析をするメリット
・フィルタリングワークフローの管理
→バリアント解析はcsvやvcfなど大量な中間ファイルができがち。Snowflakeなら全てテーブルで保存できる。
・SQLによる簡便なデータフィルタリング
→Snpsiftなどのツールと比較するとフィルタリング条件がSQLで保存しやすい。
・Snowflake上でのストレージ圧縮メリットを受けれる
→SnowflakeはVCFを含む非構造化データをサポートしている。Snowflakeに取り込むだけでストレージ容量を圧縮してくれる。
■SnowflakeでIn silico創薬をするメリット
・Snowflakeが用意する機械学習フレームワークを利用可能
→Snowpark MLなどデータの移動や複雑なインフラの設定、ローカルでの環境構築が不要で迅速かつ効率的な機械学習の実行が可能
・大量の化合物データセットを効率よく格納
→創薬プロセスにおいて必要となる大量の化合物データや生物学的データを一元管理が可能。めぼしい化合物を類縁体スクリーニングに素早くかける事ができる
・ハイコンピューティングリソースが要求される解析まで一貫して解析が可能
→SPCSを利用すれば、MDやドッキングシミュレーションといったハイコンピューティングリソースが要求される解析までエンドツーエンドで解析することが可能
■Data Clean Room
・オンデマンドでデータを匿名化
・規制対象の患者データを製薬会社と共有できる(患者サンプル数の拡大)
・データをエンリッチメントして分析し、臨床試験全体で患者アウトカムのパターンを特定
■Cortex LLMによるライフサイエンスデータの取り扱い
・医療データPDFなど非構造化データを扱えることや生物医学用語を理解するLLMモデルの構築が可能
・バイオ系は公開データがたくさんあり、それを使ってLLMを構築することができる
・ユースケースとして関連する患者データセットを照会するモデルなど